Changes between Version 22 and Version 23 of normalization/5


Ignore:
Timestamp:
Jan 17, 2011, 10:10:11 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/5

    v22 v23  
    11[[PageOutline(1-4,,pullout)]]
    22
    3 == 5. Wie soll regularisiert werden? ==
     3[wiki:normalization Regularisierung und Normalisierung],
     4I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7]
     5
     6= 5. Wie soll regularisiert werden? =
    47
    58Die Regularisierung eines Textes mit Hilfe von <reg> ist wohlbekannt. Schon vor Beginn des MPDL-Projektes wurde das <expan> aus dem Archimedes-Projekt in <reg> umbenannt, und vor einem halben Jahr wurde die Struktur von <reg> umgestellt: 
     
    1114Beispiele für Regularisierungen sind in [wiki:normalization/4 dieser Tabelle] zu sehen.
    1215
    13 === Ziele ===
     16== Ziele ==
    1417
    1518Durch die Regularisierung soll im Idealfall eine Textgestalt geschaffen werden, die zusammen mit der Normalisierung einer klassischen Text-Edition entspricht.
     
    2730
    2831
    29 === Das faithful-Attribut ===
     32== Das faithful-Attribut ==
    3033
    3134Das faithful-Attribut nimmt Informationen aus dem Rohtext auf, die wir zurzeit noch nicht richtig darstellen können und die die Suche brechen. (Ein anderer möglicher Name wäre "facsimile".)
     
    4649Das type-Attribut in <reg> wird sich wohl weiterhin nur auf den Inhalt des norm-Attributs beziehen. Es wird sowieso nicht vom Anzeigesystem ausgewertet und soll nur menschenlesbar erklären, wie es zu einer bestimmten Regularisierung gekommen ist.
    4750
    48 === Zusammenhang mit den Anzeigemodi ===
     51== Zusammenhang mit den Anzeigemodi ==
    4952
    5053Bei den Anzeigemodi ist "faithful" als eine Checkbox von Original realisiert.
     
    6164
    6265
    63 === Die Grenze zwischen orig und faithful ===
     66== Die Grenze zwischen orig und faithful ==
    6467
    6568In diesem Abschnitt geht es um die Frage, wo die Grenze zwischen Original und faithful gezogen wird.
     
    7982Gruppen 4 und 5 gehören zu faithful; für diesen Gruppen ist faithful ja eingeführt worden. Entscheidend ist, dass wir ein Zeichen in der Vorlage nicht durch mehrere Zeichen in Original wiedergeben wollen. Zum Beispiel können wir IDS-Sequenzen, die naturgemäß aus mehreren offiziellen Unicode-Zeichen bestehen, zurzeit noch nicht richtig (d.h. als ein einzelnes Schriftzeichen) darstellen. Eine nicht umgewandelte IDS-Sequenz würde also die Textvorlage nur indirekt wiedergeben. Um diese Gruppen korrekt anzuzeigen, muss man also auf der Server-Seite Programmieraufwand betreiben.
    8083
    81 === Die PUA ===
     84== Die PUA ==
    8285
    8386Wir würden gerne einfach alle PUA-Zeichen zum Beispiel der MUFI verwenden, aber unsere Texte müssen in einem Web-basierten System anzeigbar sein. Die Anzeigeprobleme für die vorliegende Wiki-Seite auf dem Bildschirm und auf Papier sind bereits ein Hinweis für die Schwierigkeiten des Themas. Klar ist:
     
    130133Dass im zweiten Fall im faithful-Attribut unterschiedliche Dinge stehen, ist unbefriedigend, aber vielleicht nicht zu ändern. (Man könnte den Unterschied eventuell kleiner machen, indem man "ſenatori́" durch "ſenatori{q3-a}" ersetzt. Für {q3-a} könnte dann im System statt einem Bild das PUA-Zeichen ́ hinterlegt sein.) Der Unterschied im ersten Fall ist allerdings noch viel unbefriedigender als der zweite Fall. Das wäre also ein Argument gegen PUA-Zeichen in Original.
    131134
    132 === Abkürzungen ===
     135== Abkürzungen ==
    133136
    134137Abkürzungszeichen wie ꝙ oder ũ werden regularisiert, denn sie sind tatsächlich als Abkürzungen gedacht, wo der Setzer nicht genug Platz hatte. Zeichen wie ę sind dagegen wohl keine Abkürzungszeichen in diesem Sinne, sondern eine bestimmte Weise, den ehemaligen Diphthong ae zu verschriftlichen (zu ę siehe auch [wiki:e-caudata hier]).
     
    140143Die Lösung wie im Benedetti hätte jedenfalls den Vorteil, dass die Abkürzungen in der Textanzeige optisch erkennbar sind, weil alle <reg> optisch erkennbar sind. Und es wäre klar, was man im Wörterbuch suchen muss (unabhängig davon, ob es dann auch einen Wörterbucheintrag gibt).
    141144
    142 === Automatische Fehlerkorrektur ===
     145== Automatische Fehlerkorrektur ==
    143146
    144147In [wiki:normalization/4 dieser Tabelle] geht es um korrekt transkribierte Formen, d.h. die Transkription gibt wieder, was im Original steht. Dies wird natürlich nicht immer der Fall sein. Es steht daher an, die Textqualität automatisiert zu verbessern.
     
    154157Lesehilfe-Diakritika können wir möglicherweise zur Wortgrenzenerkennung verwenden, zum Beispiel beim fehlenden Leerzeichen in "ferècæteri" (Benedetti p.7).
    155158
    156 === Standard-Regularisierungen in allen Sprachen ===
     159== Standard-Regularisierungen in allen Sprachen ==
    157160
    158161* Fehler-Korrekturen
    159162* Abkürzungszeichen auflösen
    160163
    161 === Latein ===
     164== Latein ==
    162165
    163166 * reſiduũ wird zu reſiduum
     
    166169 * alle medievalist characters (Standard-Unicode und PUA-Zeichen) werden regularisiert
    167170
    168 === Deutsch ===
     171== Deutsch ==
    169172
    170173Die Vorgehensweise in deutschen Texten ist noch unklar. Bei einem modernen Text werden wohl nur echte Fehler regularisiert.
     
    178181(Sollten wir in Zukunft die Information uͤ versus ü markieren lassen? In Cardano kommt beides vor, offenbar ohne Bedeutungsunterschied. Und das alternative r? Eher vergleichbar mit ſ oder mit letter variation ϐ? Immerhin ist das alternative r in Unicode: ꝛ (A75B). Wenn sich der Benutzer den Text mit einem Fraktur-Font anzeigen lässt, wäre es sicher netter, wenn das alternative r richtig dargestellt wird. Aber gibt es überhaupt Fraktur-Fonts, die ausreichend kompatibel mit Unicode sind? Zwangsligaturen wie ch, ck, tz lassen wir auch nicht markieren und überlassen es einem eventuellen Fraktur-Font, sie korrekt darzustellen.)
    179182
    180 === Chinesisch ===
     183== Chinesisch ==
    181184
    182185In Unicode enthaltene Zeichenvarianten auf ihr Standardzeichen zurückzuführen ist Aufgabe der Normalisierung.
     
    195198Wir haben bisher noch keinen Font für ''Extension C'' und ''Extension D''. Diese Extensions sind viel kleiner als Extension B, und unsere Texte enthalten bisher keine Zeichen aus Extension C oder D. Wir werden mit dem Problem umgehen, wenn es auftritt.
    196199
    197 === Griechisch ===
     200== Griechisch ==
    198201
    199202Bei der Aufarbeitung von griechischem Text stehen wir noch am Anfang. Übliche Fehler in der Vorlage sind: