Changes between Version 3 and Version 4 of normalization/5
- Timestamp:
- Dec 8, 2010, 8:52:28 AM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/5
v3 v4 3 3 == Regularisierung == 4 4 5 Die Regularisierung eines Textes mit Hilfe von <reg> ist wohlbekannt. Die Umstellung von `<reg orig="Original">Korrektur</reg>` zu `<reg norm="Korrektur">Original</reg>`, also zu <reg> als einer Annotation des Originaltextes, ist vollzogen.5 Die Regularisierung eines Textes mit Hilfe von <reg> ist wohlbekannt. Seit Archimedes wurde insbesondere die Struktur von <reg> umgestellt von `<reg orig="Original">Korrektur</reg>` zu `<reg norm="Korrektur">Original</reg>`, also zu <reg> als einer Annotation des Originaltextes. 6 6 7 7 Neu ist eine weitere Funktion von <reg>: Wenn wir im Rohtext Informationen haben, die wir nicht darstellen können, kommen diese in ein neues Attribut namens "faithful". Beispiele sind griechische Ligaturen und chinesische Zeichenvarianten, die nicht in Unicode sind. Die Idee, solche Zeichenvarianten in ein Attribut von <reg> zu schieben, stammt von Robert. … … 36 36 Es wird ein Workflow-Skript geben, das dabei hilft, `<reg faithful="{πρ}ός">πρός</reg>` durch πρός zu ersetzen. Beachte dabei insbesondere den Fall, dass in einem Wort wie {πα}ρε{σκ}{ευ}ασ{μέν}η die ersten beiden Ligaturen einfach sind, die anderen Ligaturen jedoch nicht. Dieses Skript wird auch helfen, beispielsweise `<reg norm="exem" type="context">exẽ</reg> <lb/>plo` durch `<reg norm="exem- plo" type="context">exẽ-<lb/>plo</reg>` zu ersetzen (eigentlich mit soft hyphen). 37 37 38 Das type-Attribut in <reg> wird sich wohl weiterhin nur auf den Inhalt des norm-Attributs beziehen. 38 Sobald der Inhalt von faithful sogar mit Unicode-Mitteln dargestellt werden kann, kommt er zurück in den Original-Text. 39 40 Das type-Attribut in <reg> wird sich wohl weiterhin nur auf den Inhalt des norm-Attributs beziehen. Es wird sowieso nicht vom Anzeigesystem ausgewertet und soll nur erklären, wie es zu einer bestimmten Regularisierung gekommen ist. 39 41 40 42 … … 49 51 || <reg faithful="faithful" norm="reg">orig</reg> || orig || faithful || reg || normalisiertes reg || 50 52 53 Das norm-Attribut hat immer noch einen unglücklichen Namen, denn der Name klingt, als ob es etwas mit der Normalisierung zu tun hätte. Ich möchte aber auch nicht <reg reg="korrigiert">Fehler</reg> verwenden. Wie wäre es mit "std"? 54 51 55 52 56 === Die Grenze zwischen orig und faithful === … … 59 63 1. Unicode-Zeichen: PUA der MUFI (zum Beispiel "") 60 64 1. Unicode-Zeichen: IDS, IVS 61 1. idiosynkratische Notationen wie {πρ}, {q -et-it-acute}65 1. idiosynkratische Notationen wie {πρ}, {q3-it-a} 62 66 63 67 Voraussetzung: Zu orig sollen mindestens Gruppe 1 und 2 gehören. Also zum Beispiel Zeichen aus dem Kernbereich wie "a", Zeichen aus Spezialgebieten wie der medievalist character "ꝫ", und offizielle Zeichen, für die wir selbst noch keinen Font haben, wie die Alchemie-Zeichen (nur in diesem Fall würden wir eine escape sequence wie `&x1F700;` verwenden). Ein Kernbereich von Unicode-Zeichen ist sowieso nicht klar definierbar. … … 79 83 Gegen Kriterium B: Um Gruppe 2 korrekt anzeigen zu können, muss der Benutzer einen MUFI-Font installieren. Normale Fonts können "ꝫ" nicht anzeigen. Wir erwarten auch, das der Benutzer sich einen Font für die CJK-Extension B installiert. Dann kann der Benutzer aber auch Zeichen der Gruppe 3 anzeigen lassen. 80 84 85 Kriterium A und B widersprechen sich nicht vollständig, und es gibt auch Argumente (siehe [#Dasfaithful-Attribut hier] und [#Latein hier]), die dafür sprechen, PUA-Zeichen nur im faithful-Attribut zu erlauben. Dann wäre die Trennung 1 2 versus 3 4 5. 86 81 87 Gegen Kriterium C: Zum Beispiel IDS-Sequenzen können wir zurzeit noch nicht richtig (d.h. als ein einzelnes Schriftzeichen) darstellen, obwohl sie aus offizellen Unicode-Zeichen bestehen. 82 88 … … 140 146 {q3-it-a} wird dann entweder als Text wiedergegeben, oder es gibt eine Datei `q3-it-a` vom Typ jpg, svg, etc. 141 147 142 Der Name {q3-it-a} ist eine Verkürzung des MUFI-Namens "q3app" mit dem Zusatz it für kursiv und a für Akut. {q3-it-a} enthält also den Akut bereits. Selbst wenn wir ein Bild von {q3-it} haben, können wir wohl nicht erwarten, ein Bild korrekt mit einem combining acute anzuzeigen.143 144 148 Es ist unklar, in welchem Arbeitsschritt die Information hineinkommt, dass es eine kursive Textstelle ist, und dass wir dieses spezielle Zeichen kursiv nicht anzeigen können. Das Problem ist zwar im reg-Skript lösbar, aber vielleicht wäre das ein weiteres Argument, PUA-Zeichen doch nur im faithful-Attribut zuzulassen. Dann kann man nämlich automatisiert ein funktionierendes <reg> erstellen: 145 149 * <reg faithful="ſenatorí" norm="ſenatorique">ſenatoriq́ꝫ</reg> … … 147 151 * <reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg> 148 152 153 Der Name {q3-it-a} ist eine Verkürzung des MUFI-Namens "q3app" mit dem Zusatz it für kursiv und a für Akut. {q3-it-a} enthält also den Akut bereits. Selbst wenn wir ein Bild von {q3-it} haben, können wir wohl nicht erwarten, ein Bild korrekt mit einem combining acute anzuzeigen. 154 155 Benedetti enthält das Zeichen nur in kursivem Text. Gäbe es das Zeichen auch in normalem Text, würde die entsprechenden <reg> so aussehen: 156 * PUA in Original erlaubt: 157 * upright: <reg norm="ſenatorique">ſenatorí</reg> 158 * kursiv: <reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg> 159 * PUA in Original nicht erlaubt: 160 * upright: <reg faithful="ſenatorí" norm="ſenatorique">ſenatoriq́ꝫ</reg> 161 * kursiv: <reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg> 162 Dass im zweiten Fall im faithful-Attribut unterschiedliche Dinge stehen, ist unbefriedigend, aber vielleicht nicht zu ändern. (Man könnte den Unterschied eventuell kleiner machen, indem man "ſenatorí" durch "ſenatori{q3-a}" ersetzt. Für {q3-a} könnte dann im System statt einem Bild das PUA-Zeichen ́ hinterlegt sein.) Der erste Fall ist allerdings noch viel unbefriedigender als der zweite Fall. Das wäre also ein Argument gegen PUA-Zeichen in Original. 163 164 Im faithful-Attribut könnte man auch die Idee wiederbeleben, das Zeichen durch die Sequenz q́ ZWJ ꝫ darzustellen. Hätte das irgendwelche Vorteile gegenüber dem PUA-Zeichen? 165 149 166 150 167 === Deutsch === … … 160 177 In Unicode enthaltene Zeichenvarianten auf ihr Standardzeichen zurückzuführen ist Aufgabe der Normalisierung. 161 178 162 Die Regularisierung ist im Chinesischen nur für die Erschließung der Zeichenvarianten zuständig, die nicht in Unicode enthalten sind. Dabeiwird im XML-Workflow das 中<国V> im Rohtext in einem ersten Schritt in ein XML-kompatibles 中{国V} geändert. Bei der Regularisierung:163 * 中<reg faithful="{⿴口 玉}">国</reg>, falls das Skript nicht auf eine von den Chinesen erstellte IDS-Sequenz wie ⿴口玉zurückgreifen kann179 Die Regularisierung ist im Chinesischen insbesondere für die Erschließung der Zeichenvarianten zuständig, die nicht in Unicode enthalten sind. Noch vor der Regularisierung wird im XML-Workflow das 中<国V> im Rohtext in einem ersten Schritt in ein XML-kompatibles 中{国V} geändert. Bei der Regularisierung: 180 * 中<reg faithful="{⿴口或}">国</reg>, falls das Skript nicht auf eine von den Chinesen erstellte IDS-Sequenz wie ⿴口或 zurückgreifen kann 164 181 * 中<reg faithful="{国}" type="unresolved">国</reg>, falls das Skript nicht auf eine IDS-Sequenz zurückgreifen kann; dann funktioniert immerhin die Suche. Man kann man diesen Schritt auch auslassen und das <reg> gleich per Hand erstellen. 165 * <reg faithful="中{⿴口 玉}">中国</reg> per Hand (Wortgrenzen beachten, eventuell IDS-Sequenz einfügen)182 * <reg faithful="中{⿴口或}">中国</reg> per Hand (Wortgrenzen beachten, eventuell IDS-Sequenz einfügen) 166 183 167 184 Die Entscheidung, ob eine nicht in Unicode vorhandene Zeichenvariante überhaupt markiert werden muss oder ob man einfach das Standardzeichen tippen kann, haben die Chinesen bereits aufgrund der Regeln in den chinesischen DESpecs getroffen. Da ein Zeichen nur beim ersten Mal markiert werden muss, muss man den Text durchgehen auf alle Vorkommnisse des Zeichens, und eventuell ein <reg> einfügen. Dafür wäre ein interaktives Skript wünschenswert. Beachte, dass im gleichen Text das Standardzeichen und mehr als eine Variante vorkommen können. 168 185 169 ( Und nein, die IDS-Sequenz ⿴口玉} ist natürlich nicht echt, denn sie beschreibt keine Variante, sondern das Standardzeichen.)186 (Die IDS-Sequenz {⿴口或} ist natürlich nicht echt, denn sie beschreibt einfach das Langzeichen 國 des Kurzzeichens 国.) 170 187 171 188 === Griechisch === … … 176 193 * echte Satzfehler 177 194 195 Bei der Aufarbeitung von griechischem Text stehen wir noch am Anfang. 196 178 197 Ähnlich wie im Chinesischen ist die Regularisierung für Ligaturen zuständig, die wir nicht mit Unicode-Mitteln ausdrücken können. Dabei wird einfach das Wort aus dem Rohtext in das faithful-Attribut geschoben. 179 198