Changes between Version 9 and Version 10 of normalization/5
- Timestamp:
- Dec 12, 2010, 8:56:43 AM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/5
v9 v10 33 33 In vielen Texten wird es tatsächlich keine Notwendigkeit geben, es zu verwenden. Aber häufig enthalten unsere Rohtexte Informationen, die wir nicht sinnvoll in Unicode kodieren können. Zum Beispiel enthält Pappus 1660 aus Work Order 1 diverse griechische Ligaturen und Abbreviaturen, also Formen wie {πρ}ός (im Text steht meistens die Form {πρ}ὸς). Wir können es zurzeit nicht leisten, die Transkription des griechischen Textes auf Korrektheit zu überprüfen, deshalb verschieben wir die hier erkannte πρ-Ligatur in das faithful-Attribut: 34 34 35 <reg faithful="{πρ}ός">πρός</reg>35 <reg faithful="{πρ}ός">πρός</reg> 36 36 37 37 Die Informationen über Ligaturen sind insbesondere deshalb enthalten, weil wir eventuelle Transkriptionsfehler der Chinesen korrigieren können wollen. Ein mögliches Szenario: Ein Forscher findet, {πρ} ist falsch transkribiert worden. Festgestellt hat er das, indem er auf das Image der Buchseite geschaut hat. Jetzt kann er mit einer einzigen XQuery alle Stellen von {πρ} im Text finden und alles auf einmal korrigieren. (Für die XQuery sollte es wohl eine Checkbox in den Suchoptionen geben: "Suche in faithful".) … … 91 91 1. Das Zeichen könnte im Prinzip mit einem PUA-Zeichen wiedergegeben werden, aber wir haben keinen Font, der es dann auch anzeigen kann. Beispiel: kursives "" wie in ſenatorí (Benedetti p.296). Siehe die ausführliche Diskussion unten. 92 92 93 Die ausstehende Frage ist zu Original und faithful ist, ob PUA-Zeichen in Original oder in faithful kommen. Regularisiert wird das Wort in jedem Fall, denn zum Beispiel "ꝫ" ist mit oder ohne Ligatur ein Abkürzungszeichen. Man kann also kein <reg> einsparen, wenn man PUA-Zeichen in Original erlaubt, allerdings werden sie bei PUA in faithful durch das zusätzliche faithful-Attribut etwas länger. 93 Die ausstehende Frage ist zu Original und faithful ist, ob PUA-Zeichen in Original oder in faithful kommen. Regularisiert wird das Wort in jedem Fall, denn zum Beispiel "ꝫ" ist mit oder ohne Ligatur ein Abkürzungszeichen. Man kann also kein <reg> einsparen, wenn man PUA-Zeichen in Original erlaubt, allerdings werden sie bei PUA in faithful durch das zusätzliche faithful-Attribut etwas länger. Ich neige eher dazu, PUA-Zeichen in faithful zu verschieben. 94 94 95 95 Für PUA in Original spricht: … … 104 104 105 105 Ein weiteres Argument: Benedetti enthält einige medievalist characters, sie werden aber nicht mehr wie im Alvarus standardmäßig verwendet. Ein schwieriger Fall ist aber das kursive Wort $enatori\'{que} (Benedetti p.296). Das Zeichen {que} könnte wieder mit dem PUA-Zeichen wiedergegeben werden: 106 *<reg norm="ſenatorique">ſenatorí</reg>106 <reg norm="ſenatorique">ſenatorí</reg> 107 107 Aber wir haben keinen Font, der es dann auch in seiner kursiven Form anzeigen kann. Stattdessen müsste man schreiben: 108 *<reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg>108 <reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg> 109 109 {q3-it-a} wird dann entweder als Text wiedergegeben, oder es gibt eine Datei `q3-it-a` vom Typ jpg/gif/bmp, svg, etc. 110 110 111 111 Es ist unklar, in welchem Arbeitsschritt die Information hineinkommt, dass es eine kursive Textstelle ist, und dass wir dieses spezielle Zeichen kursiv nicht anzeigen können. Das Problem ist zwar im reg-Skript lösbar, aber vielleicht wäre das ein weiteres Argument, PUA-Zeichen doch nur im faithful-Attribut zuzulassen. Dann kann man nämlich automatisiert ein funktionierendes <reg> erstellen: 112 *<reg faithful="ſenatorí" norm="ſenatorique">ſenatoriq́ꝫ</reg>112 <reg faithful="ſenatorí" norm="ſenatorique">ſenatoriq́ꝫ</reg> 113 113 Wenn zu irgendeinem Zeitpunkt klar wird, dass wir das Zeichen im faithful-Attribut gar nicht anzeigen können, kann man es ändern in 114 *<reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg>114 <reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg> 115 115 116 116 Der Name {q3-it-a} ist eine Verkürzung des MUFI-Namens "q3app" mit dem Zusatz it für kursiv und a für Akut. {q3-it-a} enthält also den Akut bereits. Selbst wenn wir ein Bild von {q3-it} haben, können wir wohl nicht erwarten, ein Bild korrekt mit einem combining acute anzuzeigen.