Changes between Version 9 and Version 10 of normalization/5


Ignore:
Timestamp:
Dec 12, 2010, 8:56:43 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/5

    v9 v10  
    3333In vielen Texten wird es tatsächlich keine Notwendigkeit geben, es zu verwenden. Aber häufig enthalten unsere Rohtexte Informationen, die wir nicht sinnvoll in Unicode kodieren können. Zum Beispiel enthält Pappus 1660 aus Work Order 1 diverse griechische Ligaturen und Abbreviaturen, also Formen wie {πρ}ός (im Text steht meistens die Form {πρ}ὸς). Wir können es zurzeit nicht leisten, die Transkription des griechischen Textes auf Korrektheit zu überprüfen, deshalb verschieben wir die hier erkannte πρ-Ligatur in das faithful-Attribut:
    3434
    35 <reg faithful="{πρ}ός">πρός</reg>
     35 <reg faithful="{πρ}ός">πρός</reg>
    3636
    3737Die Informationen über Ligaturen sind insbesondere deshalb enthalten, weil wir eventuelle Transkriptionsfehler der Chinesen korrigieren können wollen. Ein mögliches Szenario: Ein Forscher findet, {πρ} ist falsch transkribiert worden. Festgestellt hat er das, indem er auf das Image der Buchseite geschaut hat. Jetzt kann er mit einer einzigen XQuery alle Stellen von {πρ} im Text finden und alles auf einmal korrigieren. (Für die XQuery sollte es wohl eine Checkbox in den Suchoptionen geben: "Suche in faithful".)
     
    9191 1. Das Zeichen könnte im Prinzip mit einem PUA-Zeichen wiedergegeben werden, aber wir haben keinen Font, der es dann auch anzeigen kann. Beispiel: kursives "" wie in ſenatori́ (Benedetti p.296). Siehe die ausführliche Diskussion unten.
    9292
    93 Die ausstehende Frage ist zu Original und faithful ist, ob PUA-Zeichen in Original oder in faithful kommen. Regularisiert wird das Wort in jedem Fall, denn zum Beispiel "ꝫ" ist mit oder ohne Ligatur ein Abkürzungszeichen. Man kann also kein <reg> einsparen, wenn man PUA-Zeichen in Original erlaubt, allerdings werden sie bei PUA in faithful durch das zusätzliche faithful-Attribut etwas länger.
     93Die ausstehende Frage ist zu Original und faithful ist, ob PUA-Zeichen in Original oder in faithful kommen. Regularisiert wird das Wort in jedem Fall, denn zum Beispiel "ꝫ" ist mit oder ohne Ligatur ein Abkürzungszeichen. Man kann also kein <reg> einsparen, wenn man PUA-Zeichen in Original erlaubt, allerdings werden sie bei PUA in faithful durch das zusätzliche faithful-Attribut etwas länger. Ich neige eher dazu, PUA-Zeichen in faithful zu verschieben.
    9494
    9595Für PUA in Original spricht:
     
    104104
    105105Ein weiteres Argument: Benedetti enthält einige medievalist characters, sie werden aber nicht mehr wie im Alvarus standardmäßig verwendet. Ein schwieriger Fall ist aber das kursive Wort $enatori\'{que} (Benedetti p.296). Das Zeichen {que} könnte wieder mit dem PUA-Zeichen  wiedergegeben werden:
    106  * <reg norm="ſenatorique">ſenatori́</reg>
     106 <reg norm="ſenatorique">ſenatori́</reg>
    107107Aber wir haben keinen Font, der es dann auch in seiner kursiven Form anzeigen kann. Stattdessen müsste man schreiben:
    108  * <reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg>
     108 <reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg>
    109109{q3-it-a} wird dann entweder als Text wiedergegeben, oder es gibt eine Datei `q3-it-a` vom Typ jpg/gif/bmp, svg, etc.
    110110
    111111Es ist unklar, in welchem Arbeitsschritt die Information hineinkommt, dass es eine kursive Textstelle ist, und dass wir dieses spezielle Zeichen kursiv nicht anzeigen können. Das Problem ist zwar im reg-Skript lösbar, aber vielleicht wäre das ein weiteres Argument, PUA-Zeichen doch nur im faithful-Attribut zuzulassen. Dann kann man nämlich automatisiert ein funktionierendes <reg> erstellen:
    112  * <reg faithful="ſenatori́" norm="ſenatorique">ſenatoriq́ꝫ</reg>
     112 <reg faithful="ſenatori́" norm="ſenatorique">ſenatoriq́ꝫ</reg>
    113113Wenn zu irgendeinem Zeitpunkt klar wird, dass wir das Zeichen im faithful-Attribut gar nicht anzeigen können, kann man es ändern in
    114  * <reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg>
     114 <reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg>
    115115
    116116Der Name {q3-it-a} ist eine Verkürzung des MUFI-Namens "q3app" mit dem Zusatz it für kursiv und a für Akut. {q3-it-a} enthält also den Akut bereits. Selbst wenn wir ein Bild von {q3-it} haben, können wir wohl nicht erwarten, ein Bild korrekt mit einem combining acute anzuzeigen.