Changes between Version 17 and Version 18 of normalization/6


Ignore:
Timestamp:
Dec 8, 2010, 5:37:25 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v17 v18  
    119119
    120120 * ſ wird zu s
    121  * Es gibt (zumindet für die Textanzeige) keine Normalisierungsregeln für Satzzeichen.
    122  * Bindestriche werden in der Textanzeige nicht normalisert. Für das Wörterbuch werden Bindestrich am Ende der Zeile entfernt und das Wort zusammengesetzt.
     121 * Es gibt (zumindest für die Textanzeige) keine Normalisierungsregeln für Satzzeichen.
     122 * Bindestriche werden in der Textanzeige nicht normalisiert. Für das Wörterbuch werden Bindestrich am Ende der Zeile entfernt und das Wort zusammengesetzt.
    123123 * Als normalisierenswerte Diakritika kommen nur ó ò ô ö õ ō ŏ in Frage, alle anderen Diakritika sind Fehler und werden nicht normalisiert.
    124124 * Umgang mit hyphen und soft hyphen, <lb/> etc.
    125125 * Umgang mit combining characters versus precomposed characters
    126  * Falls nicht explizit anders angegeben, gelten alle für Kleinbuchstaben aufgestellten Regeln entsprechend auch für eventuelle Großbuchstaben. Beispiele:
     126 * Falls nicht explizit anders angegeben, gelten alle für Kleinbuchstaben aufgestellten Regeln in der Textanzeige entsprechend auch für eventuelle Großbuchstaben. (In der Normalisierung für das Wörterbuch entfällt die Version für Großbuchstaben, weil vermutlich nur Kleinbuchstaben weitergeleitet werden.) Beispiele:
    127127  * Aus "ò wird zu o" folgt die Regel "Ò wird zu O".
     128  * Aus "æ wird zu ae" folgt die Regel "Æ wird zu AE" (und nicht Ae)
    128129  * Die Regel "ſ wird zu s" hat kein Gegenstück, weil es kein großes ſ gibt.
    129130 
     
    150151   * andere Diakritika werden nicht normalisiert. Insbesondere die Zeichen 1E14-1E1D und 1EB8-1EC7 und die Äquivalente für die anderen Vokale werden nicht normalisiert.
    151152 * Medievalist characters wie ꝙ (A759) sollten regularisiert sein. Wenn sie doch noch enthalten sind, werden sie nicht normalisiert.
    152  * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in Lex. Beispiele für Malcolms Algorithmus:
     153 * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in Lex.
    153154 
    154 || vnum || unum ||
    155 || diuerſarum || diversarum ||
    156 || DIVERSARVM || DIVERSARUM ||
    157 || PARVVS || PARUUS ||
    158 || octauum || octavum ||
    159 || loquuti || loquuti ||
    160 
    161155Überflüssige Diakritika können zur Lemma- und-Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden.
    162156
     
    167161Beachte das Kodierungsproblem bei der Kommunikation mit Donatus: Wahrscheinlich wird ISO 8859-1 verwendet.
    168162
    169 Arboreal: Solange nicht klar ist, warum Malcolm  〈 (2329) und  〉 (232A) normalisiert hat, werden sie bei uns nicht normalisiert.
     163Arboreal:
     164 * Solange nicht klar ist, warum Malcolm  〈 (2329) und  〉 (232A) normalisiert hat, werden sie bei uns nicht normalisiert.
     165 * ç wird nicht normalisiert
    170166
    171167Was machen wir mit unterschiedlichen Schreibweisen? Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). Eine Wortliste? Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Ist das eine Aufgabe der Normalisierung oder doch der Regularisierung? Es ist jedenfalls kein Textfehler und auch nicht buchspezifisch.)
     
    197193Darüber hinaus ist eine orthographische Normalisierung deutscher Texte schwierig. Eventuell wird es mehrere verschiedene Normalierungsregeln in Abhängigkeit vom Alter des Textes geben.
    198194
     195Die Regel "é wird zu e" in Arboreal ist mir unklar, deshalb wird sie nicht übernommen.
     196
    199197=== Fraktur ===
    200198
     
    217215ZWS werden in der Normalisierung entfernt.
    218216
    219 Arboreal: hochgestellte 1 bis 5 werden erstmal nicht normalisiert. (aber Teil der Wortende-Markierung??)
     217Die Arboreal-Regeln für fullwidth space, einige Satzzeichen und hochgestellte 1 bis 5 werden nicht übernommen.
    220218
    221219Einen Service zur Umwandlung von Lang- in Kurzzeichen könnte man zwar auch anbieten, aber wirklich sinnvoll wäre das für klassisches Chinesisch wohl nicht.