Changes between Version 37 and Version 38 of normalization/6


Ignore:
Timestamp:
Dec 19, 2010, 5:07:20 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v37 v38  
    184184   * Andere Diakritika werden nicht normalisiert. Insbesondere die Zeichen 1E14-1E1D und 1EB8-1EC7 und die Äquivalente für die anderen Vokale werden nicht normalisiert.
    185185 * ''Medievalist characters'' wie ꝙ (A759) sollten regularisiert sein. Wenn sie doch noch enthalten sind, werden sie nicht normalisiert.
    186  * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in ''Lex''.
     186 * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Eine Regel "qv" wird "qu" muss ergänzt werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in ''Lex''.
    187187 
    188188Überflüssige Diakritika können zur Lemma- und Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden:
     
    201201
    202202Eine Untersuchung der Diakritika im Benedetti mit einem Skript ergibt (die Zahlen sind nur ungefähr richtig; das Skript findet keine Formen wie ſeptì<unsure/>mi oder prin-<pb/>cipìum):
    203  
    204203 * Gravis
    205204  * à oft, über 10x bei poſteà proptereà quàm à vnà. Meistens am Wortende, Ausnahmen oft quàm, 8x aliàs, 1x hàbebit, 1x postquàm, 1x peràccidens (Fehler).
     
    221220 * Breve kommt nicht vor.
    222221 * Tilde ist ein Abkürzungszeichen.
     222 * Großbuchstaben mit Diakritika kommen nicht vor.
    223223
    224224Ein wichtiges Ergebnis ist, dass man verschiedene Vokale mit demselben Diakritikum nicht gleich behandeln darf.
     
    228228Œ und Ę kommen im Gegensatz zu Æ nicht vor, also keine Regel. (Alternative wäre: eine Regel, die im Benedetti nie angewendet wird.)
    229229
    230 Großes J kommt 4x vor: JACOBO und JLLVST. kursiv, JD unklares drop cap, Jupiter Transkriptionsfehler durch schlechten Druck. Also keine Regel für IJ.
    231 
    232 Deshalb folgende explizite Liste für Latein:
     230Großes J kommt 4x vor: JACOBO und JLLVST. jeweils kursiv, JD unklares drop cap, Jupiter Transkriptionsfehler durch schlechten Druck. Also keine Regel für IJ.
     231
     232Deshalb vorläufig folgende explizite Liste für Latein:
    233233 * ſ : s
    234234 * ß : ss