Changes between Version 41 and Version 42 of normalization/6


Ignore:
Timestamp:
Dec 19, 2010, 10:00:18 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v41 v42  
    184184   * Andere Diakritika werden nicht normalisiert. Insbesondere die Zeichen 1E14-1E1D und 1EB8-1EC7 und die Äquivalente für die anderen Vokale werden nicht normalisiert.
    185185 * ''Medievalist characters'' wie ꝙ (A759) sollten regularisiert sein. Wenn sie doch noch enthalten sind, werden sie nicht normalisiert.
    186  * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Eine Regel "qv" wird "qu" muss ergänzt werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in ''Lex''.
     186 * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden.
     187  * Ich habe es zwar nicht überprüft, gehe aber davon aus, dass der Umgang mit getrennten Wörter grundsätzlich richtig ist: Bei der Regel "u zu v" kann vor dem u noch ein Zeilenumbruch sein (d.h. das u ist am Zeilenanfang wie bei "di-<lb/>uiſa") und bei der Regel "v zu u" kann nach dem v noch ein Zeilenumbruch sein (d.h. das v ist am Zeilenende wie im hypothetischen "SOLV-<lb/>TIONES").  Ein v am Zeilenende kommt zumindest im Benedetti nicht vor. (Überhaupt kommt der Kleinbuchstabe v im Benedetti offenbar nur am Anfang eines Wortes vor; technische Ausnahme: small caps werden innerhalb eines tags mit Kleinbuchstaben wiedergegeben.)
     188  * Eine Regel "qv" wird zu "qu" muss ergänzt werden.
     189  * Eine Neu-Implementierung in ''Lex'' wäre sinnvoll.
    187190 
    188191Überflüssige Diakritika können zur Lemma- und Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden: