Changes between Version 33 and Version 34 of normalization/6


Ignore:
Timestamp:
Dec 16, 2010, 1:20:05 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v33 v34  
    9292 * Umlaute
    9393  * musste: müssen
    94   * Bäume: Baum
     94  * Bäume: Baum (ein im Deutschen üblicher Fall)
    9595  * Zooeingang, Poet
    96  * Suppletionen
     96 * Suppletionen (sind wohl lexikalisiert, also kein großes Problem?)
    9797  * waren: sein
    9898  * wären: sein
     99  * besser: gut
    99100 * Sprachschichten
    100101  * abnötigen: Grimm erwartet abnöthigen. Hier braucht man die Normalisierung der Sprachschicht.
     
    159160=== Latein ===
    160161
    161 Ziel der Normalisierung im Lateinischen ist die akzeptierte moderne Schreibweise.
     162Ziel der Normalisierung im Lateinischen ist die moderne Schreibweise.
    162163
    163164 * Im Gegensatz zum Deutschen wird ß wie in eße oder serenißimi normalisiert.
     
    176177 
    177178Überflüssige Diakritika können zur Lemma- und Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden:
    178  * ò ist wohl eine reine Lesehilfe
    179  * ô ist wohl ein Längezeichen
    180  * ö ist wohl eine reine Lesehilfe
     179 * ò ist wohl eine reine Lesehilfe. Wann genau wird sie verwendet?
     180 * ô ist wohl ein Längezeichen, das zur Disambiguierung verwendet werden kann
     181 * ö ist wohl eine reine Lesehilfe, die Information "kein Diphthong" hilft wohl nicht bei der Disambiguierung
    181182
    182183Beachte: Eine Jahreszahl wie MDLXXXV (Benedetti p.5: <emph class="sc">mdlxxxv</emph>) darf nicht normalisiert werden. Mit den neuen Regeln für u/v würde das nicht mehr passieren. Da V immer rechts von X, L, C, D, M ist und rechts neben V nur I sein kann, gibt es wohl keine römische Zahl, die normalisiert werden würde. (Eigentlich sollte die Zahl auch wie der Inhalt von <var> vor der morphologischen Analyse versteckt werden. Deshalb besser: <num value="1585" style="sc">mdlxxxv</num>, und <num> wird wie <var> ausgenommen.)