Changes between Version 33 and Version 34 of normalization/6
- Timestamp:
- Dec 16, 2010, 1:20:05 PM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/6
v33 v34 92 92 * Umlaute 93 93 * musste: müssen 94 * Bäume: Baum 94 * Bäume: Baum (ein im Deutschen üblicher Fall) 95 95 * Zooeingang, Poet 96 * Suppletionen 96 * Suppletionen (sind wohl lexikalisiert, also kein großes Problem?) 97 97 * waren: sein 98 98 * wären: sein 99 * besser: gut 99 100 * Sprachschichten 100 101 * abnötigen: Grimm erwartet abnöthigen. Hier braucht man die Normalisierung der Sprachschicht. … … 159 160 === Latein === 160 161 161 Ziel der Normalisierung im Lateinischen ist die akzeptiertemoderne Schreibweise.162 Ziel der Normalisierung im Lateinischen ist die moderne Schreibweise. 162 163 163 164 * Im Gegensatz zum Deutschen wird ß wie in eße oder serenißimi normalisiert. … … 176 177 177 178 Überflüssige Diakritika können zur Lemma- und Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden: 178 * ò ist wohl eine reine Lesehilfe 179 * ô ist wohl ein Längezeichen 180 * ö ist wohl eine reine Lesehilfe 179 * ò ist wohl eine reine Lesehilfe. Wann genau wird sie verwendet? 180 * ô ist wohl ein Längezeichen, das zur Disambiguierung verwendet werden kann 181 * ö ist wohl eine reine Lesehilfe, die Information "kein Diphthong" hilft wohl nicht bei der Disambiguierung 181 182 182 183 Beachte: Eine Jahreszahl wie MDLXXXV (Benedetti p.5: <emph class="sc">mdlxxxv</emph>) darf nicht normalisiert werden. Mit den neuen Regeln für u/v würde das nicht mehr passieren. Da V immer rechts von X, L, C, D, M ist und rechts neben V nur I sein kann, gibt es wohl keine römische Zahl, die normalisiert werden würde. (Eigentlich sollte die Zahl auch wie der Inhalt von <var> vor der morphologischen Analyse versteckt werden. Deshalb besser: <num value="1585" style="sc">mdlxxxv</num>, und <num> wird wie <var> ausgenommen.)