Changes between Version 37 and Version 38 of normalization/6
- Timestamp:
- Dec 19, 2010, 5:07:20 PM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/6
v37 v38 184 184 * Andere Diakritika werden nicht normalisiert. Insbesondere die Zeichen 1E14-1E1D und 1EB8-1EC7 und die Äquivalente für die anderen Vokale werden nicht normalisiert. 185 185 * ''Medievalist characters'' wie ꝙ (A759) sollten regularisiert sein. Wenn sie doch noch enthalten sind, werden sie nicht normalisiert. 186 * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in ''Lex''.186 * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Eine Regel "qv" wird "qu" muss ergänzt werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in ''Lex''. 187 187 188 188 Überflüssige Diakritika können zur Lemma- und Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden: … … 201 201 202 202 Eine Untersuchung der Diakritika im Benedetti mit einem Skript ergibt (die Zahlen sind nur ungefähr richtig; das Skript findet keine Formen wie ſeptì<unsure/>mi oder prin-<pb/>cipìum): 203 204 203 * Gravis 205 204 * à oft, über 10x bei poſteà proptereà quàm à vnà. Meistens am Wortende, Ausnahmen oft quàm, 8x aliàs, 1x hàbebit, 1x postquàm, 1x peràccidens (Fehler). … … 221 220 * Breve kommt nicht vor. 222 221 * Tilde ist ein Abkürzungszeichen. 222 * Großbuchstaben mit Diakritika kommen nicht vor. 223 223 224 224 Ein wichtiges Ergebnis ist, dass man verschiedene Vokale mit demselben Diakritikum nicht gleich behandeln darf. … … 228 228 Œ und Ę kommen im Gegensatz zu Æ nicht vor, also keine Regel. (Alternative wäre: eine Regel, die im Benedetti nie angewendet wird.) 229 229 230 Großes J kommt 4x vor: JACOBO und JLLVST. kursiv, JD unklares drop cap, Jupiter Transkriptionsfehler durch schlechten Druck. Also keine Regel für IJ.231 232 Deshalb folgende explizite Liste für Latein:230 Großes J kommt 4x vor: JACOBO und JLLVST. jeweils kursiv, JD unklares drop cap, Jupiter Transkriptionsfehler durch schlechten Druck. Also keine Regel für IJ. 231 232 Deshalb vorläufig folgende explizite Liste für Latein: 233 233 * ſ : s 234 234 * ß : ss