Changes between Version 3 and Version 4 of normalization
- Timestamp:
- Nov 8, 2010, 4:21:09 PM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization
v3 v4 20 20 21 21 ";" wird getilgt, wenn das Zeichen direkt davor kein Buchstabe ("Character.isLetter") ist. 22 23 Malcolm: Linguistic note: /u/ and /v/ are rarely phonemic in Latin, as in 24 * alui 's/he nourished' vs. alvi 'of a belly', 25 * volui 's/he wished' or 'it rolled' vs. volvi 'to be rolled', 26 * (in)seruit 's/he joined together' vs. (in)servit 's/he serves'. 22 27 23 28 || -- || combining ò (0300) combining ó (0301) combining ô (0302) soft hyphen (00AD) || … … 58 63 * v wird zu u, wenn direkt davor und danach ein Konsonant (d.h. B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß) steht (hyphen/soft hyphen danach wird übersprungen), außerdem am Anfang eines Wortes oder wenn direkt davor kein Buchstabe ist 59 64 * t: tio wird zu zio (i und o können auch groß sein) 60 * h am Wortanfang wird ingetilgt, außer bei hai, hanno, ho* ('h' only appears at the beginning of some pres. indic. forms of 'avere' -- with the exception of some unimportant loanwords in modern Italian (which I choose to ignore))65 * h am Wortanfang wird getilgt, außer bei hai, hanno, ho* ('h' only appears at the beginning of some pres. indic. forms of 'avere' -- with the exception of some unimportant loanwords in modern Italian (which I choose to ignore)) 61 66 * hyphen/soft hyphen wird vor whitespace getilgt, soft hyphen wird durch hyphen ersetzt 67 68 Diese Regeln normalisieren in Richtung der heutigen italienischen Orthographie. Beachte den Unterschied zur einfachen Regel "v wird u" im Lateinischen. 62 69 63 70 Wortanfang definiert als whitespace oder ’ (2019) oder \ … … 250 257 In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wasserstrassé und Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße. 251 258 252 == 2. Und was bedeutet das? ==259 == 2. Was bedeutet das? == 253 260 254 261 Die wichtigste Frage ist, wo die Normalisierungsregeln überhaupt verwendet werden. Siehe dazu Abschnitt 3. … … 257 264 258 265 Die wichtigste Erkenntnis ist, dass die Arboreal-Regeln gar nicht für die Textanzeige gedacht sind, aber im Backend dafür verwendet werden. 259