Changes between Version 1 and Version 2 of normalization/1
- Timestamp:
- Dec 8, 2010, 5:31:52 PM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/1
v1 v2 55 55 56 56 Regeln: 57 * u wird zu v, wenn direkt davor und danach ein Vokal (d.h. A E I O U Æ Œ in groß/klein) steht (hyphen/soft hyphen davor wird übersprungen)58 57 * j: ij wird zu ii 59 * v wird zu u, wenn direkt davor und danach ein Konsonant (d.h. B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß) steht (hyphen/soft hyphen danach wird übersprungen), außerdem am Anfang eines Wortes oder wenn direkt davor kein Buchstabe ist60 58 * t: tio wird zu zio (i und o können auch groß sein) 61 59 * h am Wortanfang wird getilgt, außer bei hai, hanno, ho* ('h' only appears at the beginning of some pres. indic. forms of 'avere' -- with the exception of some unimportant loanwords in modern Italian (which I choose to ignore)) 62 60 * hyphen/soft hyphen wird vor whitespace getilgt, soft hyphen wird durch hyphen ersetzt 63 61 64 Diese Regeln normalisieren in Richtung der heutigen italienischen Orthographie. Beachte den Unterschied zur einfachen Regel "v wird u" im Lateinischen. 65 66 Wortanfang definiert als whitespace oder ’ (2019) oder \ 62 * u wird zu v, wenn direkt davor und danach ein Vokal (d.h. A E I O U Æ Œ in groß/klein) steht (hyphen/soft hyphen davor wird übersprungen) 63 * v wird zu u, wenn direkt davor und danach ein Konsonant (d.h. B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß) steht (hyphen/soft hyphen danach wird übersprungen). Am Anfang eines Wortes oder wenn direkt davor kein Buchstabe ist, reicht ein Konsonant danach. 64 Beachte den Unterschied zur einfachen Regel "v wird u" im Lateinischen. Beispiele für Malcolms Algorithmus: 65 66 || vnum || unum || 67 || diuerſarum || diversarum || 68 || DIVERSARVM || DIVERSARUM || 69 || PARVVS || PARUUS || 70 || octauum || octavum || 71 || loquuti || loquuti || 67 72 68 73 Programmfehler bei "v" (falsch, richtig): … … 71 76 while ((((c_n = s.charAt(y)) == '-') || (c_n == '\u00ad')) && (y++ < s.length() - 1)); 72 77 }}} 78 79 Wortanfang definiert als whitespace oder ’ (2019) oder \ 73 80 74 81 || Ae || Æ (00C6) ||