Changes between Version 1 and Version 2 of normalization/1


Ignore:
Timestamp:
Dec 8, 2010, 5:31:52 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/1

    v1 v2  
    5555
    5656Regeln:
    57  * u wird zu v, wenn direkt davor und danach ein Vokal (d.h. A E I O U Æ Œ in groß/klein) steht (hyphen/soft hyphen davor wird übersprungen)
    5857 * j: ij wird zu ii
    59  * v wird zu u, wenn direkt davor und danach ein Konsonant (d.h. B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß) steht (hyphen/soft hyphen danach wird übersprungen), außerdem am Anfang eines Wortes oder wenn direkt davor kein Buchstabe ist
    6058 * t: tio wird zu zio (i und o können auch groß sein)
    6159 * h am Wortanfang wird getilgt, außer bei hai, hanno, ho*  ('h' only appears at the beginning of some pres. indic. forms of 'avere' -- with the exception of some unimportant loanwords in modern Italian (which I choose to ignore))
    6260 * hyphen/soft hyphen wird vor whitespace getilgt, soft hyphen wird durch hyphen ersetzt
    6361
    64 Diese Regeln normalisieren in Richtung der heutigen italienischen Orthographie. Beachte den Unterschied zur einfachen Regel "v wird u" im Lateinischen.
    65 
    66 Wortanfang definiert als whitespace oder ’ (2019) oder \
     62 * u wird zu v, wenn direkt davor und danach ein Vokal (d.h. A E I O U Æ Œ in groß/klein) steht (hyphen/soft hyphen davor wird übersprungen)
     63 * v wird zu u, wenn direkt davor und danach ein Konsonant (d.h. B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß) steht (hyphen/soft hyphen danach wird übersprungen). Am Anfang eines Wortes oder wenn direkt davor kein Buchstabe ist, reicht ein Konsonant danach.
     64Beachte den Unterschied zur einfachen Regel "v wird u" im Lateinischen. Beispiele für Malcolms Algorithmus:
     65 
     66|| vnum || unum ||
     67|| diuerſarum || diversarum ||
     68|| DIVERSARVM || DIVERSARUM ||
     69|| PARVVS || PARUUS ||
     70|| octauum || octavum ||
     71|| loquuti || loquuti ||
    6772
    6873Programmfehler bei "v" (falsch, richtig):
     
    7176while ((((c_n = s.charAt(y)) == '-') || (c_n == '\u00ad')) && (y++ < s.length() - 1));
    7277}}}
     78
     79Wortanfang definiert als whitespace oder ’ (2019) oder \
    7380
    7481|| Ae || Æ (00C6)  ||