Changes between Version 15 and Version 16 of normalization/7


Ignore:
Timestamp:
Dec 19, 2010, 5:01:20 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/7

    v15 v16  
    9595 * Es gibt kein sprachunabhängiges Normalisierungsmodul mit allgemeinen Regeln wie "ſ wird zu s", denn es wird immer irgendwelche Ausnahmen geben. Stattdessen wird "ſ wird zu s" bei jeder auf dem lateinischen Alphabet beruhenden Sprache wiederholt.
    9696 
    97 Latein:
     97=== Latein ===
     98
    9899 * ſ wird zu s
    99100 * ß zu ss
     
    109110  * ö wird zu o; entsprechend für alle Vokale
    110111
    111 Italienisch:
     112=== Latein, explizite Liste ===
     113
     114 * ſ : s
     115 * ß : ss
     116 * æ ę : ae
     117 * Æ : AE
     118 * œ : oe
     119 * ij : ii
     120 * u/v-Regeln (entsprechend auch für U und V; Zeilenumbrüche sind hier nicht berücksichtigt)
     121  * Vokale im Sinne der u/v-Regeln sind (mindestens) A E I O U Æ in groß/klein sowie œ ę à è ò ù
     122  * Konsonanten im Sinne der u/v-Regeln: wie oben definiert (B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß)
     123  * qv wird zu qu
     124  * "Vokal u Vokal" wird zu "Vokal v Vokal"
     125  * "Konsonant u Konsonant" wird zu "Konsonant v Konsonant"
     126  * "u Konsonant" am Wortanfang wird zu "v Konsonant"
     127 * überflüssige Diakritika:
     128  * -à -è -ò -ùm (am Wortende)
     129  * einzelne Wörter: quàm (auch als Quàm), aliàs, hîc, quòd (auch als Quòd QVòd), Cùmque, aër
     130
     131=== Italienisch ===
     132
    112133 * ſ wird zu s
    113134 * u/v-Regeln
    114135
    115 Englisch:
     136=== Englisch ===
     137
    116138 * ſ wird zu s
    117139
    118 Französisch:
     140=== Französisch ===
     141
    119142 * ſ wird zu s
    120143 * u/v-Regeln?
    121144
    122 Deutsch:
     145=== Deutsch ===
     146
    123147 * ſ wird zu s
    124148 * nur Wörterbuch, technisch bedingt (Celex):
    125149  * Umlaute
    126150
    127 Chinesisch:
     151=== Chinesisch ===
     152
    128153 * Wortliste mit Einträgen der Form "Standard: Variante1 Variante2 etc." Beispiel: "歷: 歴"
    129154 * entferne ''ZWS''
    130155
    131 Griechisch:
     156=== Griechisch ===
     157
    132158 * nur Wörterbuch, sprachimmanent:
    133159  * Gravis wird zu Akut
     
    137163  * keine sprachimmanente Wörterbuch-Normalisierung
    138164  * Falls nötig, technisch bedingte Normalisierung. Überschneidet sich eventuell mit der Umwandlung in Betacode, wo beide Sigma gleich dargestellt werden.
    139 
    140