Changes between Version 15 and Version 16 of normalization/7
- Timestamp:
- Dec 19, 2010, 5:01:20 PM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/7
v15 v16 95 95 * Es gibt kein sprachunabhängiges Normalisierungsmodul mit allgemeinen Regeln wie "ſ wird zu s", denn es wird immer irgendwelche Ausnahmen geben. Stattdessen wird "ſ wird zu s" bei jeder auf dem lateinischen Alphabet beruhenden Sprache wiederholt. 96 96 97 Latein: 97 === Latein === 98 98 99 * ſ wird zu s 99 100 * ß zu ss … … 109 110 * ö wird zu o; entsprechend für alle Vokale 110 111 111 Italienisch: 112 === Latein, explizite Liste === 113 114 * ſ : s 115 * ß : ss 116 * æ ę : ae 117 * Æ : AE 118 * œ : oe 119 * ij : ii 120 * u/v-Regeln (entsprechend auch für U und V; Zeilenumbrüche sind hier nicht berücksichtigt) 121 * Vokale im Sinne der u/v-Regeln sind (mindestens) A E I O U Æ in groß/klein sowie œ ę à è ò ù 122 * Konsonanten im Sinne der u/v-Regeln: wie oben definiert (B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß) 123 * qv wird zu qu 124 * "Vokal u Vokal" wird zu "Vokal v Vokal" 125 * "Konsonant u Konsonant" wird zu "Konsonant v Konsonant" 126 * "u Konsonant" am Wortanfang wird zu "v Konsonant" 127 * überflüssige Diakritika: 128 * -à -è -ò -ùm (am Wortende) 129 * einzelne Wörter: quàm (auch als Quàm), aliàs, hîc, quòd (auch als Quòd QVòd), Cùmque, aër 130 131 === Italienisch === 132 112 133 * ſ wird zu s 113 134 * u/v-Regeln 114 135 115 Englisch: 136 === Englisch === 137 116 138 * ſ wird zu s 117 139 118 Französisch: 140 === Französisch === 141 119 142 * ſ wird zu s 120 143 * u/v-Regeln? 121 144 122 Deutsch: 145 === Deutsch === 146 123 147 * ſ wird zu s 124 148 * nur Wörterbuch, technisch bedingt (Celex): 125 149 * Umlaute 126 150 127 Chinesisch: 151 === Chinesisch === 152 128 153 * Wortliste mit Einträgen der Form "Standard: Variante1 Variante2 etc." Beispiel: "歷: 歴" 129 154 * entferne ''ZWS'' 130 155 131 Griechisch: 156 === Griechisch === 157 132 158 * nur Wörterbuch, sprachimmanent: 133 159 * Gravis wird zu Akut … … 137 163 * keine sprachimmanente Wörterbuch-Normalisierung 138 164 * Falls nötig, technisch bedingte Normalisierung. Überschneidet sich eventuell mit der Umwandlung in Betacode, wo beide Sigma gleich dargestellt werden. 139 140