Context Navigation

Changes between Version 15 and Version 16 of normalization/7

Timestamp:: Dec 19, 2010, 5:01:20 PM (13 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/7

-                      v15
+                      v16
  * Es gibt kein sprachunabhängiges Normalisierungsmodul mit allgemeinen Regeln wie "ſ wird zu s", denn es wird immer irgendwelche Ausnahmen geben. Stattdessen wird "ſ wird zu s" bei jeder auf dem lateinischen Alphabet beruhenden Sprache wiederholt.
+Latein:
+=== Latein ===
  * ſ wird zu s
  * ß zu ss
 …
   * ö wird zu o; entsprechend für alle Vokale
+Italienisch:
+=== Latein, explizite Liste ===
+ * ſ : s
+ * ß : ss
+ * æ ę : ae
+ * Æ : AE
+ * œ : oe
+ * ij : ii
+ * u/v-Regeln (entsprechend auch für U und V; Zeilenumbrüche sind hier nicht berücksichtigt)
+  * Vokale im Sinne der u/v-Regeln sind (mindestens) A E I O U Æ in groß/klein sowie œ ę à è ò ù
+  * Konsonanten im Sinne der u/v-Regeln: wie oben definiert (B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß)
+  * qv wird zu qu
+  * "Vokal u Vokal" wird zu "Vokal v Vokal"
+  * "Konsonant u Konsonant" wird zu "Konsonant v Konsonant"
+  * "u Konsonant" am Wortanfang wird zu "v Konsonant"
+ * überflüssige Diakritika:
+  * -à -è -ò -ùm (am Wortende)
+  * einzelne Wörter: quàm (auch als Quàm), aliàs, hîc, quòd (auch als Quòd QVòd), Cùmque, aër
+=== Italienisch ===
  * ſ wird zu s
  * u/v-Regeln
+Englisch:
+=== Englisch ===
  * ſ wird zu s
+Französisch:
+=== Französisch ===
  * ſ wird zu s
  * u/v-Regeln?
+Deutsch:
+=== Deutsch ===
  * ſ wird zu s
  * nur Wörterbuch, technisch bedingt (Celex):
   * Umlaute
+Chinesisch:
+=== Chinesisch ===
  * Wortliste mit Einträgen der Form "Standard: Variante1 Variante2 etc." Beispiel: "歷: 歴"
  * entferne ''ZWS''
+Griechisch:
+=== Griechisch ===
  * nur Wörterbuch, sprachimmanent:
   * Gravis wird zu Akut
 …
   * keine sprachimmanente Wörterbuch-Normalisierung
   * Falls nötig, technisch bedingte Normalisierung. Überschneidet sich eventuell mit der Umwandlung in Betacode, wo beide Sigma gleich dargestellt werden.