Context Navigation

Changes between Version 30 and Version 31 of normalization/6

Timestamp:: Dec 16, 2010, 11:43:21 AM (13 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/6

-                      v30
+                      v31
 Beachte das Kodierungsproblem bei der Kommunikation mit Donatus: Wahrscheinlich wird ISO 8859-1 verwendet.
 Arboreal:
+unklare Punkte von Arboreal:
  * ç wird vorläufig nicht normalisiert
 …
 Über Italienisch weiß ich wenig. Aber zumindest die u/v-Regeln gelten auch hier.
+unklare Punkte von Arboreal:
+ * Gravis (accento grave) zu Akut (accento acuto)?
 === Englisch ===
 Gibt es überhaupt sprachspezifische Normalisierungen?
 Problem der älteren Sprachstufen.
+Problem der älteren Sprachstufen (und Sprachschichten).
 === Französisch ===
 …
 Umlaute und ß werden nicht normalisiert, im Gegensatz zum Lateinischen.
 Bindestriche werden für die Anzeige nicht normalisiert. Für das Wörterbuch: Bindestriche innerhalb eines Wortes werden nicht normalisiert. Probleme wie "Vor- und Rücksicht" (mit space nach dem Bindestrich) können wir wohl nicht lösen. Am Ende der Zeile wird das Wort ohne Bindestrich zusammengesetzt, außer der zweite Teil beginnt mit einem Großbuchstaben. Alles, was dann immer nicht korrekt erkannt wird, können wir nicht ändern. (Eventuell ist das Wörterbuch clever genug, das Bindestrich-Problem selber zu lösen.)
+Bindestriche werden für die Anzeige nicht normalisiert. Für das Wörterbuch: Bindestriche innerhalb eines Wortes werden nicht normalisiert. Probleme wie "Vor- und Rücksicht" (mit space nach dem Bindestrich) können wir wohl nicht lösen; und wenn überhaupt, dann in der Regularisierung. Am Ende der Zeile wird das Wort ohne Bindestrich zusammengesetzt, außer der zweite Teil beginnt mit einem Großbuchstaben. Alles, was dann immer nicht korrekt erkannt wird, können wir nicht ändern. (Eventuell ist das Wörterbuch clever genug, das Bindestrich-Problem selber zu lösen.)
 Darüber hinaus ist eine orthographische Normalisierung deutscher Texte schwierig. Eventuell wird es mehrere verschiedene Normalierungsregeln in Abhängigkeit vom Alter des Textes geben. Mögliche Sprachschichten sind:
 …
  * etc.
+Der Sinn der Regel "é wird zu e" in Arboreal ist mir unklar, deshalb wird sie vorläufig nicht übernommen.
+unklare Punkte von Arboreal:
+ * Die Regel "é wird zu e" wird vorläufig nicht übernommen.
 === Fraktur ===
 …
 Ziel der Normalisierung im Chinesischen ist eine Textversion mit Standardzeichen.
+Die Normalisierung im Chinesischen funktioniert über eine Zeichenliste, in der jeweils ein oder mehr Zeichenvarianten auf ein Standardzeichen zurückgeführt werden. Beispielsweise wird das Zeichen 歴 (6B74) zu 歷 (6B77) normalisiert. (Beachte: der Unicode-Codepoint des Standardzeichens kann höher sein als der Codepoint der Zeichenvariante.)
+Technisch gesehen ähnelt die Normalisierung einer Zeichenvariante dem Finden der Grundform wie bei "Bäume" zu "Baum" (linguistisch ist es allerdings nicht das gleiche). Es gibt im Chinesischen dann auch eine Wortliste, die allerdings sowohl in der Textanzeige als auch für das Wörterbuch verwendet wird. Ein weiterer Gegensatz zum Lateinischen und Griechischen ist, dass diese Wortliste notwendigerweise niemals vollständig ist, beispielsweise wenn Unicode noch mehr Schriftzeichen aufnimmt.
+Die Normalisierung im Chinesischen funktioniert über eine Zeichenliste, in der jeweils ein oder mehr Zeichenvarianten auf ein Standardzeichen zurückgeführt werden. Beispielsweise wird das Zeichen 歴 (6B74) zu 歷 (6B77) normalisiert. (Der Unicode-Codepoint ist leider kein verwertbarer Hinweis: Der Codepoint des Standardzeichens kann wie hier höher sein als der Codepoint der Zeichenvariante. Die Unihan-Datenbank von Unicode liefert mehr Information.)
+Technisch gesehen ähnelt die Normalisierung einer Zeichenvariante damit dem Finden der Grundform wie bei "Bäume" zu "Baum" (linguistisch ist es allerdings nicht das gleiche). Es gibt im Chinesischen dann wie im Lateinischen und Griechischen eine Wortliste. Unterschiede sind:
+ * Die Wortliste wird sowohl in der Textanzeige als auch für das Wörterbuch verwendet.
+ * Die Wortliste ist notwendigerweise niemals vollständig, beispielsweise wenn Unicode weitere Schriftzeichen aufnimmt.
 Im Chinesischen gibt es eine Schwelle, unter der eine Zeichenvariante nicht mehr sinnvoll vom Standardzeichen unterschieden werden kann. (Die Variante 歴 von 歷 gehört nicht dazu, auch wenn die beiden Zeichen für das ungeübte Auge gleich aussehen. Tatsächlich hat 歴 zwei Striche weniger als 歷.) Diese Entscheidung ist aber im Text bereits getroffen worden. Die Normalisierung ist nur noch rein technischer Akt: Ersetze das Unicode-Zeichen 歴 durch das-Unicode-Zeichen 歷, etc.
 …
 Die Normalisierung für das Wörterbuch ist wie immer unabhängig vom Textanzeigemodus: Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
 Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht?
+Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Wir haben noch keinen Mechanismus, um Wortgrenzen zu bestimmen. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht? (Wäre das dann wiederum ein rudimentärer Mechanismus zum Bestimmen von Wortgrenzen?)
 Die ''ZWS'' werden zumindest in der Normalisierung für das Wörterbuch entfernt.
 …
 === Keilschrift ===
+Über Keilschrifttexte weiß ich zu wenig.
+Beachte aber: Es geht hier um eine Transliterierung des originalen Textes.
+Unicode enthält:
+ * Ugaritisch (10380-1039F)
+ * Altpersisch (103A0-103DF)
+ * Zahlen und Interpunktion (12400-1247F)
+Über Keilschrifttexte weiß ich zu wenig. Es geht aber wohl nicht Unicode-Zeichen, sondern um Transliterierungen der originalen Texte. Vermutlich wird hier gar nichts normalisiert.
 === Griechisch ===