Changes between Version 30 and Version 31 of normalization/6


Ignore:
Timestamp:
Dec 16, 2010, 11:43:21 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v30 v31  
    170170Beachte das Kodierungsproblem bei der Kommunikation mit Donatus: Wahrscheinlich wird ISO 8859-1 verwendet.
    171171
    172 Arboreal:
     172unklare Punkte von Arboreal:
    173173 * ç wird vorläufig nicht normalisiert
    174174
     
    177177Über Italienisch weiß ich wenig. Aber zumindest die u/v-Regeln gelten auch hier.
    178178
     179unklare Punkte von Arboreal:
     180 * Gravis (accento grave) zu Akut (accento acuto)?
     181
    179182=== Englisch ===
    180183
    181184Gibt es überhaupt sprachspezifische Normalisierungen?
    182185
    183 Problem der älteren Sprachstufen.
     186Problem der älteren Sprachstufen (und Sprachschichten).
    184187
    185188=== Französisch ===
     
    195198Umlaute und ß werden nicht normalisiert, im Gegensatz zum Lateinischen.
    196199
    197 Bindestriche werden für die Anzeige nicht normalisiert. Für das Wörterbuch: Bindestriche innerhalb eines Wortes werden nicht normalisiert. Probleme wie "Vor- und Rücksicht" (mit space nach dem Bindestrich) können wir wohl nicht lösen. Am Ende der Zeile wird das Wort ohne Bindestrich zusammengesetzt, außer der zweite Teil beginnt mit einem Großbuchstaben. Alles, was dann immer nicht korrekt erkannt wird, können wir nicht ändern. (Eventuell ist das Wörterbuch clever genug, das Bindestrich-Problem selber zu lösen.)
     200Bindestriche werden für die Anzeige nicht normalisiert. Für das Wörterbuch: Bindestriche innerhalb eines Wortes werden nicht normalisiert. Probleme wie "Vor- und Rücksicht" (mit space nach dem Bindestrich) können wir wohl nicht lösen; und wenn überhaupt, dann in der Regularisierung. Am Ende der Zeile wird das Wort ohne Bindestrich zusammengesetzt, außer der zweite Teil beginnt mit einem Großbuchstaben. Alles, was dann immer nicht korrekt erkannt wird, können wir nicht ändern. (Eventuell ist das Wörterbuch clever genug, das Bindestrich-Problem selber zu lösen.)
    198201
    199202Darüber hinaus ist eine orthographische Normalisierung deutscher Texte schwierig. Eventuell wird es mehrere verschiedene Normalierungsregeln in Abhängigkeit vom Alter des Textes geben. Mögliche Sprachschichten sind:
     
    203206 * etc.
    204207
    205 Der Sinn der Regel "é wird zu e" in Arboreal ist mir unklar, deshalb wird sie vorläufig nicht übernommen.
     208unklare Punkte von Arboreal:
     209 * Die Regel "é wird zu e" wird vorläufig nicht übernommen.
    206210
    207211=== Fraktur ===
     
    215219Ziel der Normalisierung im Chinesischen ist eine Textversion mit Standardzeichen.
    216220
    217 Die Normalisierung im Chinesischen funktioniert über eine Zeichenliste, in der jeweils ein oder mehr Zeichenvarianten auf ein Standardzeichen zurückgeführt werden. Beispielsweise wird das Zeichen 歴 (6B74) zu 歷 (6B77) normalisiert. (Beachte: der Unicode-Codepoint des Standardzeichens kann höher sein als der Codepoint der Zeichenvariante.)
    218 
    219 Technisch gesehen ähnelt die Normalisierung einer Zeichenvariante dem Finden der Grundform wie bei "Bäume" zu "Baum" (linguistisch ist es allerdings nicht das gleiche). Es gibt im Chinesischen dann auch eine Wortliste, die allerdings sowohl in der Textanzeige als auch für das Wörterbuch verwendet wird. Ein weiterer Gegensatz zum Lateinischen und Griechischen ist, dass diese Wortliste notwendigerweise niemals vollständig ist, beispielsweise wenn Unicode noch mehr Schriftzeichen aufnimmt.
     221Die Normalisierung im Chinesischen funktioniert über eine Zeichenliste, in der jeweils ein oder mehr Zeichenvarianten auf ein Standardzeichen zurückgeführt werden. Beispielsweise wird das Zeichen 歴 (6B74) zu 歷 (6B77) normalisiert. (Der Unicode-Codepoint ist leider kein verwertbarer Hinweis: Der Codepoint des Standardzeichens kann wie hier höher sein als der Codepoint der Zeichenvariante. Die Unihan-Datenbank von Unicode liefert mehr Information.)
     222
     223Technisch gesehen ähnelt die Normalisierung einer Zeichenvariante damit dem Finden der Grundform wie bei "Bäume" zu "Baum" (linguistisch ist es allerdings nicht das gleiche). Es gibt im Chinesischen dann wie im Lateinischen und Griechischen eine Wortliste. Unterschiede sind:
     224 * Die Wortliste wird sowohl in der Textanzeige als auch für das Wörterbuch verwendet.
     225 * Die Wortliste ist notwendigerweise niemals vollständig, beispielsweise wenn Unicode weitere Schriftzeichen aufnimmt.
    220226
    221227Im Chinesischen gibt es eine Schwelle, unter der eine Zeichenvariante nicht mehr sinnvoll vom Standardzeichen unterschieden werden kann. (Die Variante 歴 von 歷 gehört nicht dazu, auch wenn die beiden Zeichen für das ungeübte Auge gleich aussehen. Tatsächlich hat 歴 zwei Striche weniger als 歷.) Diese Entscheidung ist aber im Text bereits getroffen worden. Die Normalisierung ist nur noch rein technischer Akt: Ersetze das Unicode-Zeichen 歴 durch das-Unicode-Zeichen 歷, etc.
     
    225231Die Normalisierung für das Wörterbuch ist wie immer unabhängig vom Textanzeigemodus: Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
    226232
    227 Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht?
     233Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Wir haben noch keinen Mechanismus, um Wortgrenzen zu bestimmen. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht? (Wäre das dann wiederum ein rudimentärer Mechanismus zum Bestimmen von Wortgrenzen?)
    228234
    229235Die ''ZWS'' werden zumindest in der Normalisierung für das Wörterbuch entfernt.
     
    237243=== Keilschrift ===
    238244
    239 Über Keilschrifttexte weiß ich zu wenig.
    240 
    241 Beachte aber: Es geht hier um eine Transliterierung des originalen Textes.
     245Unicode enthält:
     246 * Ugaritisch (10380-1039F)
     247 * Altpersisch (103A0-103DF)
     248 * Zahlen und Interpunktion (12400-1247F)
     249
     250Über Keilschrifttexte weiß ich zu wenig. Es geht aber wohl nicht Unicode-Zeichen, sondern um Transliterierungen der originalen Texte. Vermutlich wird hier gar nichts normalisiert.
    242251
    243252=== Griechisch ===