Changes between Version 30 and Version 31 of normalization/6
- Timestamp:
- Dec 16, 2010, 11:43:21 AM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/6
v30 v31 170 170 Beachte das Kodierungsproblem bei der Kommunikation mit Donatus: Wahrscheinlich wird ISO 8859-1 verwendet. 171 171 172 Arboreal:172 unklare Punkte von Arboreal: 173 173 * ç wird vorläufig nicht normalisiert 174 174 … … 177 177 Über Italienisch weiß ich wenig. Aber zumindest die u/v-Regeln gelten auch hier. 178 178 179 unklare Punkte von Arboreal: 180 * Gravis (accento grave) zu Akut (accento acuto)? 181 179 182 === Englisch === 180 183 181 184 Gibt es überhaupt sprachspezifische Normalisierungen? 182 185 183 Problem der älteren Sprachstufen .186 Problem der älteren Sprachstufen (und Sprachschichten). 184 187 185 188 === Französisch === … … 195 198 Umlaute und ß werden nicht normalisiert, im Gegensatz zum Lateinischen. 196 199 197 Bindestriche werden für die Anzeige nicht normalisiert. Für das Wörterbuch: Bindestriche innerhalb eines Wortes werden nicht normalisiert. Probleme wie "Vor- und Rücksicht" (mit space nach dem Bindestrich) können wir wohl nicht lösen . Am Ende der Zeile wird das Wort ohne Bindestrich zusammengesetzt, außer der zweite Teil beginnt mit einem Großbuchstaben. Alles, was dann immer nicht korrekt erkannt wird, können wir nicht ändern. (Eventuell ist das Wörterbuch clever genug, das Bindestrich-Problem selber zu lösen.)200 Bindestriche werden für die Anzeige nicht normalisiert. Für das Wörterbuch: Bindestriche innerhalb eines Wortes werden nicht normalisiert. Probleme wie "Vor- und Rücksicht" (mit space nach dem Bindestrich) können wir wohl nicht lösen; und wenn überhaupt, dann in der Regularisierung. Am Ende der Zeile wird das Wort ohne Bindestrich zusammengesetzt, außer der zweite Teil beginnt mit einem Großbuchstaben. Alles, was dann immer nicht korrekt erkannt wird, können wir nicht ändern. (Eventuell ist das Wörterbuch clever genug, das Bindestrich-Problem selber zu lösen.) 198 201 199 202 Darüber hinaus ist eine orthographische Normalisierung deutscher Texte schwierig. Eventuell wird es mehrere verschiedene Normalierungsregeln in Abhängigkeit vom Alter des Textes geben. Mögliche Sprachschichten sind: … … 203 206 * etc. 204 207 205 Der Sinn der Regel "é wird zu e" in Arboreal ist mir unklar, deshalb wird sie vorläufig nicht übernommen. 208 unklare Punkte von Arboreal: 209 * Die Regel "é wird zu e" wird vorläufig nicht übernommen. 206 210 207 211 === Fraktur === … … 215 219 Ziel der Normalisierung im Chinesischen ist eine Textversion mit Standardzeichen. 216 220 217 Die Normalisierung im Chinesischen funktioniert über eine Zeichenliste, in der jeweils ein oder mehr Zeichenvarianten auf ein Standardzeichen zurückgeführt werden. Beispielsweise wird das Zeichen 歴 (6B74) zu 歷 (6B77) normalisiert. (Beachte: der Unicode-Codepoint des Standardzeichens kann höher sein als der Codepoint der Zeichenvariante.) 218 219 Technisch gesehen ähnelt die Normalisierung einer Zeichenvariante dem Finden der Grundform wie bei "Bäume" zu "Baum" (linguistisch ist es allerdings nicht das gleiche). Es gibt im Chinesischen dann auch eine Wortliste, die allerdings sowohl in der Textanzeige als auch für das Wörterbuch verwendet wird. Ein weiterer Gegensatz zum Lateinischen und Griechischen ist, dass diese Wortliste notwendigerweise niemals vollständig ist, beispielsweise wenn Unicode noch mehr Schriftzeichen aufnimmt. 221 Die Normalisierung im Chinesischen funktioniert über eine Zeichenliste, in der jeweils ein oder mehr Zeichenvarianten auf ein Standardzeichen zurückgeführt werden. Beispielsweise wird das Zeichen 歴 (6B74) zu 歷 (6B77) normalisiert. (Der Unicode-Codepoint ist leider kein verwertbarer Hinweis: Der Codepoint des Standardzeichens kann wie hier höher sein als der Codepoint der Zeichenvariante. Die Unihan-Datenbank von Unicode liefert mehr Information.) 222 223 Technisch gesehen ähnelt die Normalisierung einer Zeichenvariante damit dem Finden der Grundform wie bei "Bäume" zu "Baum" (linguistisch ist es allerdings nicht das gleiche). Es gibt im Chinesischen dann wie im Lateinischen und Griechischen eine Wortliste. Unterschiede sind: 224 * Die Wortliste wird sowohl in der Textanzeige als auch für das Wörterbuch verwendet. 225 * Die Wortliste ist notwendigerweise niemals vollständig, beispielsweise wenn Unicode weitere Schriftzeichen aufnimmt. 220 226 221 227 Im Chinesischen gibt es eine Schwelle, unter der eine Zeichenvariante nicht mehr sinnvoll vom Standardzeichen unterschieden werden kann. (Die Variante 歴 von 歷 gehört nicht dazu, auch wenn die beiden Zeichen für das ungeübte Auge gleich aussehen. Tatsächlich hat 歴 zwei Striche weniger als 歷.) Diese Entscheidung ist aber im Text bereits getroffen worden. Die Normalisierung ist nur noch rein technischer Akt: Ersetze das Unicode-Zeichen 歴 durch das-Unicode-Zeichen 歷, etc. … … 225 231 Die Normalisierung für das Wörterbuch ist wie immer unabhängig vom Textanzeigemodus: Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden. 226 232 227 Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht?233 Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Wir haben noch keinen Mechanismus, um Wortgrenzen zu bestimmen. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht? (Wäre das dann wiederum ein rudimentärer Mechanismus zum Bestimmen von Wortgrenzen?) 228 234 229 235 Die ''ZWS'' werden zumindest in der Normalisierung für das Wörterbuch entfernt. … … 237 243 === Keilschrift === 238 244 239 Über Keilschrifttexte weiß ich zu wenig. 240 241 Beachte aber: Es geht hier um eine Transliterierung des originalen Textes. 245 Unicode enthält: 246 * Ugaritisch (10380-1039F) 247 * Altpersisch (103A0-103DF) 248 * Zahlen und Interpunktion (12400-1247F) 249 250 Über Keilschrifttexte weiß ich zu wenig. Es geht aber wohl nicht Unicode-Zeichen, sondern um Transliterierungen der originalen Texte. Vermutlich wird hier gar nichts normalisiert. 242 251 243 252 === Griechisch ===