Changes between Version 49 and Version 50 of normalization/6
- Timestamp:
- Jan 17, 2011, 10:07:55 AM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/6
v49 v50 1 1 [[PageOutline(1-4,,pullout)]] 2 2 3 == 6. Wie soll normalisiert werden? == 4 5 === Ziele === 3 [wiki:normalization Regularisierung und Normalisierung], 4 I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7] 5 6 = 6. Wie soll normalisiert werden? = 7 8 == Ziele == 6 9 7 10 Das Hauptziel der Normalisierung ist eine moderne Schreibweise des Textes, zum Beispiel die heutige u/v-Schreibweise in Latein. … … 18 21 * Korrekt geschriebene Texte in modernen Sprachen sollten im Idealfall gar keine Normalisierungen benötigen. 19 22 20 == = Regularisierung und Normalisierung ===23 == Regularisierung und Normalisierung == 21 24 22 25 Details der Regularisierung werden [wiki:normalization/5 hier] diskutiert. … … 32 35 Beispiele für das Zusammenspiel von Regularisierung und Normalierung siehe [wiki:normalization/4 hier]. Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird. 33 36 34 == = Textanzeige und Wörterbücher ===37 == Textanzeige und Wörterbücher == 35 38 36 39 Die Normalisierung für eine Sprache teilt sich auf in die Normalisierung für die Textanzeige und für das Wörterbuch. Die Normalisierung für das Wörterbuch ist unabhängig vom gerade aktiven Textanzeigemodus: Jede Anfrage an das Wörterbuch wird auf Basis des regularisierten Wortes normalisiert. … … 54 57 Wir brauchen eine Standard-Schreibweise als Austauschformat für alte und neue Wörterbücher, Suche, etc. Am geeignetsten ist wohl die sprachimmanente Normalisierung. Siehe unten "Normalisierung und Suche". 55 58 56 == = Wortform und Grundform ===59 == Wortform und Grundform == 57 60 58 61 Die durch die Normalisierung erhaltene Wortform steht möglicherweise nicht genau so im Wörterbuch. Deshalb braucht man noch einen Mechanismus, um von der normalisierten Wortform auf die Grundform zu kommen. Normalerweise ist die Grundform eine festgelegte Wortform aus dem Lemma. Welche Wortform dabei verwendet wird, ist eine Konvention. Beispielsweise wird bei Verben im Lateinischen oft der Infinitiv ("gehen") und im Griechischen die 1. Sg. Ind. Präs. akt. ("ich gehe") verwendet. Manchmal haben verschiedene Lemmas dieselbe Grundform und werden erst durch weitere Wortformen des Lemmas disambiguiert (Beispiel: pecus, pecoris versus pecus, pecudis). Noch häufiger ist der Fall, dass die Wortform zu verschiedenen Lemmas gehört, zum Beispiel "est" von esse oder von edo. … … 72 75 Eine Folge der nicht aufgelösten Diakritika (siehe unten) ist, dass die Wörter nicht im Wörterbuch gefunden werden. Das ist Absicht. Es ist ein wichtiger Grundsatz, lieber gar keinen Eintrag im Wörterbuch anzubieten als einen falschen. Ausnahme mag sein, wenn man explizit dazusagt, dass der Eintrag automatisch erzeugt wurde und nicht korrekt sein muss. 73 76 74 == = Das Problem der Umlaute ===77 == Das Problem der Umlaute == 75 78 76 79 Die Grundform ist bei Sprachen mit einfacheren Flexionsparadigmen wie Deutsch leichter zu finden als beispielsweise im Lateinischen. Ein Problem entsteht im Deutschen aber dadurch, dass Celex die Umlaute zu ae, oe, ue normalisiert. Beispielsweise werden Poebene und das fiktive Wort Pöbene zum gleichen Wort Poebene normalisiert. Wir können daher nur die Wörter unterscheiden, die Celex unterscheiden kann. Bei Poebene scheint es weiter kein Problem zu geben, denn Pöbene gibt es nicht. Wenn man aber "musste" nachschlagen will, muss man es erst zu "muessen" normalisieren und dann entweder die Form "muessen" im Wörterbuch finden oder "muessen" wieder zurück in "müssen" verwandeln und diese Form dann im Wörterbuch finden. … … 119 122 * einzigste, maximalst 120 123 121 == = Diakritika ===124 == Diakritika == 122 125 123 126 Für Diakritika bedeutet Normalisierung in der Regel, dass sie entfernt werden. … … 134 137 Unicode-Fehler durch identisch aussehende Zeichen werden bei uns im Gegensatz zu Arboreal nicht normalisiert. Zum Beispiel ά (03AC) wird nicht zu ά (1F71) normalisiert. Es ist Aufgabe eines Workflow-Skriptes, solche Zeichen zu finden bzw. zu ersetzen. 135 138 136 == = Sprachschichten ===139 == Sprachschichten == 137 140 138 141 Dieser Abschnitt ist noch nicht fertig ausgearbeitet. Es ist noch nicht klar, wie wir mit verschiedenen Sprachschichten umgehen sollen. Sehr wahrscheinlich muss es aber unterschiedliche Normalisierungen für unterschiedliche Sprachschichten geben. Beispielsweise ist es nicht sinnvoll, alle deutschen Texte auf die moderne Rechtschreibung zu normalisieren. … … 157 160 * Ich gehe davon aus, dass die Wahl der Sprachschicht sich sowohl auf die Textanzeige als auch auf die Wörterbuch-Normalisierung bezieht. 158 161 159 == = Normalisierung und Suche ===162 == Normalisierung und Suche == 160 163 161 164 Die Suche sollte per default zu intuitiv nachvollziehbaren Ergebnissen kommen. Wir können uns noch überlegen, welche Suchoptionen wir anbieten wollen, aber zuerst muss das default-Verhalten stimmen. … … 186 189 Zu 3: Vorläufig werden in der neuen Normalisierung für Latein nur die wirklich notwendigen Regeln verwendet, um zu sehen, ob das vielleicht schon ausreicht, und um keine Fehler zu übertünchen. Und beispielsweise sollte aus der Regel "J wird zu I" eigentlich nicht "j wird zu i" folgen, weil j wie in major fast immer falsch ist. Aber siehe unten: Vielleicht muss <reg> dann aufpassen, dass alle j korrigiert sind, und die Normalisierung macht aus major maior, egal ob es ein Transkriptionsfehler ist oder nicht. Wenn wir alle Regeln auch für Großbuchstaben formulieren, würden abgesehen von den Einzelwortregeln noch Regeln für Ę Œ J À È Ò Ù dazukommen. Mindestens die Regeln für Ę À È Ò Ù werden in einem echten lateinischen Text wohl nie angewendet. (Gibt es diese Zeichen überhaupt in einem Setzkasten im 16. Jh.?) Das würde dafür sprechen, das Suchwort einfach in Kleinbuchstaben umzuwandeln und dann erst zu normalisieren (und wenn es für die Architektur einfacher ist, es dann nochmal in Kleinbuchstaben umzuwandeln, was natürlich keinen Effekt mehr hat). Echte Wörter werden erst normalisiert und erst dann in Kleinbuchstaben umgewandelt. 187 190 188 == = Standard-Normalisierungen in allen Sprachen ===191 == Standard-Normalisierungen in allen Sprachen == 189 192 190 193 * ſ wird zu s … … 203 206 Die Normalisierungsmodule für Textanzeige und Wörterbuch sind dagegen wohl nicht unabhängig voneinander, sondern man kann sie hintereinanderschalten: Erst das Modul für die Textanzeige, dann die sprachimmanente Wörterbuch-Normalisierung, dann technisch bedingte Normalisierungen, dann die Grundformbildung. Die sprachimmanente Wörterbuch-Normalisierung besteht dann nur noch aus den zusätzlichen Normalisierungen, die für die Textanzeige nicht gemacht werden. Die bisher einzige Ausnahme ist die Wortform-Disambiguierung durch Lesehilfen wie hîc. Das wäre aber wohl ein lösbares Problem, denn man könnte die Disambiguierungsinformation getrennt aufbewahren. 204 207 205 == = Latein ===208 == Latein == 206 209 207 210 Ziel der Normalisierung im Lateinischen ist die moderne Schreibweise. … … 307 310 Vor weiteren Änderungen der Regeln sollten wir die erste Implementation abwarten und schauen, wie gut die Regeln in der Praxis funktionieren. 308 311 309 == = Italienisch ===312 == Italienisch == 310 313 311 314 Über Italienisch weiß ich wenig. Aber zumindest die u/v-Regeln gelten auch hier. … … 314 317 * Gravis (accento grave) zu Akut (accento acuto)? 315 318 316 == = Englisch ===319 == Englisch == 317 320 318 321 Gibt es überhaupt sprachspezifische Normalisierungen? … … 320 323 Problem der älteren Sprachstufen (und Sprachschichten). 321 324 322 == = Französisch ===325 == Französisch == 323 326 324 327 Über Französisch weiß ich wenig. … … 328 331 * Wie ist es mit ß und u/v? 329 332 330 == = Deutsch ===333 == Deutsch == 331 334 332 335 Umlaute und ß werden nicht normalisiert, im Gegensatz zum Lateinischen. … … 349 352 Für die Normalisierung gibt es also die Regel: uͦ wird zu u. 350 353 351 == = Chinesisch ===354 == Chinesisch == 352 355 353 356 Ziel der Normalisierung im Chinesischen ist eine Textversion mit Standardzeichen. … … 371 374 Einen Service zur Umwandlung von Lang- in Kurzzeichen könnten wir zwar auch anbieten, aber wirklich sinnvoll wäre das für klassisches Chinesisch wohl nicht. 372 375 373 == = Arabisch ===376 == Arabisch == 374 377 375 378 Über Arabisch weiß ich zu wenig. 376 379 377 == = Keilschrift ===380 == Keilschrift == 378 381 379 382 Unicode enthält: … … 384 387 Über Keilschrifttexte weiß ich zu wenig. Es geht aber wohl nicht Unicode-Zeichen, sondern um Transliterierungen der originalen Texte. Vermutlich wird hier gar nichts normalisiert. 385 388 386 == = Griechisch ===389 == Griechisch == 387 390 388 391 Ziel der Normalisierung im Griechischen ist die moderne Schreibweise des Altgriechischen.