Changes between Version 49 and Version 50 of normalization/6


Ignore:
Timestamp:
Jan 17, 2011, 10:07:55 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v49 v50  
    11[[PageOutline(1-4,,pullout)]]
    22
    3 == 6. Wie soll normalisiert werden? ==
    4 
    5 === Ziele ===
     3[wiki:normalization Regularisierung und Normalisierung],
     4I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7]
     5
     6= 6. Wie soll normalisiert werden? =
     7
     8== Ziele ==
    69
    710Das Hauptziel der Normalisierung ist eine moderne Schreibweise des Textes, zum Beispiel die heutige u/v-Schreibweise in Latein.
     
    1821 * Korrekt geschriebene Texte in modernen Sprachen sollten im Idealfall gar keine Normalisierungen benötigen.
    1922
    20 === Regularisierung und Normalisierung ===
     23== Regularisierung und Normalisierung ==
    2124
    2225Details der Regularisierung werden [wiki:normalization/5 hier] diskutiert.
     
    3235Beispiele für das Zusammenspiel von Regularisierung und Normalierung siehe [wiki:normalization/4 hier]. Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird.
    3336
    34 === Textanzeige und Wörterbücher ===
     37== Textanzeige und Wörterbücher ==
    3538
    3639Die Normalisierung für eine Sprache teilt sich auf in die Normalisierung für die Textanzeige und für das Wörterbuch. Die Normalisierung für das Wörterbuch ist unabhängig vom gerade aktiven Textanzeigemodus: Jede Anfrage an das Wörterbuch wird auf Basis des regularisierten Wortes normalisiert.
     
    5457Wir brauchen eine Standard-Schreibweise als Austauschformat für alte und neue Wörterbücher, Suche, etc. Am geeignetsten ist wohl die sprachimmanente Normalisierung. Siehe unten "Normalisierung und Suche".
    5558
    56 === Wortform und Grundform ===
     59== Wortform und Grundform ==
    5760
    5861Die durch die Normalisierung erhaltene Wortform steht möglicherweise nicht genau so im Wörterbuch. Deshalb braucht man noch einen Mechanismus, um von der normalisierten Wortform auf die Grundform zu kommen. Normalerweise ist die Grundform eine festgelegte Wortform aus dem Lemma. Welche Wortform dabei verwendet wird, ist eine Konvention. Beispielsweise wird bei Verben im Lateinischen oft der Infinitiv ("gehen") und im Griechischen die 1. Sg. Ind. Präs. akt. ("ich gehe") verwendet. Manchmal haben verschiedene Lemmas dieselbe Grundform und werden erst durch weitere Wortformen des Lemmas disambiguiert (Beispiel: pecus, pecoris versus pecus, pecudis). Noch häufiger ist der Fall, dass die Wortform zu verschiedenen Lemmas gehört, zum Beispiel "est" von esse oder von edo.
     
    7275Eine Folge der nicht aufgelösten Diakritika (siehe unten) ist, dass die Wörter nicht im Wörterbuch gefunden werden. Das ist Absicht. Es ist ein wichtiger Grundsatz, lieber gar keinen Eintrag im Wörterbuch anzubieten als einen falschen. Ausnahme mag sein, wenn man explizit dazusagt, dass der Eintrag automatisch erzeugt wurde und nicht korrekt sein muss.
    7376
    74 === Das Problem der Umlaute ===
     77== Das Problem der Umlaute ==
    7578
    7679Die Grundform ist bei Sprachen mit einfacheren Flexionsparadigmen wie Deutsch leichter zu finden als beispielsweise im Lateinischen. Ein Problem entsteht im Deutschen aber dadurch, dass Celex die Umlaute zu ae, oe, ue normalisiert. Beispielsweise werden Poebene und das fiktive Wort Pöbene zum gleichen Wort Poebene normalisiert. Wir können daher nur die Wörter unterscheiden, die Celex unterscheiden kann. Bei Poebene scheint es weiter kein Problem zu geben, denn Pöbene gibt es nicht. Wenn man aber "musste" nachschlagen will, muss man es erst zu "muessen" normalisieren und dann entweder die Form "muessen" im Wörterbuch finden oder "muessen" wieder zurück in "müssen" verwandeln und diese Form dann im Wörterbuch finden.
     
    119122  * einzigste, maximalst
    120123
    121 === Diakritika ===
     124== Diakritika ==
    122125
    123126Für Diakritika bedeutet Normalisierung in der Regel, dass sie entfernt werden.
     
    134137Unicode-Fehler durch identisch aussehende Zeichen werden bei uns im Gegensatz zu Arboreal nicht normalisiert. Zum Beispiel ά (03AC) wird nicht zu ά (1F71) normalisiert. Es ist Aufgabe eines Workflow-Skriptes, solche Zeichen zu finden bzw. zu ersetzen.
    135138
    136 === Sprachschichten ===
     139== Sprachschichten ==
    137140
    138141Dieser Abschnitt ist noch nicht fertig ausgearbeitet. Es ist noch nicht klar, wie wir mit verschiedenen Sprachschichten umgehen sollen. Sehr wahrscheinlich muss es aber unterschiedliche Normalisierungen für unterschiedliche Sprachschichten geben. Beispielsweise ist es nicht sinnvoll, alle deutschen Texte auf die moderne Rechtschreibung zu normalisieren.
     
    157160 * Ich gehe davon aus, dass die Wahl der Sprachschicht sich sowohl auf die Textanzeige als auch auf die Wörterbuch-Normalisierung bezieht.
    158161 
    159  === Normalisierung und Suche ===
     162 == Normalisierung und Suche ==
    160163 
    161164Die Suche sollte per default zu intuitiv nachvollziehbaren Ergebnissen kommen. Wir können uns noch überlegen, welche Suchoptionen wir anbieten wollen, aber zuerst muss das default-Verhalten stimmen.
     
    186189Zu 3: Vorläufig werden in der neuen Normalisierung für Latein nur die wirklich notwendigen Regeln verwendet, um zu sehen, ob das vielleicht schon ausreicht, und um keine Fehler zu übertünchen. Und beispielsweise sollte aus der Regel "J wird zu I" eigentlich nicht "j wird zu i" folgen, weil j wie in major fast immer falsch ist. Aber siehe unten: Vielleicht muss <reg> dann aufpassen, dass alle j korrigiert sind, und die Normalisierung macht aus major maior, egal ob es ein Transkriptionsfehler ist oder nicht. Wenn wir alle Regeln auch für Großbuchstaben formulieren, würden abgesehen von den Einzelwortregeln noch Regeln für Ę Œ J À È Ò Ù dazukommen. Mindestens die Regeln für Ę À È Ò Ù werden in einem echten lateinischen Text wohl nie angewendet. (Gibt es diese Zeichen überhaupt in einem Setzkasten im 16. Jh.?) Das würde dafür sprechen, das Suchwort einfach in Kleinbuchstaben umzuwandeln und dann erst zu normalisieren (und wenn es für die Architektur einfacher ist, es dann nochmal in Kleinbuchstaben umzuwandeln, was natürlich keinen Effekt mehr hat). Echte Wörter werden erst normalisiert und erst dann in Kleinbuchstaben umgewandelt.
    187190
    188 === Standard-Normalisierungen in allen Sprachen ===
     191== Standard-Normalisierungen in allen Sprachen ==
    189192
    190193 * ſ wird zu s
     
    203206Die Normalisierungsmodule für Textanzeige und Wörterbuch sind dagegen wohl nicht unabhängig voneinander, sondern man kann sie hintereinanderschalten: Erst das Modul für die Textanzeige, dann die sprachimmanente Wörterbuch-Normalisierung, dann technisch bedingte Normalisierungen, dann die Grundformbildung. Die sprachimmanente Wörterbuch-Normalisierung besteht dann nur noch aus den zusätzlichen Normalisierungen, die für die Textanzeige nicht gemacht werden. Die bisher einzige Ausnahme ist die Wortform-Disambiguierung durch Lesehilfen wie hîc. Das wäre aber wohl ein lösbares Problem, denn man könnte die Disambiguierungsinformation getrennt aufbewahren.
    204207
    205 === Latein ===
     208== Latein ==
    206209
    207210Ziel der Normalisierung im Lateinischen ist die moderne Schreibweise.
     
    307310Vor weiteren Änderungen der Regeln sollten wir die erste Implementation abwarten und schauen, wie gut die Regeln in der Praxis funktionieren.
    308311
    309 === Italienisch ===
     312== Italienisch ==
    310313
    311314Über Italienisch weiß ich wenig. Aber zumindest die u/v-Regeln gelten auch hier.
     
    314317 * Gravis (accento grave) zu Akut (accento acuto)?
    315318
    316 === Englisch ===
     319== Englisch ==
    317320
    318321Gibt es überhaupt sprachspezifische Normalisierungen?
     
    320323Problem der älteren Sprachstufen (und Sprachschichten).
    321324
    322 === Französisch ===
     325== Französisch ==
    323326
    324327Über Französisch weiß ich wenig.
     
    328331 * Wie ist es mit ß und u/v?
    329332
    330 === Deutsch ===
     333== Deutsch ==
    331334
    332335Umlaute und ß werden nicht normalisiert, im Gegensatz zum Lateinischen.
     
    349352Für die Normalisierung gibt es also die Regel: uͦ wird zu u.
    350353
    351 === Chinesisch ===
     354== Chinesisch ==
    352355
    353356Ziel der Normalisierung im Chinesischen ist eine Textversion mit Standardzeichen.
     
    371374Einen Service zur Umwandlung von Lang- in Kurzzeichen könnten wir zwar auch anbieten, aber wirklich sinnvoll wäre das für klassisches Chinesisch wohl nicht.
    372375
    373 === Arabisch ===
     376== Arabisch ==
    374377
    375378Über Arabisch weiß ich zu wenig.
    376379
    377 === Keilschrift ===
     380== Keilschrift ==
    378381
    379382Unicode enthält:
     
    384387Über Keilschrifttexte weiß ich zu wenig. Es geht aber wohl nicht Unicode-Zeichen, sondern um Transliterierungen der originalen Texte. Vermutlich wird hier gar nichts normalisiert.
    385388
    386 === Griechisch ===
     389== Griechisch ==
    387390
    388391Ziel der Normalisierung im Griechischen ist die moderne Schreibweise des Altgriechischen.