Context Navigation

← Previous Change
Wiki History
Next Change →

Changes between Version 49 and Version 50 of normalization/6

Timestamp:: Jan 17, 2011, 10:07:55 AM (13 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/6

-                      v49
+                      v50
 [[PageOutline(1-4,,pullout)]]
+== 6. Wie soll normalisiert werden? ==
+=== Ziele ===
+[wiki:normalization Regularisierung und Normalisierung],
+I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7]
+= 6. Wie soll normalisiert werden? =
+== Ziele ==
 Das Hauptziel der Normalisierung ist eine moderne Schreibweise des Textes, zum Beispiel die heutige u/v-Schreibweise in Latein.
 …
  * Korrekt geschriebene Texte in modernen Sprachen sollten im Idealfall gar keine Normalisierungen benötigen.
 === Regularisierung und Normalisierung ===
+== Regularisierung und Normalisierung ==
 Details der Regularisierung werden [wiki:normalization/5 hier] diskutiert.
 …
 Beispiele für das Zusammenspiel von Regularisierung und Normalierung siehe [wiki:normalization/4 hier]. Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird.
 === Textanzeige und Wörterbücher ===
+== Textanzeige und Wörterbücher ==
 Die Normalisierung für eine Sprache teilt sich auf in die Normalisierung für die Textanzeige und für das Wörterbuch. Die Normalisierung für das Wörterbuch ist unabhängig vom gerade aktiven Textanzeigemodus: Jede Anfrage an das Wörterbuch wird auf Basis des regularisierten Wortes normalisiert.
 …
 Wir brauchen eine Standard-Schreibweise als Austauschformat für alte und neue Wörterbücher, Suche, etc. Am geeignetsten ist wohl die sprachimmanente Normalisierung. Siehe unten "Normalisierung und Suche".
 === Wortform und Grundform ===
+== Wortform und Grundform ==
 Die durch die Normalisierung erhaltene Wortform steht möglicherweise nicht genau so im Wörterbuch. Deshalb braucht man noch einen Mechanismus, um von der normalisierten Wortform auf die Grundform zu kommen. Normalerweise ist die Grundform eine festgelegte Wortform aus dem Lemma. Welche Wortform dabei verwendet wird, ist eine Konvention. Beispielsweise wird bei Verben im Lateinischen oft der Infinitiv ("gehen") und im Griechischen die 1. Sg. Ind. Präs. akt. ("ich gehe") verwendet. Manchmal haben verschiedene Lemmas dieselbe Grundform und werden erst durch weitere Wortformen des Lemmas disambiguiert (Beispiel: pecus, pecoris versus pecus, pecudis). Noch häufiger ist der Fall, dass die Wortform zu verschiedenen Lemmas gehört, zum Beispiel "est" von esse oder von edo.
 …
 Eine Folge der nicht aufgelösten Diakritika (siehe unten) ist, dass die Wörter nicht im Wörterbuch gefunden werden. Das ist Absicht. Es ist ein wichtiger Grundsatz, lieber gar keinen Eintrag im Wörterbuch anzubieten als einen falschen. Ausnahme mag sein, wenn man explizit dazusagt, dass der Eintrag automatisch erzeugt wurde und nicht korrekt sein muss.
 === Das Problem der Umlaute ===
+== Das Problem der Umlaute ==
 Die Grundform ist bei Sprachen mit einfacheren Flexionsparadigmen wie Deutsch leichter zu finden als beispielsweise im Lateinischen. Ein Problem entsteht im Deutschen aber dadurch, dass Celex die Umlaute zu ae, oe, ue normalisiert. Beispielsweise werden Poebene und das fiktive Wort Pöbene zum gleichen Wort Poebene normalisiert. Wir können daher nur die Wörter unterscheiden, die Celex unterscheiden kann. Bei Poebene scheint es weiter kein Problem zu geben, denn Pöbene gibt es nicht. Wenn man aber "musste" nachschlagen will, muss man es erst zu "muessen" normalisieren und dann entweder die Form "muessen" im Wörterbuch finden oder "muessen" wieder zurück in "müssen" verwandeln und diese Form dann im Wörterbuch finden.
 …
   * einzigste, maximalst
 === Diakritika ===
+== Diakritika ==
 Für Diakritika bedeutet Normalisierung in der Regel, dass sie entfernt werden.
 …
 Unicode-Fehler durch identisch aussehende Zeichen werden bei uns im Gegensatz zu Arboreal nicht normalisiert. Zum Beispiel ά (03AC) wird nicht zu ά (1F71) normalisiert. Es ist Aufgabe eines Workflow-Skriptes, solche Zeichen zu finden bzw. zu ersetzen.
 === Sprachschichten ===
+== Sprachschichten ==
 Dieser Abschnitt ist noch nicht fertig ausgearbeitet. Es ist noch nicht klar, wie wir mit verschiedenen Sprachschichten umgehen sollen. Sehr wahrscheinlich muss es aber unterschiedliche Normalisierungen für unterschiedliche Sprachschichten geben. Beispielsweise ist es nicht sinnvoll, alle deutschen Texte auf die moderne Rechtschreibung zu normalisieren.
 …
  * Ich gehe davon aus, dass die Wahl der Sprachschicht sich sowohl auf die Textanzeige als auch auf die Wörterbuch-Normalisierung bezieht.
  === Normalisierung und Suche ===
+ == Normalisierung und Suche ==
 Die Suche sollte per default zu intuitiv nachvollziehbaren Ergebnissen kommen. Wir können uns noch überlegen, welche Suchoptionen wir anbieten wollen, aber zuerst muss das default-Verhalten stimmen.
 …
 Zu 3: Vorläufig werden in der neuen Normalisierung für Latein nur die wirklich notwendigen Regeln verwendet, um zu sehen, ob das vielleicht schon ausreicht, und um keine Fehler zu übertünchen. Und beispielsweise sollte aus der Regel "J wird zu I" eigentlich nicht "j wird zu i" folgen, weil j wie in major fast immer falsch ist. Aber siehe unten: Vielleicht muss <reg> dann aufpassen, dass alle j korrigiert sind, und die Normalisierung macht aus major maior, egal ob es ein Transkriptionsfehler ist oder nicht. Wenn wir alle Regeln auch für Großbuchstaben formulieren, würden abgesehen von den Einzelwortregeln noch Regeln für Ę Œ J À È Ò Ù dazukommen. Mindestens die Regeln für Ę À È Ò Ù werden in einem echten lateinischen Text wohl nie angewendet. (Gibt es diese Zeichen überhaupt in einem Setzkasten im 16. Jh.?) Das würde dafür sprechen, das Suchwort einfach in Kleinbuchstaben umzuwandeln und dann erst zu normalisieren (und wenn es für die Architektur einfacher ist, es dann nochmal in Kleinbuchstaben umzuwandeln, was natürlich keinen Effekt mehr hat). Echte Wörter werden erst normalisiert und erst dann in Kleinbuchstaben umgewandelt.
 === Standard-Normalisierungen in allen Sprachen ===
+== Standard-Normalisierungen in allen Sprachen ==
  * ſ wird zu s
 …
 Die Normalisierungsmodule für Textanzeige und Wörterbuch sind dagegen wohl nicht unabhängig voneinander, sondern man kann sie hintereinanderschalten: Erst das Modul für die Textanzeige, dann die sprachimmanente Wörterbuch-Normalisierung, dann technisch bedingte Normalisierungen, dann die Grundformbildung. Die sprachimmanente Wörterbuch-Normalisierung besteht dann nur noch aus den zusätzlichen Normalisierungen, die für die Textanzeige nicht gemacht werden. Die bisher einzige Ausnahme ist die Wortform-Disambiguierung durch Lesehilfen wie hîc. Das wäre aber wohl ein lösbares Problem, denn man könnte die Disambiguierungsinformation getrennt aufbewahren.
 === Latein ===
+== Latein ==
 Ziel der Normalisierung im Lateinischen ist die moderne Schreibweise.
 …
 Vor weiteren Änderungen der Regeln sollten wir die erste Implementation abwarten und schauen, wie gut die Regeln in der Praxis funktionieren.
 === Italienisch ===
+== Italienisch ==
 Über Italienisch weiß ich wenig. Aber zumindest die u/v-Regeln gelten auch hier.
 …
  * Gravis (accento grave) zu Akut (accento acuto)?
 === Englisch ===
+== Englisch ==
 Gibt es überhaupt sprachspezifische Normalisierungen?
 …
 Problem der älteren Sprachstufen (und Sprachschichten).
 === Französisch ===
+== Französisch ==
 Über Französisch weiß ich wenig.
 …
  * Wie ist es mit ß und u/v?
 === Deutsch ===
+== Deutsch ==
 Umlaute und ß werden nicht normalisiert, im Gegensatz zum Lateinischen.
 …
 Für die Normalisierung gibt es also die Regel: uͦ wird zu u.
 === Chinesisch ===
+== Chinesisch ==
 Ziel der Normalisierung im Chinesischen ist eine Textversion mit Standardzeichen.
 …
 Einen Service zur Umwandlung von Lang- in Kurzzeichen könnten wir zwar auch anbieten, aber wirklich sinnvoll wäre das für klassisches Chinesisch wohl nicht.
 === Arabisch ===
+== Arabisch ==
 Über Arabisch weiß ich zu wenig.
 === Keilschrift ===
+== Keilschrift ==
 Unicode enthält:
 …
 Über Keilschrifttexte weiß ich zu wenig. Es geht aber wohl nicht Unicode-Zeichen, sondern um Transliterierungen der originalen Texte. Vermutlich wird hier gar nichts normalisiert.
 === Griechisch ===
+== Griechisch ==
 Ziel der Normalisierung im Griechischen ist die moderne Schreibweise des Altgriechischen.