Context Navigation

Changes between Version 34 and Version 35 of normalization/6

Timestamp:: Dec 18, 2010, 5:30:52 PM (13 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/6

-                      v34
+                      v35
 Die Normalisierung der Textanzeige ist von den sprachimmanenten und technisch bedingten Normalisierungen für die Wörterbücher ganz unberührt.
+Falls wir mit zeitgenössischen Wörterbüchern arbeiten, müssen wir auch diese normalisieren.
+ * Im Lateinischen bedeutet das zum Beispiel, dass wir die moderne u/v-Schreibung verwenden. Bisher verwenden wir allerdings keine zeitgenössischen lateinischen Wörterbücher.
+ * Ob wir im Deutschen die gleiche Strategie verwenden können, ist noch nicht klar, insbesondere weil die Normalisierung im Deutschen mit seinen vielen verschiedenen historischen Schreibungen noch nicht feststeht. Das Problem wird im nächsten Abschnitt am Beispiel des Grimm-Wörterbuchs angerissen, das Schreibweisen wie ruszen und abnöthigen verwendet.
 === Wortform und Grundform ===
 …
 Bei uns funktioniert der Mechanismus zurzeit meines Wissens folgendermaßen:
+ * Latein: Wortformenliste
+ * Griechisch: Wortformenliste
+ * Deutsch: Morphologie durch Celex
+ * Latein: Wortformenliste (hauptsächlich von Perseus)
+ * Italienisch: ?
+ * Englisch: Wortformenliste? (Celex)
+ * Französisch: ?
+ * Deutsch: Wortformenliste? (Celex)
+ * Niederländisch: Wortformenliste? (Celex)
  * Chinesisch: siehe unten
+ * Arabisch: Wortformenliste? (hauptsächlich von Perseus)
+ * Keilschrift: --
+ * Griechisch: Wortformenliste (hauptsächlich von Perseus)
 Eine Folge der nicht aufgelösten Diakritika (siehe unten) ist, dass die Wörter nicht im Wörterbuch gefunden werden. Das ist Absicht. Es ist ein wichtiger Grundsatz, lieber gar keinen Eintrag im Wörterbuch anzubieten als einen falschen. Ausnahme mag sein, wenn man explizit dazusagt, dass der Eintrag automatisch erzeugt wurde und nicht korrekt sein muss.
 …
  * Verwenden wir Celex tatsächlich nur für die Morphologie und nicht als Wörterbuch?
  * Funktioniert Celex mit Wortliste oder mit Algorithmus?  Oder haben wir bei Celex sogar Zugang zum Algorithmus?
  * Was macht Celex mit ß? Wird es zu ss? Im Grimm muss man offenbar sz verwenden.
+ * Celex arbeitet offenbar mit ASCII. Dann wird ß also zu ss? Im Grimm muss man offenbar sz verwenden.
  * Was macht Celex mit Bindestrichen?
+ * Niederländisch hat é wie in der betonten Version één von een. Wohl kein Problem?
 Fragen zum Deutschen:
 …
   * Die Regel "ſ wird zu s" hat kein Gegenstück, weil es kein großes ſ gibt.
+Fragen:
+ * Ist es sinnvoll, ein sprachunabhängiges Modul zu haben, das zum Beispiel die Regel "ſ wird zu s" enthält? Die sprachspezifische Normalisierung besteht dann aus dem sprachunabhängigen Modul und einem sprachabhängigen Modul. Ohne ein sprachunabhängiges Modul muss die Regel "ſ wird zu s" in jedem sprachabhängigen Modul wiederholt werden. Andererseits gibt es nur wenige sprachunabhängige Regeln.
+ * In fast allen Sprachen wird ß zu ss. Ist es deshalb sinnvoll, im sprachunabhängigen Modul die Regel "ß wird zu ss" zu haben, was nur vom Modul für Deutsch durch die Regel "ß wird nicht normalisiert" ersetzt wird? Wahrscheinlich würde das Ändern der Regeln dadurch schwieriger, und man könnte das sprachunabhängige Modul dann nicht mehr einfach vor dem sprachabhängigen Modul ausführen.
+ * Sind die Normalisierungen für die Anzeige und das Wörterbuch in einer Sprache unabhängig voneinander, oder besteht die Normalisierung für das Wörterbuch aus der Normalisierung für die Textanzeige und weiteren Normalisierungen? Bei den überflüssigen Diakritika wäre das nicht möglich, ansonsten ginge es wohl.
+Es ist wohl nicht sinnvoll, ein sprachunabhängiges Modul zu haben, das zum Beispiel die Regel "ſ wird zu s" enthält. (Die sprachspezifische Normalisierung würde dann aus dem sprachunabhängigen Modul und einem sprachabhängigen Modul bestehen.) Der Grund ist, dass ein Zeichen wie ſ irgendwo eine andere Bedeutung haben kann und nicht normalisiert werden soll. Ein anderes Beispiel ist ß: In fast allen Sprachen wird ß zu ss. Wenn es im sprachunabhängigen Modul die Regel "ß wird zu ss" gibt, muss sie vom Modul für Deutsch durch die Regel "ß wird nicht normalisiert" ersetzt werden. Dadurch würde das Ändern der Regeln schwieriger, und man könnte das sprachunabhängige Modul nicht mehr einfach vor dem sprachabhängigen Modul ausführen, da ß ja sonst bereits zu ss normalisiert wäre. Ohne ein sprachunabhängiges Modul muss die Regel "ſ wird zu s" zwar in jedem sprachabhängigen Modul wiederholt werden. Andererseits gibt es nur wenige sprachunabhängige Regeln.
+Die Normalisierungsmodule für Textanzeige und Wörterbuch sind dagegen wohl nicht unabhängig voneinander, sondern man kann sie hintereinanderschalten: Erst das Modul für die Textanzeige, dann die sprachimmanente Wörterbuch-Normalisierung, dann technisch bedingte Normalisierungen, dann die Grundformbildung. Die sprachimmanente Wörterbuch-Normalisierung besteht dann nur noch aus den zusätzlichen Normalisierungen, die für die Textanzeige nicht gemacht werden. Die bisher einzige Ausnahme ist die Wortform-Disambiguierung durch Lesehilfen wie hîc. Das wäre aber wohl ein lösbares Problem, denn man könnte die Disambiguierungsinformation getrennt aufbewahren.
 === Latein ===
 …
 Die Normalisierung für das Wörterbuch ist wie immer unabhängig vom Textanzeigemodus: Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
 Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Wir haben noch keinen Mechanismus, um Wortgrenzen zu bestimmen. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht? (Wäre das dann wiederum ein rudimentärer Mechanismus zum Bestimmen von Wortgrenzen?)
+Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Wir haben noch keinen Mechanismus, um Wortgrenzen zu bestimmen. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht? (Wäre das dann wiederum ein rudimentärer Mechanismus zum Bestimmen von Wortgrenzen? Das zugrundeliegende Wörterbuch müsste jedenfalls für klassisches Chinesisch sein, sonst gibt es gar keine Chance, dass dieser Ansatz funktioniert.)
 Die ''ZWS'' werden zumindest in der Normalisierung für das Wörterbuch entfernt.
 …
 === Griechisch ===
 Ziel der Normalisierung im Griechischen ist die akzeptierte moderne Schreibweise des Altgriechischen.
+Ziel der Normalisierung im Griechischen ist die moderne Schreibweise des Altgriechischen.
  * Im griechischen Text sollten alle Ligaturen regularisiert sein, d.h. in das faithful-Attribut verschoben. Noch im Text vorhandene Ligaturen werden nicht normalisiert.
  * Im Text können middle dots enthalten sein, die ebenfalls nicht normalisiert werden.