Changes between Version 34 and Version 35 of normalization/6


Ignore:
Timestamp:
Dec 18, 2010, 5:30:52 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v34 v35  
    4848Die Normalisierung der Textanzeige ist von den sprachimmanenten und technisch bedingten Normalisierungen für die Wörterbücher ganz unberührt.
    4949
     50Falls wir mit zeitgenössischen Wörterbüchern arbeiten, müssen wir auch diese normalisieren.
     51 * Im Lateinischen bedeutet das zum Beispiel, dass wir die moderne u/v-Schreibung verwenden. Bisher verwenden wir allerdings keine zeitgenössischen lateinischen Wörterbücher.
     52 * Ob wir im Deutschen die gleiche Strategie verwenden können, ist noch nicht klar, insbesondere weil die Normalisierung im Deutschen mit seinen vielen verschiedenen historischen Schreibungen noch nicht feststeht. Das Problem wird im nächsten Abschnitt am Beispiel des Grimm-Wörterbuchs angerissen, das Schreibweisen wie ruszen und abnöthigen verwendet.
     53
    5054=== Wortform und Grundform ===
    5155
     
    5357
    5458Bei uns funktioniert der Mechanismus zurzeit meines Wissens folgendermaßen:
    55  * Latein: Wortformenliste
    56  * Griechisch: Wortformenliste
    57  * Deutsch: Morphologie durch Celex
     59 * Latein: Wortformenliste (hauptsächlich von Perseus)
     60 * Italienisch: ?
     61 * Englisch: Wortformenliste? (Celex)
     62 * Französisch: ?
     63 * Deutsch: Wortformenliste? (Celex)
     64 * Niederländisch: Wortformenliste? (Celex)
    5865 * Chinesisch: siehe unten
     66 * Arabisch: Wortformenliste? (hauptsächlich von Perseus)
     67 * Keilschrift: --
     68 * Griechisch: Wortformenliste (hauptsächlich von Perseus)
    5969 
    6070Eine Folge der nicht aufgelösten Diakritika (siehe unten) ist, dass die Wörter nicht im Wörterbuch gefunden werden. Das ist Absicht. Es ist ein wichtiger Grundsatz, lieber gar keinen Eintrag im Wörterbuch anzubieten als einen falschen. Ausnahme mag sein, wenn man explizit dazusagt, dass der Eintrag automatisch erzeugt wurde und nicht korrekt sein muss.
     
    6979 * Verwenden wir Celex tatsächlich nur für die Morphologie und nicht als Wörterbuch?
    7080 * Funktioniert Celex mit Wortliste oder mit Algorithmus?  Oder haben wir bei Celex sogar Zugang zum Algorithmus?
    71  * Was macht Celex mit ß? Wird es zu ss? Im Grimm muss man offenbar sz verwenden.
     81 * Celex arbeitet offenbar mit ASCII. Dann wird ß also zu ss? Im Grimm muss man offenbar sz verwenden.
    7282 * Was macht Celex mit Bindestrichen?
     83 * Niederländisch hat é wie in der betonten Version één von een. Wohl kein Problem?
    7384
    7485Fragen zum Deutschen:
     
    153164  * Die Regel "ſ wird zu s" hat kein Gegenstück, weil es kein großes ſ gibt.
    154165 
    155 Fragen:
    156  * Ist es sinnvoll, ein sprachunabhängiges Modul zu haben, das zum Beispiel die Regel "ſ wird zu s" enthält? Die sprachspezifische Normalisierung besteht dann aus dem sprachunabhängigen Modul und einem sprachabhängigen Modul. Ohne ein sprachunabhängiges Modul muss die Regel "ſ wird zu s" in jedem sprachabhängigen Modul wiederholt werden. Andererseits gibt es nur wenige sprachunabhängige Regeln.
    157  * In fast allen Sprachen wird ß zu ss. Ist es deshalb sinnvoll, im sprachunabhängigen Modul die Regel "ß wird zu ss" zu haben, was nur vom Modul für Deutsch durch die Regel "ß wird nicht normalisiert" ersetzt wird? Wahrscheinlich würde das Ändern der Regeln dadurch schwieriger, und man könnte das sprachunabhängige Modul dann nicht mehr einfach vor dem sprachabhängigen Modul ausführen.
    158  * Sind die Normalisierungen für die Anzeige und das Wörterbuch in einer Sprache unabhängig voneinander, oder besteht die Normalisierung für das Wörterbuch aus der Normalisierung für die Textanzeige und weiteren Normalisierungen? Bei den überflüssigen Diakritika wäre das nicht möglich, ansonsten ginge es wohl.
     166Es ist wohl nicht sinnvoll, ein sprachunabhängiges Modul zu haben, das zum Beispiel die Regel "ſ wird zu s" enthält. (Die sprachspezifische Normalisierung würde dann aus dem sprachunabhängigen Modul und einem sprachabhängigen Modul bestehen.) Der Grund ist, dass ein Zeichen wie ſ irgendwo eine andere Bedeutung haben kann und nicht normalisiert werden soll. Ein anderes Beispiel ist ß: In fast allen Sprachen wird ß zu ss. Wenn es im sprachunabhängigen Modul die Regel "ß wird zu ss" gibt, muss sie vom Modul für Deutsch durch die Regel "ß wird nicht normalisiert" ersetzt werden. Dadurch würde das Ändern der Regeln schwieriger, und man könnte das sprachunabhängige Modul nicht mehr einfach vor dem sprachabhängigen Modul ausführen, da ß ja sonst bereits zu ss normalisiert wäre. Ohne ein sprachunabhängiges Modul muss die Regel "ſ wird zu s" zwar in jedem sprachabhängigen Modul wiederholt werden. Andererseits gibt es nur wenige sprachunabhängige Regeln.
     167
     168Die Normalisierungsmodule für Textanzeige und Wörterbuch sind dagegen wohl nicht unabhängig voneinander, sondern man kann sie hintereinanderschalten: Erst das Modul für die Textanzeige, dann die sprachimmanente Wörterbuch-Normalisierung, dann technisch bedingte Normalisierungen, dann die Grundformbildung. Die sprachimmanente Wörterbuch-Normalisierung besteht dann nur noch aus den zusätzlichen Normalisierungen, die für die Textanzeige nicht gemacht werden. Die bisher einzige Ausnahme ist die Wortform-Disambiguierung durch Lesehilfen wie hîc. Das wäre aber wohl ein lösbares Problem, denn man könnte die Disambiguierungsinformation getrennt aufbewahren.
    159169
    160170=== Latein ===
     
    246256Die Normalisierung für das Wörterbuch ist wie immer unabhängig vom Textanzeigemodus: Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
    247257
    248 Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Wir haben noch keinen Mechanismus, um Wortgrenzen zu bestimmen. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht? (Wäre das dann wiederum ein rudimentärer Mechanismus zum Bestimmen von Wortgrenzen?)
     258Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Wir haben noch keinen Mechanismus, um Wortgrenzen zu bestimmen. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht? (Wäre das dann wiederum ein rudimentärer Mechanismus zum Bestimmen von Wortgrenzen? Das zugrundeliegende Wörterbuch müsste jedenfalls für klassisches Chinesisch sein, sonst gibt es gar keine Chance, dass dieser Ansatz funktioniert.)
    249259
    250260Die ''ZWS'' werden zumindest in der Normalisierung für das Wörterbuch entfernt.
     
    267277=== Griechisch ===
    268278
    269 Ziel der Normalisierung im Griechischen ist die akzeptierte moderne Schreibweise des Altgriechischen.
     279Ziel der Normalisierung im Griechischen ist die moderne Schreibweise des Altgriechischen.
    270280 * Im griechischen Text sollten alle Ligaturen regularisiert sein, d.h. in das faithful-Attribut verschoben. Noch im Text vorhandene Ligaturen werden nicht normalisiert.
    271281 * Im Text können middle dots enthalten sein, die ebenfalls nicht normalisiert werden.