Changes between Version 22 and Version 23 of normalization/6


Ignore:
Timestamp:
Dec 12, 2010, 1:33:45 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v22 v23  
    11[[PageOutline(1-4,,pullout)]]
    22
    3 == 4. Wie soll normalisiert werden? ==
     3== 6. Wie soll normalisiert werden? ==
    44
    55=== Ziele ===
     
    88
    99Außerdem:
    10  * Die Normalisierungsregeln sollten einfach und eindeutig formulierbar sein
    11  * die Normalisierungsschicht sollte so einfach wie möglich sein, aber nicht einfacher:
     10 * Die Normalisierungsregeln sollten eindeutig formulierbar sein.
     11 * Die Normalisierungsschicht sollte so einfach wie möglich sein, aber nicht einfacher:
    1212   * muss mit einfachen Algorithmen wie bei u/v umgehen können (Latein)
    1313   * muss mit offenen Klassen umgehen können (Chinesisch)
     
    1515 * Es muss für jede Normalisierung eine Begründung geben; kein Zeichen wird auf Verdacht normalisiert.
    1616 * Wenn etwas sprachspezifisch und nicht buchspezifisch ist, sollte es zur Normalisierung und nicht zur Regularisierung gehören.
    17  * Bei Wörtern, die zwar regularisiert werden müssten, aber nicht regularisiert sind, sollte die Normalisierung den Fehler nicht verschleiern.
     17 * Bei Wörtern, die irrtümlicherweise nicht regularisiert wurden, sollte die Normalisierung den Fehler nicht verschleiern.
    1818 * Korrekt geschriebene Texte in modernen Sprachen sollten im Idealfall gar keine Normalisierungen benötigen.
    1919
    2020=== Regularisierung und Normalisierung ===
    2121
    22 Details der Regularisierung werden [wiki:regularization hier] diskutiert.
     22Details der Regularisierung werden [wiki:normalization/5 hier] diskutiert.
    2323
    2424Ausgangspunkt für die Normalisierung ist ein Text, der bereits regularisiert ist. Im Idealfall bedeutet das:
     
    3030Natürlich muss die Normalisierung mit der Textversion arbeiten, die sie vorfindet. Formal gesagt: Für Wörter mit <reg> und einem norm-Attribut in diesem <reg> arbeitet die Normalisierung nicht mit dem originalen Wort, sondern mit der Version im norm-Attribut. Bei Wörtern ohne <reg>, oder mit einem <reg> ohne norm-Attribut, wird das originale Wort verwendet.
    3131
    32 Beispiele für das Zusammenspiel von Regularisierung und Normalierung siehe [wiki:normalization/overview hier]. Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird.
     32Beispiele für das Zusammenspiel von Regularisierung und Normalierung siehe [wiki:normalization/4 hier]. Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird.
    3333
    3434=== Textanzeige und Wörterbücher ===
     
    3636Normalisierung meint in der Regel die Normalisierung für die Textanzeige. Abweichende Normalisierungen für !Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden.
    3737
    38 Insebesondere ist mir unklar, warum man von der normalisierten Form zurück zur Originalform kommen möchte. Wenn das Wörterbuch beispielsweise ö zu oe normalisiert und deshalb das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten kann, wird Poebene angezeigt und mit dem Eintrag für Poebene verbunden.
     38Insbesondere ist mir unklar, warum man von der normalisierten Form zurück zur Originalform kommen möchte. Wenn das Wörterbuch beispielsweise ö zu oe normalisiert und deshalb das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten kann, wird Poebene angezeigt und mit dem Eintrag für Poebene verbunden.
    3939
    4040Die Normalisierung für das Wörterbuch ist unabhängig vom gerade aktiven Textanzeigemodus: Jede Anfrage an das Wörterbuch wird auf Basis des regularisierten Wortes normalisiert.
     
    4646Für Diakritika bedeutet Normalisierung, dass sie entfernt werden.
    4747 1. Diakritika, die in einer Sprache verwendet werden, werden nicht normalisiert: Beispiel ist ä ö ü im Deutschen.
    48  1. Heutzutage als überflüssig erachtete Diakritika wie in aër und verò im Lateinischen werden normalisiert. Wenn sie nicht reine Lesehilfen sind, können aber noch zur Lemma-Disambiguierung oder zumindest zur Wortform-Disambiguierung beitragen.
     48 1. Diakritika zur Disambiguierung oder als Lesehilfe wie in aër und verò im Lateinischen, die in der modernen Schreibweise nicht mehr verwendet werden, werden normalisiert. Wenn sie nicht reine Lesehilfen sind, können aber noch zur Lemma-Disambiguierung oder zumindest zur Wortform-Disambiguierung beitragen.
    4949 1. Diakritika bei Abkürzungszeichen werden nicht normalisiert. Beispielsweise wird eiuſdẽ, falls es aus Versehen nicht regularisiert wurde, zu eiusdẽ, aber nicht zu eiusde normalisiert. Durch Weglassen der Tilde kann offensichtlich nicht die richtige Wortform herauskommen. Stattdessen gibt es drei mögliche Fälle:
    5050    * Es kommt gar keine echte Wortform heraus. Dann ist man nicht weiter als mit der originalen Form. Beispiele: eiuſdẽ wird zu eiusde und ſcīa wird zu scia.
     
    5656
    5757Unicode-Fehler durch identisch aussehende Zeichen werden bei uns im Gegensatz zu Arboreal nicht normalisiert. Zum Beispiel ά (03AC) wird nicht zu ά (1F71) normalisiert. Es ist Aufgabe eines Workflow-Skriptes, solche Zeichen zu finden bzw. zu ersetzen.
     58
     59=== Sprachschichten ===
     60
     61Es ist noch nicht klar, wie wir mit verschiedenen Sprachschichten umgehen sollen. Wahrscheinlich muss es unterschiedliche Normalisierungen für unterschiedliche Sprachschichten geben. Beispielsweise ist es nicht sinnvoll, alle deutschen Texte auf die moderne Rechtschreibung zu normalisierten.
     62
     63Ein Beispiel im Lateinischen: Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). Eine Wortliste? Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Wäre das eine Aufgabe der Normalisierung? Gegen Regularisierung spricht: es ist kein Textfehler und auch nicht buchspezifisch.) Möglicherweise brauchen wir eine Sprachschicht "Mittellatein". Als Alternative zum Standard-Latein oder als nachgeschaltetes Modul? Oder als buchspezifisches Normalisierung, eventuell als overlay? Wäre auch bei Alvarus eine buchspezifische Normalisierung sinnvoll, um sich einen großen Teil der Regularisierungen im Text zu sparen? Oder wird unser System damit zu zersplittert? Unsere Texte könnten dann praktisch nur noch bei uns korrekt angezeigt werden.
    5864
    5965=== Standard-Normalisierungen in allen Sprachen ===
     
    7177 
    7278Fragen:
    73  * Ist es sinnvoll, dafür ein sprachunabhängiges Modul zu haben, und die Normalisierung besteht dann aus dem sprachunabhängigen Modul und einem sprachabhängigen Modul, oder wird die Regel "ſ wird zu s" einfach in jedem sprachabhängigen Modul wiederholt?
    74  * Ist es sinnvoll, im sprachunabhängigen Modul eine Regel wie "ß wird zu ss" zu haben, und das Modul für Deutsch überschreibt diese Regel? Wahrscheinlich würde das Ändern der Regeln dadurch schwieriger.
     79 * Ist es sinnvoll, ein sprachunabhängiges Modul zu haben, das zum Beispiel die Regel "ſ wird zu s" enthält? Die sprachspezifische Normalisierung besteht dann aus dem sprachunabhängigen Modul und einem sprachabhängigen Modul. Ohne ein sprachunabhängiges Modul muss die Regel "ſ wird zu s" in jedem sprachabhängigen Modul wiederholt werden. Andererseits gibt es nur wenige sprachunabhängige Regeln.
     80 * In fast allen Sprachen wird ß zu ss. Ist es deshalb sinnvoll, im sprachunabhängigen Modul die Regel "ß wird zu ss" zu haben, was nur vom Modul für Deutsch durch die Regel "ß wird nicht normalisiert" ersetzt wird? Wahrscheinlich würde das Ändern der Regeln dadurch schwieriger, und man könnte das sprachunabhängige Modul dann nicht mehr einfach vor dem sprachabhängigen Modul ausführen.
    7581 * Sind die Normalisierungen für die Anzeige und das Wörterbuch in einer Sprache unabhängig voneinander, oder besteht die Normalisierung für das Wörterbuch aus der Normalisierung für die Textanzeige und weiteren Normalisierungen? Bei den überflüssigen Diakritika wäre das nicht möglich, ansonsten ginge es wohl.
    7682
     
    106112Arboreal:
    107113 * ç wird vorläufig nicht normalisiert
    108 
    109 Das Problem der unterschiedlichen Schreibweisen: Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). Eine Wortliste? Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Wäre das eine Aufgabe der Normalisierung? Gegen Regularisierung spricht: es ist kein Textfehler und auch nicht buchspezifisch.) Möglicherweise brauchen wir eine Sprachschicht "Mittellatein". Als Alternative zum Standard-Latein oder als nachgeschaltetes Modul? Oder als buchspezifisches Normalisierung, eventuell als overlay? Wäre auch bei Alvarus eine buchspezifische Normalisierung sinnvoll, um sich einen großen Teil der Regularisierungen im Text zu sparen? Oder wird unser System damit zu zersplittert? Unsere Texte könnten dann praktisch nur noch bei uns korrekt angezeigt werden.
    110114
    111115=== Italienisch ===