Changes between Version 19 and Version 20 of normalization/6


Ignore:
Timestamp:
Dec 10, 2010, 12:13:52 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v19 v20  
    1212   * muss mit einfachen Algorithmen wie bei u/v umgehen können (Latein)
    1313   * muss mit offenen Klassen umgehen können (Chinesisch)
    14  * Die Normalisierungen für die Anzeige und für !Pollux/Donatus sollten so ähnlich wie möglich sein (aber nicht ähnlicher).
     14 * Die Normalisierungen für die Anzeige und für !Pollux/Donatus sollten so ähnlich wie möglich sein, aber nicht ähnlicher.
    1515 * Es muss für jede Normalisierung eine Begründung geben; kein Zeichen wird auf Verdacht normalisiert.
    1616 * Wenn etwas sprachspezifisch und nicht buchspezifisch ist, sollte es zur Normalisierung und nicht zur Regularisierung gehören.
     
    2020=== Regularisierung und Normalisierung ===
    2121
    22 Details der Regularisierung werden [wiki:regularization hier] diskutiert. Ausgangspunkt für die Normalisierung ist ein Text, der bereits <reg>enthält. Im Idealfall bedeutet das:
     22Details der Regularisierung werden [wiki:regularization hier] diskutiert.
     23
     24Ausgangspunkt für die Normalisierung ist ein Text, der bereits regularisiert ist. Im Idealfall bedeutet das:
    2325 * Fehler im Text korrigiert
    2426 * keine Abkürzungszeichen mehr im Text
     
    2830Natürlich muss die Normalisierung mit der Textversion arbeiten, die sie vorfindet. Formal gesagt: Für Wörter mit <reg> und einem norm-Attribut in diesem <reg> arbeitet die Normalisierung nicht mit dem originalen Wort, sondern mit der Version im norm-Attribut. Bei Wörtern ohne <reg>, oder mit einem <reg> ohne norm-Attribut, wird das originale Wort verwendet.
    2931
    30 Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird.
    31 
    32 Beispiele für das Zusammenspiel von Regularisierung und Normalierung siehe [wiki:normalization/overview hier].
    33 
     32Beispiele für das Zusammenspiel von Regularisierung und Normalierung siehe [wiki:normalization/overview hier]. Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird.
    3433
    3534=== Textanzeige und Wörterbücher ===
    3635
    37 Normalisierung meint normalerweise die Normalisierung für die Textanzeige. Abweichende Normalisierungen für !Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden.
     36Normalisierung meint in der Regel die Normalisierung für die Textanzeige. Abweichende Normalisierungen für !Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden.
    3837
    3938Die Normalisierung für das Wörterbuch ist unabhängig vom gerade aktiven Textanzeigemodus: Jede Anfrage an das Wörterbuch wird auf Basis des regularisierten Wortes normalisiert.
     
    109108 * ç wird vorläufig nicht normalisiert
    110109
    111 Was machen wir mit unterschiedlichen Schreibweisen? Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). Eine Wortliste? Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Ist das eine Aufgabe der Normalisierung oder doch der Regularisierung? Es ist jedenfalls kein Textfehler und auch nicht buchspezifisch.) Möglicherweise brauchen wir eine Sprachschicht "Mittellatein".
     110Was machen wir mit unterschiedlichen Schreibweisen? Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). Eine Wortliste? Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Ist das eine Aufgabe der Normalisierung oder doch der Regularisierung? Es ist jedenfalls kein Textfehler und auch nicht buchspezifisch.) Möglicherweise brauchen wir eine Sprachschicht "Mittellatein". Als Alternative zum Standard-Latein oder als nachgeschaltetes Modul? Oder als buchspezifisches Normalisierung, eventuell als overlay? Wäre auch bei Alvarus eine buchspezifische Normalisierung sinnvoll, um sich einen großen Teil der Regularisierungen im Text zu sparen? Oder wird unser System damit zu zersplittert? Unsere Texte könnten dann praktisch nur noch bei uns korrekt angezeigt werden.
    112111
    113112=== Italienisch ===