Context Navigation

Changes between Version 19 and Version 20 of normalization/6

Timestamp:: Dec 10, 2010, 12:13:52 PM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/6

-                      v19
+                      v20
    * muss mit einfachen Algorithmen wie bei u/v umgehen können (Latein)
    * muss mit offenen Klassen umgehen können (Chinesisch)
  * Die Normalisierungen für die Anzeige und für !Pollux/Donatus sollten so ähnlich wie möglich sein (aber nicht ähnlicher).
+ * Die Normalisierungen für die Anzeige und für !Pollux/Donatus sollten so ähnlich wie möglich sein, aber nicht ähnlicher.
  * Es muss für jede Normalisierung eine Begründung geben; kein Zeichen wird auf Verdacht normalisiert.
  * Wenn etwas sprachspezifisch und nicht buchspezifisch ist, sollte es zur Normalisierung und nicht zur Regularisierung gehören.
 …
 === Regularisierung und Normalisierung ===
+Details der Regularisierung werden [wiki:regularization hier] diskutiert. Ausgangspunkt für die Normalisierung ist ein Text, der bereits <reg>enthält. Im Idealfall bedeutet das:
+Details der Regularisierung werden [wiki:regularization hier] diskutiert.
+Ausgangspunkt für die Normalisierung ist ein Text, der bereits regularisiert ist. Im Idealfall bedeutet das:
  * Fehler im Text korrigiert
  * keine Abkürzungszeichen mehr im Text
 …
 Natürlich muss die Normalisierung mit der Textversion arbeiten, die sie vorfindet. Formal gesagt: Für Wörter mit <reg> und einem norm-Attribut in diesem <reg> arbeitet die Normalisierung nicht mit dem originalen Wort, sondern mit der Version im norm-Attribut. Bei Wörtern ohne <reg>, oder mit einem <reg> ohne norm-Attribut, wird das originale Wort verwendet.
+Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird.
+Beispiele für das Zusammenspiel von Regularisierung und Normalierung siehe [wiki:normalization/overview hier].
+Beispiele für das Zusammenspiel von Regularisierung und Normalierung siehe [wiki:normalization/overview hier]. Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird.
 === Textanzeige und Wörterbücher ===
 Normalisierung meint normalerweise die Normalisierung für die Textanzeige. Abweichende Normalisierungen für !Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden.
+Normalisierung meint in der Regel die Normalisierung für die Textanzeige. Abweichende Normalisierungen für !Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden.
 Die Normalisierung für das Wörterbuch ist unabhängig vom gerade aktiven Textanzeigemodus: Jede Anfrage an das Wörterbuch wird auf Basis des regularisierten Wortes normalisiert.
 …
  * ç wird vorläufig nicht normalisiert
 Was machen wir mit unterschiedlichen Schreibweisen? Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). Eine Wortliste? Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Ist das eine Aufgabe der Normalisierung oder doch der Regularisierung? Es ist jedenfalls kein Textfehler und auch nicht buchspezifisch.) Möglicherweise brauchen wir eine Sprachschicht "Mittellatein".
+Was machen wir mit unterschiedlichen Schreibweisen? Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). Eine Wortliste? Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Ist das eine Aufgabe der Normalisierung oder doch der Regularisierung? Es ist jedenfalls kein Textfehler und auch nicht buchspezifisch.) Möglicherweise brauchen wir eine Sprachschicht "Mittellatein". Als Alternative zum Standard-Latein oder als nachgeschaltetes Modul? Oder als buchspezifisches Normalisierung, eventuell als overlay? Wäre auch bei Alvarus eine buchspezifische Normalisierung sinnvoll, um sich einen großen Teil der Regularisierungen im Text zu sparen? Oder wird unser System damit zu zersplittert? Unsere Texte könnten dann praktisch nur noch bei uns korrekt angezeigt werden.
 === Italienisch ===