Context Navigation

Changes between Version 10 and Version 11 of normalization/6

Timestamp:: Dec 6, 2010, 3:48:34 PM (13 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/6

-                      v10
+                      v11
+[[PageOutline(1-4,,pullout)]]
+== 4. Wie soll normalisiert werden? ==
+=== Grundgedanken ===
+Ziele
+ * Moderne Schreibweise des Textes, zum Beispiel u/v-Schreibweise in Latein
+ * Die Normalisierungsregeln sollten einfach formulierbar sein.
+ * Wenn etwas sprachspezifisch und nicht buchspezifisch ist, sollte es zur Normalisierung und nicht zur Regularisierung gehören.
+ * Bei Wörtern, die zwar regularisiert werden müssten, aber nicht regularisiert sind, sollte die Normalisierung den Fehler nicht verschleiern.
+=== Regularisierung und Normalisierung ===
+Details der Regularisierung werden [wiki:regularization hier] diskutiert. Ausgangspunkt für die Normalisierung ist ein Text, der bereits <reg>enthält. Im Idealfall bedeutet das:
+ * Fehler im Text korrigiert
+ * keine Abkürzungszeichen mehr im Text
+ * keine PUA-Zeichen mehr im Text
+Natürlich muss die Normalisierung mit der Textversion arbeiten, die sie vorfindet. Formal gesagt: Für Wörter mit <reg> und einem norm-Attribut in diesem <reg> arbeitet die Normalisierung nicht mit dem originalen Wort, sondern mit der Version im norm-Attribut. Bei Wörtern ohne <reg>, oder mit einem <reg> ohne norm-Attribut, wird das originale Wort verwendet.
+Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird.
+In der untenstehenden Tabelle sind viele Beispiele für das Zusammenspiel von Regularisierung und Normalierung zu sehen.
+=== Textanzeige und Wörterbücher ===
+Normalisierung meint normalerweise die Normalisierung für die Textanzeige. Abweichende Normalisierungen für !Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden.
+=== Beispiele ===
+Die folgende Tabelle zeigt einige Wörter vom Rohtext über das XML bis zum Anzeigesystem. Die Wörter sind nach Sprachen sortiert. In der Transkription gibt es zwei Versionen, den Rohtext und den bearbeiteten Rohtext. Der bearbeitete Rohtext entsteht, wenn man die Schreibweisen in den DESpecs in Unicode umsetzt. Dieser Schritt entspricht dem Anzeigemodus "Original". Im XML-Text werden mit <reg> zum einen die bekannten Textkorrekturen gemacht (das entspricht dem Anzeigemodus "Regularized"), zum anderen gibt es in <reg> ein Attribut, in das alle Informationen aus dem Rohtext verschwinden, die wir nicht gut in Unicode darstellen können (das entspricht dem Anzeigemodus "Original" mit Checkbox "faithful"). Die Normalisierung teilt sich auf in eine Normalisierung für die Textanzeige (das entspricht dem Anzeigemodus "Normalized") und einer Normalisierung für Wörterbücher. In der Kommentarspalte wird jeweils die Besonderheit des Wortes genannt.
 || ||||  Transkription  ||||  <reg> (im XML)  ||||  Normalisierung (System)  ||  Kommentar  ||
 || ||  Rohtext  ||  nachbearbeitet  ||  @faithful  ||  @norm  ||  Anzeige  ||  !Donatus/Pollux  || ||
 …
 . automatisiert eventuell eine Zwischenstufe 中<reg faithful="{国}" type="unresolved">国</reg>, damit die Suche nicht bricht; per Hand <reg faithful="中{⿴口玉}">中国</reg> (Wortgrenzen beachten, IDS-Sequenz einfügen)
 . semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; dagegen {que} bedeutet immer -que, trotzdem zu {q3app} oder kürzer {q3}?