Context Navigation

Changes between Version 11 and Version 12 of normalization/5

Timestamp:: Dec 12, 2010, 1:37:42 PM (13 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/5

-                      v11
+                      v12
 [[PageOutline(1-4,,pullout)]]
 == Regularisierung ==
+== 5. Wie soll regularisiert werden? ==
 Die Regularisierung eines Textes mit Hilfe von <reg> ist wohlbekannt. Seit dem Archimedes-Projekt wurde insbesondere die Struktur von <reg> umgestellt:
 …
 Neu ist eine weitere Funktion von <reg>: Wenn wir im Rohtext Informationen haben, die wir nicht darstellen können, kommen diese in ein neues Attribut namens "faithful". Beispiele sind griechische Ligaturen und chinesische Zeichenvarianten, die nicht in Unicode sind. (Die Idee, solche Zeichenvarianten in ein Attribut von <reg> zu schieben, stammt von Robert.)
 Beispiele für Regularisierungen sind in [wiki:normalization/overview dieser Tabelle] zu sehen.
+Beispiele für Regularisierungen sind in [wiki:normalization/4 dieser Tabelle] zu sehen.
 === Ziele bei der Regulierung ===
 …
 === Automatische Fehlerkorrektur ===
 In [wiki:normalization/overview dieser Tabelle] geht es um korrekt transkribierte Formen, d.h. die Transkription gibt wieder, was im Original steht. Dies wird natürlich nicht immer der Fall sein. Es steht daher an, die Textqualität automatisiert zu verbessern.
+In [wiki:normalization/4 dieser Tabelle] geht es um korrekt transkribierte Formen, d.h. die Transkription gibt wieder, was im Original steht. Dies wird natürlich nicht immer der Fall sein. Es steht daher an, die Textqualität automatisiert zu verbessern.
 Ein Problem der automatischen Fehlerkorrektur ist, dass es oft nicht selbstverständlich ist, ob der Fehler schon im Original steht oder erst der Transkription hinzugekommen ist. Zwar kann man vermuten, dass zum Beispiel "ipfius" ein Transkriptionsfehler ist, aber es ist nicht sicher. Deshalb wird es bei der automatischen Fehlerkorrektur ein type="unverified" geben. Wenn es feststeht, dass der Fehler erst in der Transkription entstanden ist, kann das <reg> durch die stillschweigend korrigierte Form ersetzt werden.
 …
 In Unicode enthaltene Zeichenvarianten auf ihr Standardzeichen zurückzuführen ist Aufgabe der Normalisierung.
 Die Regularisierung ist im Chinesischen insbesondere für die Erschließung der Zeichenvarianten zuständig, die nicht in Unicode enthalten sind. Ein Beispiel: Angenommen, im Text steht eine Variante von 国, die durch die IDS-Sequenz ⿴口或 beschrieben werden kann. (Die IDS-Sequenz {⿴口或} ist natürlich nicht echt, denn sie beschreibt einfach das Langzeichen 國 des Kurzzeichens 国.) Wie bei den griechischen Ligaturen kommt bei uns ein { } um die IDS-Sequenz. Technisch gesehen ist das zwar nicht nötig, aber sonst müsste das System ausrechnen, wo die Sequenz zuende ist.
+Die Regularisierung ist im Chinesischen insbesondere für die Erschließung der Zeichenvarianten zuständig, die nicht in Unicode enthalten sind. Ein Beispiel: Angenommen, im Text steht eine Variante von 国, die durch die IDS-Sequenz ⿴口或 beschrieben werden kann. (Die IDS-Sequenz ⿴口或 ist natürlich nicht echt, denn sie beschreibt einfach das Langzeichen 國 des Kurzzeichens 国.) Wie bei den griechischen Ligaturen kommt bei uns ein { } um die IDS-Sequenz. Technisch gesehen ist das zwar nicht nötig, aber sonst müsste das System ausrechnen, wo die Sequenz zuende ist.
 Noch vor der Regularisierung wird im XML-Workflow das 中<国V> im Rohtext in einem ersten Schritt in ein XML-kompatibles 中{国V} geändert. Die Regularisierung sieht dann so aus: