Changes between Version 11 and Version 12 of normalization/5


Ignore:
Timestamp:
Dec 12, 2010, 1:37:42 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/5

    v11 v12  
    11[[PageOutline(1-4,,pullout)]]
    22
    3 == Regularisierung ==
     3== 5. Wie soll regularisiert werden? ==
    44
    55Die Regularisierung eines Textes mit Hilfe von <reg> ist wohlbekannt. Seit dem Archimedes-Projekt wurde insbesondere die Struktur von <reg> umgestellt: 
     
    99Neu ist eine weitere Funktion von <reg>: Wenn wir im Rohtext Informationen haben, die wir nicht darstellen können, kommen diese in ein neues Attribut namens "faithful". Beispiele sind griechische Ligaturen und chinesische Zeichenvarianten, die nicht in Unicode sind. (Die Idee, solche Zeichenvarianten in ein Attribut von <reg> zu schieben, stammt von Robert.)
    1010
    11 Beispiele für Regularisierungen sind in [wiki:normalization/overview dieser Tabelle] zu sehen.
     11Beispiele für Regularisierungen sind in [wiki:normalization/4 dieser Tabelle] zu sehen.
    1212
    1313=== Ziele bei der Regulierung ===
     
    137137=== Automatische Fehlerkorrektur ===
    138138
    139 In [wiki:normalization/overview dieser Tabelle] geht es um korrekt transkribierte Formen, d.h. die Transkription gibt wieder, was im Original steht. Dies wird natürlich nicht immer der Fall sein. Es steht daher an, die Textqualität automatisiert zu verbessern.
     139In [wiki:normalization/4 dieser Tabelle] geht es um korrekt transkribierte Formen, d.h. die Transkription gibt wieder, was im Original steht. Dies wird natürlich nicht immer der Fall sein. Es steht daher an, die Textqualität automatisiert zu verbessern.
    140140
    141141Ein Problem der automatischen Fehlerkorrektur ist, dass es oft nicht selbstverständlich ist, ob der Fehler schon im Original steht oder erst der Transkription hinzugekommen ist. Zwar kann man vermuten, dass zum Beispiel "ipfius" ein Transkriptionsfehler ist, aber es ist nicht sicher. Deshalb wird es bei der automatischen Fehlerkorrektur ein type="unverified" geben. Wenn es feststeht, dass der Fehler erst in der Transkription entstanden ist, kann das <reg> durch die stillschweigend korrigierte Form ersetzt werden.
     
    173173In Unicode enthaltene Zeichenvarianten auf ihr Standardzeichen zurückzuführen ist Aufgabe der Normalisierung.
    174174
    175 Die Regularisierung ist im Chinesischen insbesondere für die Erschließung der Zeichenvarianten zuständig, die nicht in Unicode enthalten sind. Ein Beispiel: Angenommen, im Text steht eine Variante von 国, die durch die IDS-Sequenz ⿴口或 beschrieben werden kann. (Die IDS-Sequenz {⿴口或} ist natürlich nicht echt, denn sie beschreibt einfach das Langzeichen 國 des Kurzzeichens 国.) Wie bei den griechischen Ligaturen kommt bei uns ein { } um die IDS-Sequenz. Technisch gesehen ist das zwar nicht nötig, aber sonst müsste das System ausrechnen, wo die Sequenz zuende ist.
     175Die Regularisierung ist im Chinesischen insbesondere für die Erschließung der Zeichenvarianten zuständig, die nicht in Unicode enthalten sind. Ein Beispiel: Angenommen, im Text steht eine Variante von 国, die durch die IDS-Sequenz ⿴口或 beschrieben werden kann. (Die IDS-Sequenz ⿴口或 ist natürlich nicht echt, denn sie beschreibt einfach das Langzeichen 國 des Kurzzeichens 国.) Wie bei den griechischen Ligaturen kommt bei uns ein { } um die IDS-Sequenz. Technisch gesehen ist das zwar nicht nötig, aber sonst müsste das System ausrechnen, wo die Sequenz zuende ist.
    176176
    177177Noch vor der Regularisierung wird im XML-Workflow das 中<国V> im Rohtext in einem ersten Schritt in ein XML-kompatibles 中{国V} geändert. Die Regularisierung sieht dann so aus: