normalization/6 – MPIWG-MPDL Content Project

Context Navigation

Version 11 (modified by Wolfgang Schmidle, 14 years ago) (diff)
--

1. 4. Wie soll normalisiert werden?

4. Wie soll normalisiert werden?

Grundgedanken

Ziele

Moderne Schreibweise des Textes, zum Beispiel u/v-Schreibweise in Latein
Die Normalisierungsregeln sollten einfach formulierbar sein.
Wenn etwas sprachspezifisch und nicht buchspezifisch ist, sollte es zur Normalisierung und nicht zur Regularisierung gehören.
Bei Wörtern, die zwar regularisiert werden müssten, aber nicht regularisiert sind, sollte die Normalisierung den Fehler nicht verschleiern.

Regularisierung und Normalisierung

Details der Regularisierung werden hier? diskutiert. Ausgangspunkt für die Normalisierung ist ein Text, der bereits <reg>enthält. Im Idealfall bedeutet das:

Fehler im Text korrigiert
keine Abkürzungszeichen mehr im Text
keine PUA-Zeichen mehr im Text

Natürlich muss die Normalisierung mit der Textversion arbeiten, die sie vorfindet. Formal gesagt: Für Wörter mit <reg> und einem norm-Attribut in diesem <reg> arbeitet die Normalisierung nicht mit dem originalen Wort, sondern mit der Version im norm-Attribut. Bei Wörtern ohne <reg>, oder mit einem <reg> ohne norm-Attribut, wird das originale Wort verwendet.

Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird.

In der untenstehenden Tabelle sind viele Beispiele für das Zusammenspiel von Regularisierung und Normalierung zu sehen.

Textanzeige und Wörterbücher

Normalisierung meint normalerweise die Normalisierung für die Textanzeige. Abweichende Normalisierungen für Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden.

Beispiele

Die folgende Tabelle zeigt einige Wörter vom Rohtext über das XML bis zum Anzeigesystem. Die Wörter sind nach Sprachen sortiert. In der Transkription gibt es zwei Versionen, den Rohtext und den bearbeiteten Rohtext. Der bearbeitete Rohtext entsteht, wenn man die Schreibweisen in den DESpecs in Unicode umsetzt. Dieser Schritt entspricht dem Anzeigemodus "Original". Im XML-Text werden mit <reg> zum einen die bekannten Textkorrekturen gemacht (das entspricht dem Anzeigemodus "Regularized"), zum anderen gibt es in <reg> ein Attribut, in das alle Informationen aus dem Rohtext verschwinden, die wir nicht gut in Unicode darstellen können (das entspricht dem Anzeigemodus "Original" mit Checkbox "faithful"). Die Normalisierung teilt sich auf in eine Normalisierung für die Textanzeige (das entspricht dem Anzeigemodus "Normalized") und einer Normalisierung für Wörterbücher. In der Kommentarspalte wird jeweils die Besonderheit des Wortes genannt.

	Transkription		<reg> (im XML)		Normalisierung (System)		Kommentar
	Rohtext	nachbearbeitet	@faithful	@norm	Anzeige	Donatus/Pollux
		Original	faithful	Regularized	Normalized

Latein	vnum		= 1)		unum		v wird zwischen Konsonanten zu u
	diuer$arum	diuerſarum	=		diversarum		u zwischen Vokalen wird zu v
	DIVERSARVM		=		DIVERSARUM	diversarum	Großbuchstaben
	periti{$s}imo	peritißimo	=		peritissimo		ß in Latein wird normalisiert
	aër		=		aer	aer 2)	Trema: "kein Diphthong"
	verò		=		vero	vero 2)	Gravis
	hîc		=		hic	hic 2)	Zirkumflex
	re$iduũ	reſiduũ		reſiduum	residuum		Abkürzungszeichen Tilde
	re$idu\~u	reſiduũ		reſiduum	residuum		andere Schreibweise im Rohtext
	$ph{ae}ræ	ſphęræ	=		sphaerae		ę ist kein Abkürzungszeichen
	itaq;			itaque	=		Abkürzung mit Semikolon
	{quis} 5)	ꝙ		u.a. quod	=		MUFI, offizielles Unicode-Zeichen
	idem\'{que}	idem́		idemque	=		MUFI, PUA: &q3app (E8BF)
	<001>dã	ꝗdã		quidam	=		MUFI-Zeichen als Teil eines Wortes
		ſcīa		ſcientia	scientia		Wortliste
	tertij		=		tertii		j wird zu i
	tert{ij}	tertij	=		tertii		einfache Ligatur

Deutsch	Wasserstraße		=		=		ß im Deutschen wird nicht normalisiert
	Käse		=		=		Umlaute
	Tee-Ei		=		=		Bindestrich

Fraktur	z{uo}	z		zu	=		MUFI, PUA: &uosup (E72D)
	z{uo}	zuͦ	=		zu		Alternative: combining letter o (0366)

Chinesisch	歴 (6B74)		=		歷 (6B77)		Zeichenvariante in Unicode
	中<国V>	中{国V} (中国) 3)	中{⿴口玉} 4)		=		Zeichenvariante nicht in Unicode

Griechisch	ἀλλὰ ...		=		=	ἀλλά ...	Gravis wird für Wörterbuch zu Akut
	βασιλεύς		=		=		ϐασιλεύς: letter variation
	{το}ῖς	{το}ῖς (τοῖς)	{το}ῖς		=		einfache Ligatur
	τ{ὴν}	τ{ὴν} (τὴν)	τὴν			τήν	schwierige Ligatur
	{τῶν}	{τῶν} (τῶν)	{τῶν}		=		Abbreviatur

"=" in Regularisierung: es gibt kein <reg>, d.h. Regularized = Original (das gilt auch, wenn es kein @norm gibt); "=" in Normalisierung: die Wortform wird nicht normalisiert
falls möglich, verwende die Diakritika zur Lemma-Disambiguierung
in Original-Spalte in Klammern: neues Original, sobald es <reg> mit faithful-Attribut gibt
automatisiert eventuell eine Zwischenstufe 中<reg faithful="{国}" type="unresolved">国</reg>, damit die Suche nicht bricht; per Hand <reg faithful="中{⿴口玉}">中国</reg> (Wortgrenzen beachten, IDS-Sequenz einfügen)
semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; dagegen {que} bedeutet immer -que, trotzdem zu {q3app} oder kürzer {q3}?

Download in other formats:

Plain Text