[[PageOutline(1-4,,pullout)]] == 4. Wie soll normalisiert werden? == === Grundgedanken === Das Hauptziel der Normalisierung ist eine moderne Schreibweise des Textes, zum Beispiel u/v-Schreibweise in Latein. Außerdem: * Die Normalisierungsregeln sollten einfach formulierbar sein. * die Normalisierungsschicht sollte so einfach wie möglich sein, aber nicht einfacher: * muss mit offenen Klassen umgehen können (Chinesisch) * die Normalisierungen für die Anzeige und für !Pollux/Donatus sollten so ähnlich wie möglich sein (aber nicht ähnlicher) * Wenn etwas sprachspezifisch und nicht buchspezifisch ist, sollte es zur Normalisierung und nicht zur Regularisierung gehören. * Bei Wörtern, die zwar regularisiert werden müssten, aber nicht regularisiert sind, sollte die Normalisierung den Fehler nicht verschleiern. === Regularisierung und Normalisierung === Details der Regularisierung werden [wiki:regularization hier] diskutiert. Ausgangspunkt für die Normalisierung ist ein Text, der bereits enthält. Im Idealfall bedeutet das: * Fehler im Text korrigiert * keine Abkürzungszeichen mehr im Text * keine PUA-Zeichen mehr im Text Natürlich muss die Normalisierung mit der Textversion arbeiten, die sie vorfindet. Formal gesagt: Für Wörter mit und einem norm-Attribut in diesem arbeitet die Normalisierung nicht mit dem originalen Wort, sondern mit der Version im norm-Attribut. Bei Wörtern ohne , oder mit einem ohne norm-Attribut, wird das originale Wort verwendet. Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird. In der untenstehenden Tabelle sind viele Beispiele für das Zusammenspiel von Regularisierung und Normalierung zu sehen. === Textanzeige und Wörterbücher === Normalisierung meint normalerweise die Normalisierung für die Textanzeige. Abweichende Normalisierungen für !Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden. In der Tabelle gehe ich vorläufig davon aus, dass die Normalisierung (Groß- zu Kleinbuchstaben, Entfernen unnötiger Diakritika, chinesische Standardzeichen, Gravis wird Akut) auf unserer Seite stattfindet, und dass die Wörterbücher mit Unicode umgehen können und kein Betacode etc. erwarten. === Diakritika === Für Diakritika bedeutet Normalisierung, dass sie einfach entfernt werden. * Heutzutage als überflüssig erachtete Diakritika wie in aër und verò werden normalisiert, können aber noch zur Lemma-Disambiguierung oder zumindest zur Wortform-Disambiguierung beitragen. * Bedeutungstragende Diakritika werden nicht normalisiert. Beispielsweise wird eiuſdẽ zu eiusdẽ, aber nicht zu eiusde normalisiert. Durch Weglassen der Tilde kann offensichtlich nicht die richtige Wortform herauskommen. Stattdessen gbit es drei mögliche Fälle: * Es kommt gar keine echte Wortform heraus. Dann ist man nicht weiter als mit der originalen Form. Beispiele: eiuſdẽ wird zu eiusde und ſcīa wird zu scia. * Es kommt das falsche Lemma heraus, d.h. der Fehler wird kaschiert. Beispiel: itẽ wird zu ite. * Es kommt die falsche Wortform im richtigen Lemma heraus: zum Beispiel reſiduũ wird zu residuu. Spätestens bei einer automatisierten linguistischen Analyse des Satzes wird sich die falsche Wortform als Problem erweisen. * Diakritika, die in der entsprechenden Sprache gar nicht vorkommen sollten, werden nicht normalisiert. Es ist nicht die Aufgabe der Normalisierung, die Textqualität stillschweigend zu verbessern. * Genauso Unicode-Fehler durch identisch aussehende Zeichen. Zum Beispiel ά (03AC) wird nicht zu ά (1F71) normalisiert. Es ist Aufgabe eines Workflow-Skriptes, solche Zeichen zu finden bzw. zu ersetzen. === Beispiele === Die folgende Tabelle zeigt einige Wörter vom Rohtext über das XML bis zum Anzeigesystem. Die Wörter sind nach Sprachen sortiert. In der Transkription gibt es zwei Versionen, den Rohtext und den bearbeiteten Rohtext. Der bearbeitete Rohtext entsteht, wenn man die Schreibweisen in den DESpecs in Unicode umsetzt. Dieser Schritt entspricht dem Anzeigemodus "Original". Im XML-Text werden mit zum einen die bekannten Textkorrekturen gemacht (das entspricht dem Anzeigemodus "Regularized"), zum anderen gibt es in ein Attribut, in das alle Informationen aus dem Rohtext verschwinden, die wir nicht gut in Unicode darstellen können (das entspricht dem Anzeigemodus "Original" mit Checkbox "faithful"). Die Normalisierung teilt sich auf in eine Normalisierung für die Textanzeige (das entspricht dem Anzeigemodus "Normalized") und einer Normalisierung für Wörterbücher. In der Kommentarspalte wird jeweils die Besonderheit des Wortes genannt. || |||| Transkription |||| (im XML) |||| Normalisierung (System) || Kommentar || || || Rohtext || nachbearbeitet || @faithful || @norm || Anzeige || !Donatus/Pollux || || ||= =||= =||= '''Original''' =||= '''faithful''' =||= '''Regularized''' =||= '''Normalized''' =||= =|| || |||||||||||||||| || ||= '''Latein''' =|||| vnum |||| = 1) |||| unum || v wird zwischen Konsonanten zu u || ||= =|| diuer$arum || diuerſarum |||| = |||| diversarum || u zwischen Vokalen wird zu v || ||= =|||| DIVERSARVM |||| = || DIVERSARUM || diversarum || Großbuchstaben || ||= =|| periti{$s}imo || peritißimo |||| = |||| peritissimo || ß in Latein wird normalisiert || ||= =|||| aër |||| = || aer || aer 2) || Trema: "kein Diphthong" || ||= =|||| verò |||| = || vero || vero 2) || Gravis || ||= =|||| hîc |||| = || hic || hic 2) || Zirkumflex || ||= =|| re$iduũ || reſiduũ || || reſiduum |||| residuum || Abkürzungszeichen Tilde || ||= =|| re$idu\~u || reſiduũ || || reſiduum |||| residuum || andere Schreibweise im Rohtext || ||= =|| $ph{ae}ræ || ſphęræ |||| = |||| sphaerae || ę ist kein Abkürzungszeichen || ||= =|||| itaq; || || itaque |||| = || Abkürzung mit Semikolon || ||= =|| {quis} 5) || ꝙ || || u.a. quod |||| = || MUFI, offizielles Unicode-Zeichen || ||= =|| idem\'{que} || idem́ 7) || || idemque |||| = || MUFI, PUA: &q3app (E8BF) || ||= =|| $enatori\'{que} || ſenatoriq́ꝫ || ſenatori{q3-it-a} || ſenatorique |||| senatorique || kein Font enthält E8BF in kursiv 8) || ||= =|| <001>dã || ꝗdã || || quidam |||| = || MUFI-Zeichen als Teil eines Wortes || ||= =|| || ſcīa || || ſcientia |||| scientia || Wortliste || ||= =|||| tertij |||| = |||| tertii || j wird zu i || ||= =|| tert{ij} || tertij |||| = |||| tertii || einfache Ligatur || |||||||||||||||| || ||= '''Deutsch''' =|||| Wasserstraße |||| = |||| = || ß im Deutschen wird nicht normalisiert || ||= =|||| Käse |||| = |||| = || Umlaute || ||= =|||| Tee-Ei |||| = |||| = || Bindestrich || |||||||||||||||| || ||= '''Fraktur''' =|| z{uo} || z || || zu |||| = || MUFI, PUA: &uosup (E72D) || ||= =|| z{uo} || zuͦ |||| = |||| zu || Alternative: combining letter o (0366) || |||||||||||||||| || ||= '''Chinesisch''' =|||| 歴 (6B74) |||| = |||| 歷 (6B77) 6) || Zeichenvariante in Unicode || ||= =|| 中<国V> || 中{国V} (中国) 3) || 中{⿴口玉} 4) || |||| = || Zeichenvariante nicht in Unicode || |||||||||||||||| || ||= '''Griechisch''' =|||| ἀλλὰ ... |||| = || = || ἀλλά ... || Gravis wird für Wörterbuch zu Akut || ||= =|||| βασιλεύς |||| = |||| = || ϐασιλεύς: letter variation || ||= =|| {το}ῖς || {το}ῖς (τοῖς) || {το}ῖς || |||| = || einfache Ligatur || ||= =|| τ{ὴν} || τ{ὴν} (τὴν) || τὴν || || || τήν || schwierige Ligatur || ||= =|| {τῶν} || {τῶν} (τῶν) || {τῶν} || |||| = || Abbreviatur || ||= =|||| |||| |||| || || 1. "=" in Regularisierung: es gibt kein , d.h. Regularized = Original (das gilt auch, wenn es kein @norm gibt); "=" in Normalisierung: die Wortform wird nicht normalisiert 1. falls möglich, verwende die Diakritika zur Lemma-Disambiguierung 1. in Original-Spalte in Klammern: neues Original, sobald es mit faithful-Attribut gibt 1. automatisiert eventuell eine Zwischenstufe 中, damit die Suche nicht bricht; per Hand 中国 (Wortgrenzen beachten, IDS-Sequenz einfügen) 1. Semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; {que} mit Makron kann zum Beispiel im Alvarus auch quam bedueten, also zu {q3app} oder kürzer {q3}? 1. Es ist wohl auch im Original-Textmodus nicht sinnvoll, die Zeichenvariante an das Wörterbuch zu senden. 1. Um die PUA zu vermeiden, könnte man statt idem́ auch idemq́ꝫ schreiben, siehe [wiki:regularization#DiePrivateUseArea hier]. 1. {q3-it-a} wird entweder als Text wiedergegeben, oder es gibt eine Datei `q3-it-a` vom Typ jpg, svg, etc. {q3-it-a} enthält den Akut bereits. Selbst wenn wir ein Bild von {q3-it} haben, können wir wohl nicht erwarten, ein Bild korrekt mit einem combining acute anzuzeigen.