== 4. Überblick über Regularisierung und Normalisierung == Die folgende Tabelle zeigt für einige Wörter die Bearbeitungsschritte vom Rohtext über das XML bis zum Anzeigesystem. * Die Wörter sind nach Sprachen sortiert. * In der Transkription gibt es zwei Versionen, den Rohtext und den bearbeiteten Rohtext. Der bearbeitete Rohtext entsteht, wenn man die Schreibweisen in den DESpecs in Unicode umsetzt. Dieser Schritt entspricht dem Anzeigemodus "Original". * Im XML-Text werden mit zum einen die bekannten Textkorrekturen gemacht (das entspricht dem Anzeigemodus "Regularized"; der jeweilige type der Korrektur ist hier nicht angegeben), zum anderen gibt es in ein Attribut, in das alle Informationen aus dem Rohtext verschwinden, die wir nicht gut in Unicode darstellen können. Das entspricht dem Anzeigemodus "Original" mit Checkbox "faithful". (Details zu "faithful" siehe [wiki:normalization/5 hier].) * Die Normalisierung teilt sich auf in eine Normalisierung für die Textanzeige (das entspricht dem Anzeigemodus "Normalized") und einer Normalisierung für Wörterbücher. * In der Kommentarspalte wird jeweils die Besonderheit des Wortes genannt. || |||| Transkription |||| (im XML) |||| Normalisierung (System) || Kommentar || || || Rohtext || nachbearbeitet || @faithful || @norm || Anzeige || !Donatus/Pollux || || ||= =||= =||= '''Original''' =||= '''faithful''' =||= '''Regularized''' =||= '''Normalized''' =||= =|| || |||||||||||||||| || ||= '''Latein''' =|||| vnum |||| = 1) |||| unum || v wird zwischen Konsonanten zu u || ||= =|| diuer$arum || diuerſarum |||| = |||| diversarum || u zwischen Vokalen wird zu v || ||= =|||| DIVERSARVM |||| = || DIVERSARUM || diversarum || Großbuchstaben || ||= =|| periti{$s}imo || peritißimo |||| = |||| peritissimo || ß in Latein wird normalisiert || ||= =|||| aër |||| = || aer || aer 2) || Trema: "kein Diphthong" || ||= =|||| verò |||| = || vero || vero 2) || Gravis || ||= =|||| hîc |||| = || hic || hic 2) || Zirkumflex || ||= =|| re$iduũ || reſiduũ || || reſiduum |||| residuum || Abkürzungszeichen Tilde || ||= =|| re$idu\~u || reſiduũ || || reſiduum |||| residuum || andere Schreibweise im Rohtext || ||= =|| $ph{ae}ræ || ſphęræ |||| = |||| sphaerae || ę ist kein Abkürzungszeichen || ||= =|||| itaq; || || itaque |||| = || Abkürzung mit Semikolon || ||= =|| {quis} 5) || ꝙ || || u.a. quod |||| = || ''MUFI'', offizielles Unicode-Zeichen || ||= =|| idem\'{que} || idem́ 7) || || idemque |||| = || MUFI, ''PUA'': &q3app (E8BF) || ||= =|| $enatori\'{que} || (ſenatoriq́ꝫ) || ſenatori{q3-it-a} || ſenatorique |||| senatorique || kein Font enthält E8BF in kursiv 8) || ||= =|| <001>dã || ꝗdã || || quidam |||| = || MUFI-Zeichen als Teil eines Wortes || ||= =|| || ſcīa || || ſcientia |||| scientia || Wortliste || ||= =|||| tertij |||| = |||| tertii || j wird zu i || ||= =|| tert{ij} || tertij |||| = |||| tertii || einfache Ligatur || ||= =|||| cœlum |||| = || coelum || caelum || Mittellatein 9) || ||= =|| || ve-ritate |||| = || || veritate || Zeilenumbruch || |||||||||||||||| || ||= '''Deutsch''' =|||| Wasserstraße |||| = || || = || ß im Deutschen wird nicht normalisiert || ||= =|||| Käse |||| = || || (Kaese) || Umlaute 11) || ||= =|||| Tee-Ei |||| = |||| = || Bindestrich || |||||||||||||||| || ||= '''Fraktur''' =|| z{uo} || z || || zu |||| = || MUFI, PUA: &uosup (E72D) || ||= =|| z{uo} || zuͦ |||| = |||| zu || Alternative: combining letter o (0366) || |||||||||||||||| || ||= '''Chinesisch''' =|||| 歴 (6B74) |||| = |||| 歷 (6B77) 6) || Zeichenvariante in Unicode || ||= =|| 中<国V> || 中{国V} (中国) 3) || 中{⿴口或} 4) || |||| = || Zeichenvariante nicht in Unicode || |||||||||||||||| || ||= '''Griechisch''' =|||| ἀλλὰ ... |||| = || = || ἀλλά ... || Gravis wird für Wörterbuch zu Akut || ||= =|||| βασιλεύς |||| = |||| = || ϐασιλεύς: letter variation || ||= =|| {το}ῖς || {το}ῖς (τοῖς) || {το}ῖς || |||| = || einfache Ligatur || ||= =|| τ{ὴν} || τ{ὴν} (τὴν) || τὴν || || || τήν || schwierige Ligatur || ||= =|| {τῶν} || {τῶν} (τῶν) || {τῶν} || |||| = || Abbreviatur || |||||||||||||||| || ||= '''Symbole''' =|| <001> || ♉ |||| = |||| = || einfaches Symbol || ||= =|| <002> || ♁ |||| = |||| = || Symbol mit zwei Formen 10) || ||= =|| || &x1F70D; |||| = |||| = || Alchemie-Symbol Sulfur || ||= =|||| |||| |||| || || 1. "=" in Regularisierung: es gibt kein , d.h. Regularized = Original (das gilt auch, wenn es kein @norm gibt); "=" in Normalisierung: die Wortform wird nicht normalisiert 2. falls möglich, verwende die Diakritika zur Disambiguierung 3. in Original-Spalte in Klammern: neues Original, sobald es mit faithful-Attribut gibt 4. automatisiert eventuell eine Zwischenstufe 中, damit die Suche nicht bricht; per Hand 中国 (Wortgrenzen beachten, ''IDS-Sequenz'' einfügen) 5. Semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; {que} mit Makron kann zum Beispiel im Alvarus auch quam bedueten, also zu {q3app} oder kürzer {q3}? 6. Es ist wohl auch im Original-Textmodus nicht sinnvoll, die Zeichenvariante an das Wörterbuch zu senden. 7. Um die PUA zu vermeiden, könnte man statt idem́ auch idemq́ꝫ schreiben, siehe [wiki:normalization/5#DiePrivateUseArea hier]. 8. Beachte die Klammern in der Original-Spalte. Zur Erläuterung siehe [wiki:normalization/5#Latein hier]. 9. Siehe die Diskussion [wiki:normalization/6#Latein hier]. 10. Das Symbol wird von uns nicht optisch, sondern semantisch beschrieben: "Earth". Offenbar gibt es zwei verschiedene übliche Formen. Wie es dargestellt wird, hängt vom jeweiligen Font ab. 11. Die Wörterbuch-Normalisierungen in dieser Tabelle sind sprachimmanente Normalisierungen. Hier ist aber ein Beispiel für eine technisch bedingte Normalisierung: das Grimm-Wörterbuch braucht keine weitere Normalisierung, Celex möchte dagegen ae statt ä haben. Hinweis: Die Tabelle kann am besten mit Safari in der Ausrichtung "landscape" mit zwei Seiten auf einem Blatt und ohne Kopf- und Fußzeilen ausgedruckt werden; siehe [attachment:normalization-overview.pdf diese PDF-Datei].