wiki:normalization/4

Regularisierung und Normalisierung, I: 1 2 3, II: 4 5 6 7

4. Überblick über Regularisierung und Normalisierung

We try to approximate our texts with Unicode means, but we allow only things that can reasonably be expected to be displayed properly in a web browser. For example, we use

  • combining characters even though many fonts still struggle with them

We do not use

  • Zero Width Joiners as in "q ZWJ ꝫ" because they do more harm than good
  • codepoints in the Private Use Area, even if they are standard MUFI codepoints
  • ideographic description sequences in Chinese text (an example for "official Unicode")

In particular, we do not attempt to display ligatures at all costs.

We use a <reg> tag for all additional information, e.g. for resolving abbreviations (and also for ideographic description sequences). On the other hand, we do not regularize e.g. "superfluous" renaissance accents in our texts and instead rely on our display system to create the word form that can be found in a dictionary.

For example, we would write

<reg norm="teq́ue" faithful="te́" type="simple">teq́ꝫ</reg>

which would display as

  • teq́ꝫ in display mode "Original" (the user should have installed a font that contains "ꝫ")
  • te́ in diplay mode "Original" with checked box "faithful" (the user should have installed a MUFI font and use it for displaying the text)
  • teq́ue in display mode "Regularized" (this is the default mode)
  • teque in display mode "Normalized" (which is created on the fly by the display system)

Bearbeitungsschritte

Die folgende Tabelle zeigt für einige Wörter die Bearbeitungsschritte vom Rohtext über das XML bis zum Anzeigesystem.

  • Die Wörter sind nach Sprachen sortiert.
  • In der Transkription gibt es zwei Versionen, den Rohtext und den bearbeiteten Rohtext. Der bearbeitete Rohtext entsteht, wenn man die Schreibweisen in den DESpecs in Unicode umsetzt. Dieser Schritt entspricht dem Anzeigemodus "Original".
  • Im XML-Text werden mit <reg> zum einen die bekannten Textkorrekturen gemacht (das entspricht dem Anzeigemodus "Regularized"; der jeweilige type der Korrektur ist hier nicht angegeben), zum anderen gibt es in <reg> ein Attribut, in das alle Informationen aus dem Rohtext verschwinden, die wir nicht gut in Unicode darstellen können. Das entspricht dem Anzeigemodus "Original" mit Checkbox "faithful". (Details zu "faithful" siehe hier.)
  • Die Normalisierung teilt sich auf in eine Normalisierung für die Textanzeige (das entspricht dem Anzeigemodus "Normalized") und einer Normalisierung für Wörterbücher.
  • In der Kommentarspalte wird jeweils die Besonderheit des Wortes genannt.
Transkription <reg> (im XML) Normalisierung (System) Kommentar
Rohtext nachbearbeitet @faithful @norm Anzeige Donatus/Pollux
Original faithful Regularized Normalized
Latein vnum = 1) unum v wird zwischen Konsonanten zu u
diuer$arum diuerſarum = diversarum u zwischen Vokalen wird zu v
DIVERSARVM = DIVERSARUM diversarum Großbuchstaben
periti{$s}imo peritißimo = peritissimo ß in Latein wird normalisiert 12)
aër = aer aer 2) Trema: "kein Diphthong"
verò = vero vero 2) Gravis
hîc = hic hic 2) Zirkumflex
re$iduũ reſiduũ reſiduum residuum Abkürzungszeichen Tilde
re$idu\~u reſiduũ reſiduum residuum andere Schreibweise im Rohtext
$ph{ae}ræ ſphęræ = sphaerae ę ist kein Abkürzungszeichen
itaq; itaque = Abkürzung mit Semikolon
{quis} 5) u.a. quod = MUFI, offizielles Unicode-Zeichen
idem\'{que} idem́ 7) idemque = MUFI, PUA: &q3app (E8BF)
$enatori\'{que} (ſenatoriq́ꝫ) ſenatori{q3-it-a} ſenatorique senatorique kein Font enthält E8BF in kursiv 8)
<001>dã ꝗdã quidam = MUFI-Zeichen als Teil eines Wortes
ſcīa ſcientia scientia Wortliste
tertij = tertii j wird zu i
tert{ij} tertij = tertii einfache Ligatur
cœlum = coelum caelum Mittellatein 9)
ve-<lb/>ritate = veritate Zeilenumbruch
Deutsch Wasserstraße = = ß im Deutschen wird nicht normalisiert
Käse = (Kaese) Umlaute 11)
Tee-Ei = = Bindestrich
Fraktur z{uo} z zu = MUFI, PUA: &uosup (E72D)
z{uo} zuͦ = zu Alternative: combining letter o (0366)
Chinesisch 歴 (6B74) = 歷 (6B77) 6) Zeichenvariante in Unicode
中<国V> 中{国V} (中国) 3) 中{⿴口或} 4) = Zeichenvariante nicht in Unicode
Griechisch ἀλλὰ ... = = ἀλλά ... Gravis wird für Wörterbuch zu Akut
βασιλεύς = = ϐασιλεύς: letter variation
{το}ῖς {το}ῖς (τοῖς) {το}ῖς = einfache Ligatur
τ{ὴν} τ{ὴν} (τὴν) τὴν τήν schwierige Ligatur
{τῶν} {τῶν} (τῶν) {τῶν} = Abbreviatur 13)
Symbole <001> = = einfaches Symbol
<002> = = Symbol mit zwei Formen 10)
<al> &x1F70D; = = Alchemie-Symbol Sulfur
  1. "=" in Regularisierung: es gibt kein <reg>, d.h. Regularized = Original (das gilt auch, wenn es kein @norm gibt); "=" in Normalisierung: die Wortform wird nicht normalisiert
  2. falls möglich, verwende die Diakritika zur Disambiguierung
  3. in Original-Spalte in Klammern: neues Original, sobald es <reg> mit faithful-Attribut gibt
  4. automatisiert eventuell eine Zwischenstufe 中<reg faithful="{国}" type="unresolved">国</reg>, damit die Suche nicht bricht; per Hand <reg faithful="中{⿴口或}">中国</reg> (Wortgrenzen beachten, IDS-Sequenz einfügen)
  5. Semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; {que} mit Makron kann zum Beispiel im Alvarus auch quam bedeuten, also zu {q3app} oder kürzer {q3}?
  6. Es ist wohl auch im Original-Textmodus nicht sinnvoll, die Zeichenvariante an das Wörterbuch zu senden.
  7. Um die PUA zu vermeiden, könnte man statt <reg norm="idemque">idem́</reg> auch <reg faithful="idem́" norm="idemque">idemq́ꝫ</reg> schreiben, siehe hier.
  8. Beachte die Klammern in der Original-Spalte. Zur Erläuterung siehe hier.
  9. Siehe die Diskussion hier.
  10. Das Symbol wird von uns nicht optisch, sondern semantisch beschrieben: "Earth". Offenbar gibt es zwei verschiedene übliche Formen. Wie es dargestellt wird, hängt vom jeweiligen Font ab.
  11. Die Wörterbuch-Normalisierungen in dieser Tabelle sind sprachimmanente Normalisierungen. Hier ist aber ein Beispiel für eine technisch bedingte Normalisierung: das Grimm-Wörterbuch braucht keine weitere Normalisierung, Celex möchte dagegen ae statt ä haben.
  12. Im Rohtext wird ß in Latein als {$s} und im Deutschen als ß geschrieben.
  13. Hier ist {τῶν} als Abbreviatur des Artikels im Gen.Pl. wie im Beispieltext DESpecs p.30 gemeint. Die DESpecs sind hier aber nicht sehr genau, denn dort kann sowohl diese Abbreviatur als auch eine (schwierige) Ligatur als {τῶν} markiert werden. {τῶν} als Ligatur könnte am Ende eines Wortes vorkommen.

Last modified 13 years ago Last modified on Jun 9, 2011, 8:12:54 AM