wiki:normalization/6

Version 9 (modified by Wolfgang Schmidle, 13 years ago) (diff)

--

Transkription <reg> (im XML) Normalisierung (System) Kommentar
Rohtext nachbearbeitet @faithful @norm Anzeige Donatus/Pollux
Original faithful Regularized Normalized
Latein vnum = 1) unum v wird zwischen Konsonanten zu u
diuer$arum diuerſarum = diversarum u zwischen Vokalen wird zu v
DIVERSARVM = DIVERSARUM diversarum Großbuchstaben
periti{$s}imo peritißimo = peritissimo ß in Latein wird normalisiert
aër = aer aer 2) Trema: "kein Diphthong"
verò = vero vero 2) Gravis
re$iduũ reſiduũ reſiduum residuum Abkürzungszeichen Tilde
re$idu\~u reſiduũ reſiduum residuum andere Schreibweise im Rohtext
$ph{ae}ræ ſphęræ = sphaerae ę ist kein Abkürzungszeichen
itaq; itaque = Abkürzung mit Semikolon
{quis} 5) u.a. quod = MUFI, offizielles Unicode-Zeichen
idem\'{que} idem́ idemque = MUFI, PUA: &q3app (E8BF)
<001>dã ꝗdã quidam = MUFI-Zeichen als Teil eines Wortes
ſcīa ſcientia scientia Wortliste
tertij = tertii j wird zu i
tert{ij} tertij = tertii einfache Ligatur
Deutsch Wasserstraße = = ß im Deutschen wird nicht normalisiert
Käse = = Umlaute
Tee-Ei = = Bindestrich
Fraktur z{uo} z zu = MUFI, PUA: &uosup (E72D)
z{uo} zuͦ = zu Alternative: combining letter o (0366)
Chinesisch 歴 (6B74) = 歷 (6B77) Zeichenvariante in Unicode
中<国V> 中{国V} (中国) 3) 中{⿴口玉} 4) = Zeichenvariante nicht in Unicode
Griechisch ἀλλὰ ... = = ἀλλά ... Gravis wird für Wörterbuch zu Akut
βασιλεύς = = ϐασιλεύς: letter variation
{πρ}ός {πρ}ός (πρός) {πρ}ός = einfache Ligatur
{μετὰ} {μετὰ} (μετὰ) {μετὰ} = μετά schwierige Ligatur
  1. "=" in Regularisierung: es gibt kein <reg>, d.h. Regularized = Original (das gilt auch, wenn es kein @norm gibt); "=" in Normalisierung: die Wortform wird nicht normalisiert
  2. falls möglich, verwende die Diakritika zur Lemma-Disambiguierung
  3. in Original-Spalte in Klammern: neues Original, sobald es <reg> mit faithful-Attribut gibt
  4. automatisiert eventuell eine Zwischenstufe 中<reg faithful="{国}" type="unresolved">国</reg>, damit die Suche nicht bricht; per Hand <reg faithful="中{⿴口玉}">中国</reg> (Wortgrenzen beachten, IDS-Sequenz einfügen)
  5. semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; genauso {que} zu {q3app} oder kürzer {q3}?