wiki:normalization/6

Version 6 (modified by Wolfgang Schmidle, 14 years ago) (diff)

--

Transkription <reg> (im XML) Normalisierung (System) Kommentar
Rohtext nachbearbeitet @faithful @norm Anzeige Donatus/Pollux
Original faithful Regularized Normalized
Latein vnum = 1) unum v wird zwischen Konsonanten zu u
periti{$s}imo peritißimo = peritissimo ß in Latein wird normalisiert
aër = aer aer 2) Trema: "kein Diphthong"
verò = vero vero 2) Gravis
re$iduũ reſiduũ reſiduum residuum Abkürzungszeichen Tilde
re$idu\~u reſiduũ reſiduum residuum andere Schreibweise im Rohtext
$ph{ae}ræ ſphęræ = sphaerae ę verschwindet erst in der Normalisierung
{quis} u.a. quod = MUFI, offizielles Unicode-Zeichen
idem\'{que} idem́ idemque = MUFI, PUA
<001>dã ꝗdã quidam = MUFI-Zeichen als Teil eines Wortes
ſcīa ſcientia scientia Wortliste
QVIDAM = QUIDAM quidam Großbuchstaben
tertij = tertii j wird zu i
tert{ij} tertij = tertii einfache Ligatur
Deutsch Wasserstraße = = ß im Deutschen wird nicht normalisiert
Käse = = Umlaute
Tee-Ei = = Bindestriche
Chinesisch 歴 (6B74) = 歷 (6B77) Zeichenvariante in Unicode
中<国V> 中{国V} (中国) 3) 中{⿴口玉} 4) = Zeichenvariante nicht in Unicode
Griechisch ἀλλὰ ... = = ἀλλά ... Gravis wird für Wörterbuch zu Akut
βασιλεύς = = ϐασιλεύς: letter variation
{πρ}ός {πρ}ός (πρός) {πρ}ός = einfache Ligatur
{μετὰ} {μετὰ} (μετὰ) {μετὰ} μετά̀ = schwierige Ligatur
  1. "=" in Regularisierung: es gibt kein <reg>, d.h. Regularized = Original (das gilt auch, wenn es kein @norm gibt); "=" in Normalisierung: die Wortform wird nicht normalisiert
  2. falls möglich, verwende die Diakritika zur Lemma-Disambiguierung
  3. in Original-Spalte in Klammern: neues Original, sobald es <reg> mit faithful-Attribut gibt
  4. automatisiert eventuell eine Zwischenstufe 中<reg faithful="{国}" type="unresolved">国</reg>, damit die Suche nicht bricht; per Hand <reg faithful="中{⿴口玉}">中国</reg> (Wortgrenzen beachten, IDS-Sequenz einfügen)