Changes between Version 11 and Version 12 of normalization/6


Ignore:
Timestamp:
Dec 6, 2010, 5:35:48 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v11 v12  
    3030Normalisierung meint normalerweise die Normalisierung für die Textanzeige. Abweichende Normalisierungen für !Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden.
    3131
     32In der Tabelle gehe ich vorläufig davon aus, dass die Normalisierung (Groß- zu Kleinbuchstaben, Entfernen unnötiger Diakritika, chinesische Standardzeichen, Gravis wird Akut) auf unserer Seite stattfindet, und dass die Wörterbücher mit Unicode umgehen können und kein Betacode etc. erwarten.
    3233
    3334=== Beispiele ===
     
    5152||= =||||  itaq;  || || itaque ||||  =  || Abkürzung mit Semikolon ||
    5253||= =|| {quis} 5) || ꝙ || || u.a. quod ||||  =  || MUFI, offizielles Unicode-Zeichen ||
    53 ||= =|| idem\'{que} || idem́ || || idemque ||||  =  || MUFI, PUA: &q3app (E8BF) ||
     54||= =|| idem\'{que} || idem́ 7) || || idemque ||||  =  || MUFI, PUA: &q3app (E8BF) ||
     55||= =|| $enatori\'{que} || ſenatoriq́ꝫ || ſenatori{q3-it-a} || ſenatorique ||||  senatorique  || kein Font enthält E8BF in kursiv ||
    5456||= =|| <001>dã || ꝗdã || || quidam ||||  =  || MUFI-Zeichen als Teil eines Wortes ||
    5557||= =|| || ſcīa || || ſcientia ||||  scientia  || Wortliste ||
     
    6466||= =|| z{uo} || zuͦ ||||  =  ||||  zu  || Alternative: combining letter o (0366) ||
    6567|||||||||||||||| ||
    66 ||= '''Chinesisch''' =||||  歴 (6B74)  ||||  =  ||||  歷 (6B77) || Zeichenvariante in Unicode ||
     68||= '''Chinesisch''' =||||  歴 (6B74)  ||||  =  ||||  歷 (6B77) 6) || Zeichenvariante in Unicode ||
    6769||= =|| 中<国V> || 中{国V} (中国) 3) || 中{⿴口玉} 4) || ||||  =  || Zeichenvariante nicht in Unicode ||
    6870|||||||||||||||| ||
     
    7880 1. in Original-Spalte in Klammern: neues Original, sobald es <reg> mit faithful-Attribut gibt
    7981 1. automatisiert eventuell eine Zwischenstufe 中<reg faithful="{国}" type="unresolved">国</reg>, damit die Suche nicht bricht; per Hand <reg faithful="中{⿴口玉}">中国</reg> (Wortgrenzen beachten, IDS-Sequenz einfügen)
    80  1. semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; dagegen {que} bedeutet immer -que, trotzdem zu {q3app} oder kürzer {q3}?
     82 1. Semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; dagegen {que} bedeutet immer -que, trotzdem zu {q3app} oder kürzer {q3}?
     83 1. Es ist wohl auch im Original-Textmodus nicht sinnvoll, die Zeichenvariante an das Wörterbuch zu senden.
     84 1. Um die PUA zu vermeiden, könnte man statt <reg norm="idemque">idem́</reg> auch <reg faithful="idem́" norm="idemque">idemq́ꝫ</reg> schreiben. Es ist aber nicht ganz klar, was dadurch konkret gewonnen wäre.
    8185