Changes between Version 12 and Version 13 of normalization/6


Ignore:
Timestamp:
Dec 7, 2010, 9:56:03 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v12 v13  
    55=== Grundgedanken ===
    66
    7 Ziele
    8  * Moderne Schreibweise des Textes, zum Beispiel u/v-Schreibweise in Latein
     7Das Hauptziel der Normalisierung ist eine moderne Schreibweise des Textes, zum Beispiel u/v-Schreibweise in Latein.
     8
     9Außerdem:
    910 * Die Normalisierungsregeln sollten einfach formulierbar sein.
     11 * die Normalisierungsschicht sollte so einfach wie möglich sein, aber nicht einfacher:
     12   * muss mit offenen Klassen umgehen können (Chinesisch)
     13 * die Normalisierungen für die Anzeige und für !Pollux/Donatus sollten so ähnlich wie möglich sein (aber nicht ähnlicher)
    1014 * Wenn etwas sprachspezifisch und nicht buchspezifisch ist, sollte es zur Normalisierung und nicht zur Regularisierung gehören.
    1115 * Bei Wörtern, die zwar regularisiert werden müssten, aber nicht regularisiert sind, sollte die Normalisierung den Fehler nicht verschleiern.
     
    1620Details der Regularisierung werden [wiki:regularization hier] diskutiert. Ausgangspunkt für die Normalisierung ist ein Text, der bereits <reg>enthält. Im Idealfall bedeutet das:
    1721 * Fehler im Text korrigiert
    18  * keine Abkürzungszeichen mehr im Text
     22 * keine Abkürzungszeichen mehr im Text 
    1923 * keine PUA-Zeichen mehr im Text
    2024
     
    3135
    3236In der Tabelle gehe ich vorläufig davon aus, dass die Normalisierung (Groß- zu Kleinbuchstaben, Entfernen unnötiger Diakritika, chinesische Standardzeichen, Gravis wird Akut) auf unserer Seite stattfindet, und dass die Wörterbücher mit Unicode umgehen können und kein Betacode etc. erwarten.
     37
     38
     39=== Diakritika ===
     40
     41Für Diakritika bedeutet Normalisierung, dass sie einfach entfernt werden.
     42 * Heutzutage als überflüssig erachtete Diakritika wie in aër und verò werden normalisiert, können aber noch zur Lemma-Disambiguierung oder zumindest zur Wortform-Disambiguierung beitragen.
     43 * Bedeutungstragende Diakritika werden nicht normalisiert. Beispielsweise wird eiuſdẽ zu eiusdẽ, aber nicht zu eiusde normalisiert. Durch Weglassen der Tilde kann offensichtlich nicht die richtige Wortform herauskommen. Stattdessen gbit es drei mögliche Fälle:
     44    * Es kommt gar keine echte Wortform heraus. Dann ist man nicht weiter als mit der originalen Form. Beispiele: eiuſdẽ wird zu eiusde und ſcīa wird zu scia.
     45    * Es kommt das falsche Lemma heraus, d.h. der Fehler wird kaschiert. Beispiel: itẽ wird zu ite.
     46    * Es kommt die falsche Wortform im richtigen Lemma heraus: zum Beispiel reſiduũ wird zu residuu. Spätestens bei einer automatisierten linguistischen Analyse des Satzes wird sich die falsche Wortform als Problem erweisen.
     47 * Diakritika, die in der entsprechenden Sprache gar nicht vorkommen sollten, werden nicht normalisiert. Es ist nicht die Aufgabe der Normalisierung, die Textqualität stillschweigend zu verbessern.
     48 * Genauso Unicode-Fehler durch identisch aussehende Zeichen. Zum Beispiel ά (03AC) wird nicht zu ά (1F71) normalisiert. Es ist Aufgabe eines Workflow-Skriptes, solche Zeichen zu finden bzw. zu ersetzen.
     49
    3350
    3451=== Beispiele ===
     
    5269||= =||||  itaq;  || || itaque ||||  =  || Abkürzung mit Semikolon ||
    5370||= =|| {quis} 5) || ꝙ || || u.a. quod ||||  =  || MUFI, offizielles Unicode-Zeichen ||
    54 ||= =|| idem\'{que} || idem́ 7) || || idemque ||||  =  || MUFI, PUA: &q3app (E8BF) ||
    55 ||= =|| $enatori\'{que} || ſenatoriq́ꝫ || ſenatori{q3-it-a} || ſenatorique ||||  senatorique  || kein Font enthält E8BF in kursiv ||
     71||= =|| idem\'{que} || idem́ 7) || || idemque ||||  =  || MUFI, PUA: &q3app (E8BF) ||
     72||= =|| $enatori\'{que} || ſenatoriq́ꝫ || ſenatori{q3-it-a} || ſenatorique ||||  senatorique  || kein Font enthält E8BF in kursiv 8) ||
    5673||= =|| <001>dã || ꝗdã || || quidam ||||  =  || MUFI-Zeichen als Teil eines Wortes ||
    5774||= =|| || ſcīa || || ſcientia ||||  scientia  || Wortliste ||
     
    8097 1. in Original-Spalte in Klammern: neues Original, sobald es <reg> mit faithful-Attribut gibt
    8198 1. automatisiert eventuell eine Zwischenstufe 中<reg faithful="{国}" type="unresolved">国</reg>, damit die Suche nicht bricht; per Hand <reg faithful="中{⿴口玉}">中国</reg> (Wortgrenzen beachten, IDS-Sequenz einfügen)
    82  1. Semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; dagegen {que} bedeutet immer -que, trotzdem zu {q3app} oder kürzer {q3}?
     99 1. Semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; {que} mit Makron kann zum Beispiel im Alvarus auch quam bedueten, also zu {q3app} oder kürzer {q3}?
    83100 1. Es ist wohl auch im Original-Textmodus nicht sinnvoll, die Zeichenvariante an das Wörterbuch zu senden.
    84  1. Um die PUA zu vermeiden, könnte man statt <reg norm="idemque">idem́</reg> auch <reg faithful="idem́" norm="idemque">idemq́ꝫ</reg> schreiben. Es ist aber nicht ganz klar, was dadurch konkret gewonnen wäre.
     101 1. Um die PUA zu vermeiden, könnte man statt <reg norm="idemque">idem́</reg> auch <reg faithful="idem́" norm="idemque">idemq́ꝫ</reg> schreiben, siehe [wiki:regularization#DiePrivateUseArea hier].
     102 1. {q3-it-a} wird entweder als Text wiedergegeben, oder es gibt eine Datei `q3-it-a` vom Typ jpg, svg, etc. {q3-it-a} enthält den Akut bereits. Selbst wenn wir ein Bild von {q3-it} haben, können wir wohl nicht erwarten, ein Bild korrekt mit einem combining acute anzuzeigen.
    85103