Changes between Version 14 and Version 15 of normalization/6


Ignore:
Timestamp:
Dec 8, 2010, 8:48:26 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v14 v15  
    1010 * Die Normalisierungsregeln sollten einfach formulierbar sein.
    1111 * die Normalisierungsschicht sollte so einfach wie möglich sein, aber nicht einfacher:
     12   * muss mit einfachen Algorithmen wie bei u/v umgehen können (Latein)
    1213   * muss mit offenen Klassen umgehen können (Chinesisch)
    1314 * die Normalisierungen für die Anzeige und für !Pollux/Donatus sollten so ähnlich wie möglich sein (aber nicht ähnlicher)
     
    2223 * keine Abkürzungszeichen mehr im Text
    2324 * keine PUA-Zeichen mehr im Text
     25 * Der Text ist in NFC-Normalform, d.h. wo immer möglich werden precomposed characters verwendet, zum Beispiel ä statt a mit combining diaeresis.
    2426
    2527Natürlich muss die Normalisierung mit der Textversion arbeiten, die sie vorfindet. Formal gesagt: Für Wörter mit <reg> und einem norm-Attribut in diesem <reg> arbeitet die Normalisierung nicht mit dem originalen Wort, sondern mit der Version im norm-Attribut. Bei Wörtern ohne <reg>, oder mit einem <reg> ohne norm-Attribut, wird das originale Wort verwendet.
     
    4042
    4143Für Diakritika bedeutet Normalisierung, dass sie einfach entfernt werden.
    42  * Heutzutage als überflüssig erachtete Diakritika wie in aër und verò werden normalisiert, können aber noch zur Lemma-Disambiguierung oder zumindest zur Wortform-Disambiguierung beitragen.
    43  * Bedeutungstragende Diakritika werden nicht normalisiert. Beispielsweise wird eiuſdẽ zu eiusdẽ, aber nicht zu eiusde normalisiert. Durch Weglassen der Tilde kann offensichtlich nicht die richtige Wortform herauskommen. Stattdessen gbit es drei mögliche Fälle:
     44 1. Diakritika, die in einer Sprache verwendet werden, werden nicht normalisiert: Beispiel ist ä ö ü im Deutschen.
     45 1. Heutzutage als überflüssig erachtete Diakritika wie in aër und verò im Lateinischen werden normalisiert, können aber noch zur Lemma-Disambiguierung oder zumindest zur Wortform-Disambiguierung beitragen.
     46 1. Diakritika bei Abkürzungszeichen werden nicht normalisiert. Beispielsweise wird eiuſdẽ, falls es aus Versehen nicht regularisiert wurde, zu eiusdẽ, aber nicht zu eiusde normalisiert. Durch Weglassen der Tilde kann offensichtlich nicht die richtige Wortform herauskommen. Stattdessen gibt es drei mögliche Fälle:
    4447    * Es kommt gar keine echte Wortform heraus. Dann ist man nicht weiter als mit der originalen Form. Beispiele: eiuſdẽ wird zu eiusde und ſcīa wird zu scia.
    45     * Es kommt das falsche Lemma heraus, d.h. der Fehler wird kaschiert. Beispiel: itẽ wird zu ite. (Es gibt allerdings wohl nur wenige Beispiele, wo wirklich das falsche Lemma herauskommt.)
     48    * Es kommt das falsche Lemma heraus, d.h. der Fehler wird kaschiert. Beispiel: itẽ wird zu ite. (Es gibt allerdings wohl nur wenige reale Beispiele.)
    4649    * Es kommt die falsche Wortform im richtigen Lemma heraus: zum Beispiel reſiduũ wird zu residuu. Spätestens bei einer automatisierten linguistischen Analyse des Satzes wird sich die falsche Wortform als Problem erweisen.
    47  * Diakritika, die in der entsprechenden Sprache gar nicht vorkommen sollten, werden nicht normalisiert. Es ist nicht die Aufgabe der Normalisierung, die Textqualität stillschweigend zu verbessern.
    48  * Genauso Unicode-Fehler durch identisch aussehende Zeichen. Zum Beispiel ά (03AC) wird nicht zu ά (1F71) normalisiert. Es ist Aufgabe eines Workflow-Skriptes, solche Zeichen zu finden bzw. zu ersetzen.
     50 1. Diakritika, die in der entsprechenden Sprache gar nicht vorkommen sollten, werden nicht normalisiert. Zeichen mit Kombinationen von mehreren Diakritika werden ebenfalls nicht normalisiert. Es ist nicht die Aufgabe der Normalisierung, die Textqualität stillschweigend zu verbessern.
     51
     52Diakritika können auch auf Konsonanten sein. Es ist grundsätzlich möglich, dass in einer Sprache dasselbe Diakritikum auf verschiedenen Buchstaben, also beispielsweise ä und ö, zu verschiedenen Gruppen gehört.
     53
     54Unicode-Fehler durch identisch aussehende Zeichen werden nicht normalisiert. Zum Beispiel ά (03AC) wird nicht zu ά (1F71) normalisiert. Es ist Aufgabe eines Workflow-Skriptes, solche Zeichen zu finden bzw. zu ersetzen.
    4955
    5056
     
    8490|||||||||||||||| ||
    8591||= '''Chinesisch''' =||||  歴 (6B74)  ||||  =  ||||  歷 (6B77) 6)  || Zeichenvariante in Unicode ||
    86 ||= =|| 中<国V> || 中{国V} (中国) 3) || 中{⿴口} 4) || ||||  =  || Zeichenvariante nicht in Unicode ||
     92||= =|| 中<国V> || 中{国V} (中国) 3) || 中{⿴口} 4) || ||||  =  || Zeichenvariante nicht in Unicode ||
    8793|||||||||||||||| ||
    8894||= '''Griechisch''' =||||  ἀλλὰ ...  ||||  =  ||  =  || ἀλλά ... || Gravis wird für Wörterbuch zu Akut ||
     
    96102 1. falls möglich, verwende die Diakritika zur Disambiguierung
    97103 1. in Original-Spalte in Klammern: neues Original, sobald es <reg> mit faithful-Attribut gibt
    98  1. automatisiert eventuell eine Zwischenstufe 中<reg faithful="{国}" type="unresolved">国</reg>, damit die Suche nicht bricht; per Hand <reg faithful="中{⿴口}">中国</reg> (Wortgrenzen beachten, IDS-Sequenz einfügen)
     104 1. automatisiert eventuell eine Zwischenstufe 中<reg faithful="{国}" type="unresolved">国</reg>, damit die Suche nicht bricht; per Hand <reg faithful="中{⿴口}">中国</reg> (Wortgrenzen beachten, IDS-Sequenz einfügen)
    99105 1. Semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; {que} mit Makron kann zum Beispiel im Alvarus auch quam bedueten, also zu {q3app} oder kürzer {q3}?
    100106 1. Es ist wohl auch im Original-Textmodus nicht sinnvoll, die Zeichenvariante an das Wörterbuch zu senden.
     
    106112 * ſ wird zu s
    107113 * Es gibt keine Normalisierungsregeln für Satzzeichen.
     114 * Als normalisierenswerte Diakritika kommen nur ó ò ô ö õ ō ŏ in Frage, alle anderen Diakritika sind Fehler und werden nicht normalisiert.
     115 * Umgang mit hyphen und soft hyphen, <lb/> etc.
     116 * Umgang mit combining characters versus precomposed characters
     117 * Falls nicht explizit anders angegeben, gelten alle für Kleinbuchstaben aufgestellten Regeln entsprechend auch für eventuelle Großbuchstaben. Beispiele:
     118  * Aus "ò wird zu o" folgt die Regel "Ò wird zu O".
     119  * Die Regel "ſ wird zu s" hat kein Gegenstück, weil es kein großes ſ gibt.
     120 
     121Lohnt es sich, dafür ein sprachunabhängiges Modul zu haben, und die Normalisierung besteht dann aus dem sprachunabhängigen Modul und einem sprachabhängigen Modul, oder wird die Regel "ſ wird zu s" einfach in jedem sprachabhängigen Modul wiederholt?
     122
     123Wäre es sinnvoll, im sprachunabhängigen Modul eine Regel wie "ß wird zu ss" zu haben, und das Modul für Deutsch überschreibt diese Regel? Wahrscheinlich würde das Ändern der Regeln dadurch schwieriger.
    108124
    109125=== Latein ===
    110126
     127Ziel der Normalisierung im Lateinischen ist die akzeptierte moderne Schreibweise.
     128
    111129 * Im Gegensatz zum Deutschen wird ß wie in eße oder serenißimi normalisiert.
     130 * æ wird zu ae
    112131 * ę wird zu ae
    113132 * ij wird zu ii
    114133 * Diakritika:
    115    * überflüssige Diakritika sind aër, verò, hîc
    116    * bedeutungstragende Diakritika sind reſiduũ
    117    * andere Diakritika werden nicht normalisiert
     134   * es gibt keine Diakritika, die im Lateinischen verpflichtender Teil des Schriftbilds sind
     135   * überflüssige Diakritika sind ò ô ö wie in aër, verò, hîc (und entsprechend für alle Vokale)
     136   * Abkürzungs-Diakritika sind õ ō wie in reſiduũ, ſcīa (und entsprechend für alle Vokale)
     137   * Was ist mit ó ŏ ?
     138   * andere Diakritika werden nicht normalisiert. Insbesondere die Zeichen 1E14-1E1D und 1EB8-1EC7 und die Äquivalente für die anderen Vokale werden nicht normalisiert.
    118139 * Medievalist characters wie ꝙ (A759) sollten regularisiert sein. Wenn sie doch noch enthalten sind, werden sie nicht normalisiert.
    119140 * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in Lex. Beispiele für Malcolms Algorithmus:
     
    128149Überflüssige Diakritika können zur Lemma- und-Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden.
    129150
    130 Beachte, dass Donatus ein Kodierungsproblem hat: Wahrscheinlich wird ISO 8859-1 verwendet.
     151Beachte: Eine Jahreszahl wie MDLXXXV (Benedetti p.5: <emph class="sc">mdlxxxv</emph>) darf nicht normalisiert werden. Mit den neuen Regeln für u/v würde das nicht mehr passieren. Da V immer rechts von X, L, C, D, M ist und rechts neben V nur I sein kann, gibt es wohl auch keine andere römische Zahl, die normalisiert werden würde. (Eigentlich sollte die Zahl auch wie der Inhalt von <var> vor der morphologischen Analyse versteckt werden. Deshalb vielleicht: <num value="1585" style="sc">mdlxxxv</num>, und <num> wird wie <var> ausgenommen.)
     152
     153Beachte: Alvarus hat ein anderes Set von bedeutungstragenden Diakritika als Benedetti (zum Beispiel enthält Benedetti kein ſcīa). Es könnte also durchaus passieren, dass zum Beispiel ë im Alvarus bedeutungstragend ist. (Ob die beiden Sets tatsächlich inkompatibel oder lediglich nicht gleich sind, weiß ich nicht. Das Beispiel ist frei ausgedacht, und im regularisierten Text sollten bedeutungstragende Diakritika wie gesagt gar nicht mehr vorkommen.)
     154
     155Beachte das Kodierungsproblem bei der Kommunikation mit Donatus: Wahrscheinlich wird ISO 8859-1 verwendet.
     156
     157Arboreal: Solange nicht klar ist, warum Malcolm  〈 (2329) und  〉 (232A) normalisiert hat, werden sie bei uns nicht normalisiert.
     158
     159Was machen wir mit unterschiedlichen Schreibweisen? Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (die korrekte Schreibweise) als auch cœlum (mittellateinische Schreibweise, die in einem modernen Wörterbuch vermutlich nicht gefunden wird). Eine Wortliste?
    131160
    132161=== Italienisch ===
    133162
    134 Über Italienisch weiß ich zu wenig. Aber zumindest die u/v-Regeln gelten auch hier.
     163Über Italienisch weiß ich wenig. Aber zumindest die u/v-Regeln gelten auch hier.
    135164
    136165=== Englisch ===
    137166
    138 Gibt es sprachspezifische Normalisierungen?
     167Gibt es überhaupt sprachspezifische Normalisierungen?
     168
     169Problem der älteren Sprachstufen.
    139170
    140171=== Französisch ===
    141172
    142 Über Französisch weiß ich zu wenig.
     173Es gibt wohl keine überflüssigen Diakritika. Übliche Diakritika, die nicht normalisiert werden, sind  ó ò ô. Über Französisch weiß ich ansonsten wenig.
    143174
    144175=== Deutsch ===
    145176
    146 Die Beispiele in der Tabelle besagen, dass Umlaute und ß nicht normalisiert werden, im Gegensatz zum Lateinischen.
     177Umlaute und ß werden nicht normalisiert, im Gegensatz zum Lateinischen.
    147178
    148179Darüber hinaus ist eine orthographische Normalisierung deutscher Texte schwierig. Eventuell wird es mehrere verschiedene Normalierungsregeln in Abhängigkeit vom Alter des Textes geben.
     
    154185Für die Normalisierung gibt es also die Regel: uͦ wird zu u.
    155186
    156 
    157187=== Chinesisch ===
    158188
     189Ziel der Normalisierung im Chinesischen ist Textversion mit Standardzeichen.
     190
    159191Die Normalisierung im Chinesischen funktioniert über eine Zeichenliste, in der jeweils ein oder mehr Zeichenvarianten auf ein Standardzeichen zurückgeführt werden. Beispielsweise wird das Zeichen 歴 (6B74) zu 歷 (6B77) normalisiert. (Beachte: der Unicode-Codepoint des Standardzeichens kann höher sein als der Codepoint der Zeichenvariante.)
    160192
     
    165197Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
    166198
     199ZWS werden in der Normalisierung entfernt.
     200
     201Arboreal: hochgestellte 1 bis 5 werden erstmal nicht normalisiert. (aber Teil der Wortende-Markierung??)
     202
    167203=== Arabisch ===
    168204
     
    174210
    175211=== Griechisch ===
     212
     213Ziel der Normalisierung im Griechischen ist die akzeptierte moderne Schreibweise des Altgriechischen.
    176214
    177215Im griechischen Text sollten alle Ligaturen regularisiert sein. Noch im Text vorhandene Ligaturen werden nicht normalisiert.