Changes between Version 18 and Version 19 of normalization/6


Ignore:
Timestamp:
Dec 10, 2010, 11:29:39 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v18 v19  
    33== 4. Wie soll normalisiert werden? ==
    44
    5 === Grundgedanken ===
     5=== Ziele ===
    66
    7 Das Hauptziel der Normalisierung ist eine moderne Schreibweise des Textes, zum Beispiel u/v-Schreibweise in Latein.
     7Das Hauptziel der Normalisierung ist eine moderne Schreibweise des Textes, zum Beispiel die heutige u/v-Schreibweise in Latein.
    88
    99Außerdem:
    10  * Die Normalisierungsregeln sollten einfach und eindeutig formuliert sein
     10 * Die Normalisierungsregeln sollten einfach und eindeutig formulierbar sein
    1111 * die Normalisierungsschicht sollte so einfach wie möglich sein, aber nicht einfacher:
    1212   * muss mit einfachen Algorithmen wie bei u/v umgehen können (Latein)
    1313   * muss mit offenen Klassen umgehen können (Chinesisch)
    14  * die Normalisierungen für die Anzeige und für !Pollux/Donatus sollten so ähnlich wie möglich sein (aber nicht ähnlicher)
     14 * Die Normalisierungen für die Anzeige und für !Pollux/Donatus sollten so ähnlich wie möglich sein (aber nicht ähnlicher).
     15 * Es muss für jede Normalisierung eine Begründung geben; kein Zeichen wird auf Verdacht normalisiert.
    1516 * Wenn etwas sprachspezifisch und nicht buchspezifisch ist, sollte es zur Normalisierung und nicht zur Regularisierung gehören.
    1617 * Bei Wörtern, die zwar regularisiert werden müssten, aber nicht regularisiert sind, sollte die Normalisierung den Fehler nicht verschleiern.
    17  * korrekt geschriebene Texte in modernen Sprachen sollten im Idealfall gar keine Normalisierungen benötigen
     18 * Korrekt geschriebene Texte in modernen Sprachen sollten im Idealfall gar keine Normalisierungen benötigen.
    1819
    1920=== Regularisierung und Normalisierung ===
     
    2930Es ist nicht immer einfach zu entscheiden, ob etwas regularisiert oder normalisiert werden soll. Beispielsweise ist "q;" ein Abkürzungszeichen und wird regularisiert, während "ę" kein Abkürzungszeichen ist und daher nicht regularisiert, sondern normalisiert wird.
    3031
    31 In der untenstehenden Tabelle sind viele Beispiele für das Zusammenspiel von Regularisierung und Normalierung zu sehen.
     32Beispiele für das Zusammenspiel von Regularisierung und Normalierung siehe [wiki:normalization/overview hier].
    3233
    3334
     
    3637Normalisierung meint normalerweise die Normalisierung für die Textanzeige. Abweichende Normalisierungen für !Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden.
    3738
    38 In der Tabelle gehe ich vorläufig davon aus, dass die Normalisierung (Groß- zu Kleinbuchstaben, Entfernen unnötiger Diakritika, chinesische Standardzeichen, Gravis wird Akut) auf unserer Seite stattfindet, und dass die Wörterbücher mit Unicode umgehen können und kein Betacode etc. erwarten.
     39Die Normalisierung für das Wörterbuch ist unabhängig vom gerade aktiven Textanzeigemodus: Jede Anfrage an das Wörterbuch wird auf Basis des regularisierten Wortes normalisiert.
     40
     41Ich gehe vorläufig davon aus, dass die Normalisierung (Groß- zu Kleinbuchstaben, Entfernen unnötiger Diakritika, chinesische Standardzeichen, Gravis wird Akut) auf unserer Seite stattfindet, und dass die Wörterbücher mit Unicode umgehen können und kein Betacode etc. erwarten.
    3942
    4043
     
    4346Für Diakritika bedeutet Normalisierung, dass sie einfach entfernt werden.
    4447 1. Diakritika, die in einer Sprache verwendet werden, werden nicht normalisiert: Beispiel ist ä ö ü im Deutschen.
    45  1. Heutzutage als überflüssig erachtete Diakritika wie in aër und verò im Lateinischen werden normalisiert, können aber noch zur Lemma-Disambiguierung oder zumindest zur Wortform-Disambiguierung beitragen.
     48 1. Heutzutage als überflüssig erachtete Diakritika wie in aër und verò im Lateinischen werden normalisiert. Wenn sie nicht reine Lesehilfen sind, können aber noch zur Lemma-Disambiguierung oder zumindest zur Wortform-Disambiguierung beitragen.
    4649 1. Diakritika bei Abkürzungszeichen werden nicht normalisiert. Beispielsweise wird eiuſdẽ, falls es aus Versehen nicht regularisiert wurde, zu eiusdẽ, aber nicht zu eiusde normalisiert. Durch Weglassen der Tilde kann offensichtlich nicht die richtige Wortform herauskommen. Stattdessen gibt es drei mögliche Fälle:
    4750    * Es kommt gar keine echte Wortform heraus. Dann ist man nicht weiter als mit der originalen Form. Beispiele: eiuſdẽ wird zu eiusde und ſcīa wird zu scia.
     
    5457Unicode-Fehler durch identisch aussehende Zeichen werden nicht normalisiert. Zum Beispiel ά (03AC) wird nicht zu ά (1F71) normalisiert. Es ist Aufgabe eines Workflow-Skriptes, solche Zeichen zu finden bzw. zu ersetzen.
    5558
    56 
    57 === Beispiele ===
    58 
    59 Die folgende Tabelle zeigt einige Wörter vom Rohtext über das XML bis zum Anzeigesystem. Die Wörter sind nach Sprachen sortiert. In der Transkription gibt es zwei Versionen, den Rohtext und den bearbeiteten Rohtext. Der bearbeitete Rohtext entsteht, wenn man die Schreibweisen in den DESpecs in Unicode umsetzt. Dieser Schritt entspricht dem Anzeigemodus "Original". Im XML-Text werden mit <reg> zum einen die bekannten Textkorrekturen gemacht (das entspricht dem Anzeigemodus "Regularized"; der jeweilige type der Korrektur ist hier nicht angegeben), zum anderen gibt es in <reg> ein Attribut, in das alle Informationen aus dem Rohtext verschwinden, die wir nicht gut in Unicode darstellen können (das entspricht dem Anzeigemodus "Original" mit Checkbox "faithful"). Die Normalisierung teilt sich auf in eine Normalisierung für die Textanzeige (das entspricht dem Anzeigemodus "Normalized") und einer Normalisierung für Wörterbücher. In der Kommentarspalte wird jeweils die Besonderheit des Wortes genannt.
    60 
    61 || ||||  Transkription  ||||  <reg> (im XML)  ||||  Normalisierung (System)  ||  Kommentar  ||
    62 || ||  Rohtext  ||  nachbearbeitet  ||  @faithful  ||  @norm  ||  Anzeige  ||  !Donatus/Pollux  || ||
    63 ||= =||= =||= '''Original''' =||= '''faithful''' =||= '''Regularized''' =||= '''Normalized''' =||= =|| ||
    64 |||||||||||||||| ||
    65 ||= '''Latein''' =||||  vnum  ||||  = 1)  ||||  unum  || v wird zwischen Konsonanten zu u ||
    66 ||= =|| diuer$arum || diuerſarum ||||  =  ||||  diversarum  || u zwischen Vokalen wird zu v ||
    67 ||= =||||  DIVERSARVM  ||||  =  || DIVERSARUM || diversarum || Großbuchstaben ||
    68 ||= =|| periti{$s}imo || peritißimo ||||  =  ||||  peritissimo  || ß in Latein wird normalisiert ||
    69 ||= =||||  aër  ||||  =  || aer || aer 2) || Trema: "kein Diphthong" ||
    70 ||= =||||  verò  ||||  =  || vero || vero 2) || Gravis ||
    71 ||= =||||  hîc  ||||  =  || hic || hic 2) || Zirkumflex ||
    72 ||= =|| re$iduũ || reſiduũ || || reſiduum ||||  residuum  || Abkürzungszeichen Tilde ||
    73 ||= =|| re$idu\~u || reſiduũ || || reſiduum ||||  residuum  || andere Schreibweise im Rohtext ||
    74 ||= =|| $ph{ae}ræ || ſphęræ ||||  =  ||||  sphaerae  || ę ist kein Abkürzungszeichen ||
    75 ||= =||||  itaq;  || || itaque ||||  =  || Abkürzung mit Semikolon ||
    76 ||= =|| {quis} 5) || ꝙ || || u.a. quod ||||  =  || MUFI, offizielles Unicode-Zeichen ||
    77 ||= =|| idem\'{que} || idem́ 7) || || idemque ||||  =  || MUFI, PUA: &q3app (E8BF) ||
    78 ||= =|| $enatori\'{que} || (ſenatoriq́ꝫ) || ſenatori{q3-it-a} || ſenatorique ||||  senatorique  || kein Font enthält E8BF in kursiv 8) ||
    79 ||= =|| <001>dã || ꝗdã || || quidam ||||  =  || MUFI-Zeichen als Teil eines Wortes ||
    80 ||= =|| || ſcīa || || ſcientia ||||  scientia  || Wortliste ||
    81 ||= =||||  tertij  ||||  =  ||||  tertii  || j wird zu i ||
    82 ||= =|| tert{ij} || tertij ||||  =  ||||  tertii  || einfache Ligatur ||
    83 ||= =||||  cœlum  ||||  =  || coelum || caelum || Mittellatein 9) ||
    84 ||= =|| || ve-<lb/>ritate ||||  =  || || veritate || Zeilenumbruch ||
    85 |||||||||||||||| ||
    86 ||= '''Deutsch''' =||||  Wasserstraße  ||||  =  ||||  =  || ß im Deutschen wird nicht normalisiert ||
    87 ||= =||||  Käse  ||||  =  ||||  =  || Umlaute ||
    88 ||= =||||  Tee-Ei  ||||  =  ||||  =  || Bindestrich ||
    89 |||||||||||||||| ||
    90 ||= '''Fraktur''' =|| z{uo} || z || || zu ||||  =  || MUFI, PUA: &uosup (E72D) ||
    91 ||= =|| z{uo} || zuͦ ||||  =  ||||  zu  || Alternative: combining letter o (0366) ||
    92 |||||||||||||||| ||
    93 ||= '''Chinesisch''' =||||  歴 (6B74)  ||||  =  ||||  歷 (6B77) 6)  || Zeichenvariante in Unicode ||
    94 ||= =|| 中<国V> || 中{国V} (中国) 3) || 中{⿴口或} 4) || ||||  =  || Zeichenvariante nicht in Unicode ||
    95 |||||||||||||||| ||
    96 ||= '''Griechisch''' =||||  ἀλλὰ ...  ||||  =  ||  =  || ἀλλά ... || Gravis wird für Wörterbuch zu Akut ||
    97 ||= =||||  βασιλεύς  ||||  =  ||||  =  || ϐασιλεύς: letter variation ||
    98 ||= =|| {το}ῖς || {το}ῖς (τοῖς) || {το}ῖς || ||||  =  || einfache Ligatur ||
    99 ||= =|| τ{ὴν} || τ{ὴν} (τὴν) || τὴν || ||  || τήν || schwierige Ligatur ||
    100 ||= =|| {τῶν} || {τῶν} (τῶν) || {τῶν} || ||||  =  || Abbreviatur ||
    101 |||||||||||||||| ||
    102 ||=  '''Symbole'''  =|| <001> || ♉ ||||  =  ||||  =  || einfaches Symbol ||
    103 ||= =|| <002> || ♁ ||||  =  ||||  =  || Symbol mit zwei Formen 10) ||
    104 ||= =|| <al> || &x1F70D; ||||  =  ||||  =  || Alchemie-Symbol Sulfur ||
    105 ||= =|||| |||| |||| || ||
    106 
    107  1. "=" in Regularisierung: es gibt kein <reg>, d.h. Regularized = Original (das gilt auch, wenn es kein @norm gibt); "=" in Normalisierung: die Wortform wird nicht normalisiert
    108  1. falls möglich, verwende die Diakritika zur Disambiguierung
    109  1. in Original-Spalte in Klammern: neues Original, sobald es <reg> mit faithful-Attribut gibt
    110  1. automatisiert eventuell eine Zwischenstufe 中<reg faithful="{国}" type="unresolved">国</reg>, damit die Suche nicht bricht; per Hand <reg faithful="中{⿴口或}">中国</reg> (Wortgrenzen beachten, IDS-Sequenz einfügen)
    111  1. Semantisches {quis} wird in den DESpecs noch auf optisch umgestellt, eventuell auf den etwas länglichen MUFI-Namen {qslstrok}; {que} mit Makron kann zum Beispiel im Alvarus auch quam bedueten, also zu {q3app} oder kürzer {q3}?
    112  1. Es ist wohl auch im Original-Textmodus nicht sinnvoll, die Zeichenvariante an das Wörterbuch zu senden.
    113  1. Um die PUA zu vermeiden, könnte man statt <reg norm="idemque">idem́</reg> auch <reg faithful="idem́" norm="idemque">idemq́ꝫ</reg> schreiben, siehe [wiki:regularization#DiePrivateUseArea hier].
    114  1. Beachte die Klammern in der Original-Spalte. Zur Erläuterung siehe [wiki:regularization#Latein hier].
    115  1. Siehe die Diskussion im Abschnitt [#Latein Latein].
    116  1. Das Symbol ist semantisch beschrieben: "Earth". Offenbar gibt es zwei verschiedene übliche Formen. Wie es dargestellt wird, hängt vom jeweiligen Font ab.
    117  
    11859=== Standard-Normalisierungen in allen Sprachen ===
    11960
     
    12162 * Es gibt (zumindest für die Textanzeige) keine Normalisierungsregeln für Satzzeichen.
    12263 * Bindestriche werden in der Textanzeige nicht normalisiert. Für das Wörterbuch werden Bindestrich am Ende der Zeile entfernt und das Wort zusammengesetzt.
    123  * Als normalisierenswerte Diakritika kommen nur ó ò ô ö õ ō ŏ in Frage, alle anderen Diakritika sind Fehler und werden nicht normalisiert.
     64 * Als normalisierenswerte Diakritika kommen nur ó ò ô ö õ ō ŏ in Frage, alle anderen Diakritika werden nicht normalisiert.
    12465 * Umgang mit hyphen und soft hyphen, <lb/> etc.
    12566 * Umgang mit combining characters versus precomposed characters
     
    15394 * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in Lex.
    15495 
    155 Überflüssige Diakritika können zur Lemma- und-Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden.
     96Überflüssige Diakritika können zur Lemma- und-Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden:
     97 * ò ist wohl eine reine Lesehilfe
     98 * ô ist wohl ein Längezeichen
     99 * ö ist wohl eine reine Lesehilfe
    156100
    157101Beachte: Eine Jahreszahl wie MDLXXXV (Benedetti p.5: <emph class="sc">mdlxxxv</emph>) darf nicht normalisiert werden. Mit den neuen Regeln für u/v würde das nicht mehr passieren. Da V immer rechts von X, L, C, D, M ist und rechts neben V nur I sein kann, gibt es wohl auch keine andere römische Zahl, die normalisiert werden würde. (Eigentlich sollte die Zahl auch wie der Inhalt von <var> vor der morphologischen Analyse versteckt werden. Deshalb vielleicht: <num value="1585" style="sc">mdlxxxv</num>, und <num> wird wie <var> ausgenommen.)
     
    163107Arboreal:
    164108 * Solange nicht klar ist, warum Malcolm  〈 (2329) und  〉 (232A) normalisiert hat, werden sie bei uns nicht normalisiert.
    165  * ç wird nicht normalisiert
     109 * ç wird vorläufig nicht normalisiert
    166110
    167 Was machen wir mit unterschiedlichen Schreibweisen? Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). Eine Wortliste? Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Ist das eine Aufgabe der Normalisierung oder doch der Regularisierung? Es ist jedenfalls kein Textfehler und auch nicht buchspezifisch.)
     111Was machen wir mit unterschiedlichen Schreibweisen? Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). Eine Wortliste? Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Ist das eine Aufgabe der Normalisierung oder doch der Regularisierung? Es ist jedenfalls kein Textfehler und auch nicht buchspezifisch.) Möglicherweise brauchen wir eine Sprachschicht "Mittellatein".
    168112
    169113=== Italienisch ===
     
    191135Bindestriche werden für die Anzeige nicht normalisiert. Für das Wörterbuch: Bindestriche innerhalb eines Wortes werden nicht normalisiert. Probleme wie "Vor- und Rücksicht" (mit space nach dem Bindestrich) können wir wohl nicht lösen. Am Ende der Zeile wird das Wort ohne Bindestrich zusammengesetzt, außer der zweite Teil beginnt mit einem Großbuchstaben. Alles, was trotzdem nicht korrekt erkannt wird, können wir nicht ändern. (Eventuell ist das Wörterbuch clever genug, das Bindestrich-Problem selber zu lösen.)
    192136
    193 Darüber hinaus ist eine orthographische Normalisierung deutscher Texte schwierig. Eventuell wird es mehrere verschiedene Normalierungsregeln in Abhängigkeit vom Alter des Textes geben.
     137Darüber hinaus ist eine orthographische Normalisierung deutscher Texte schwierig. Eventuell wird es mehrere verschiedene Normalierungsregeln in Abhängigkeit vom Alter des Textes geben. Mögliche Sprachschichten sind:
     138 * 21. Jh. (nach Rechtschreibreform 2000)
     139 * 20. Jh. (nach Rechtschreibreform 1901)
     140 * 19. Jh. (weitgehend einheitliche Schreibungen schon vor Rechtschreibreform)
     141 * etc.
    194142
    195143Die Regel "é wird zu e" in Arboreal ist mir unklar, deshalb wird sie nicht übernommen.
     
    213161Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
    214162
    215 ZWS werden in der Normalisierung entfernt.
     163ZWS werden zumindest in der Normalisierung für das Wörterbuch entfernt.
    216164
    217165Die Arboreal-Regeln für fullwidth space, einige Satzzeichen und hochgestellte 1 bis 5 werden nicht übernommen.