Changes between Version 13 and Version 14 of normalization/6


Ignore:
Timestamp:
Dec 7, 2010, 1:12:35 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v13 v14  
    4343 * Bedeutungstragende Diakritika werden nicht normalisiert. Beispielsweise wird eiuſdẽ zu eiusdẽ, aber nicht zu eiusde normalisiert. Durch Weglassen der Tilde kann offensichtlich nicht die richtige Wortform herauskommen. Stattdessen gbit es drei mögliche Fälle:
    4444    * Es kommt gar keine echte Wortform heraus. Dann ist man nicht weiter als mit der originalen Form. Beispiele: eiuſdẽ wird zu eiusde und ſcīa wird zu scia.
    45     * Es kommt das falsche Lemma heraus, d.h. der Fehler wird kaschiert. Beispiel: itẽ wird zu ite.
     45    * Es kommt das falsche Lemma heraus, d.h. der Fehler wird kaschiert. Beispiel: itẽ wird zu ite. (Es gibt allerdings wohl nur wenige Beispiele, wo wirklich das falsche Lemma herauskommt.)
    4646    * Es kommt die falsche Wortform im richtigen Lemma heraus: zum Beispiel reſiduũ wird zu residuu. Spätestens bei einer automatisierten linguistischen Analyse des Satzes wird sich die falsche Wortform als Problem erweisen.
    4747 * Diakritika, die in der entsprechenden Sprache gar nicht vorkommen sollten, werden nicht normalisiert. Es ist nicht die Aufgabe der Normalisierung, die Textqualität stillschweigend zu verbessern.
     
    5151=== Beispiele ===
    5252
    53 Die folgende Tabelle zeigt einige Wörter vom Rohtext über das XML bis zum Anzeigesystem. Die Wörter sind nach Sprachen sortiert. In der Transkription gibt es zwei Versionen, den Rohtext und den bearbeiteten Rohtext. Der bearbeitete Rohtext entsteht, wenn man die Schreibweisen in den DESpecs in Unicode umsetzt. Dieser Schritt entspricht dem Anzeigemodus "Original". Im XML-Text werden mit <reg> zum einen die bekannten Textkorrekturen gemacht (das entspricht dem Anzeigemodus "Regularized"), zum anderen gibt es in <reg> ein Attribut, in das alle Informationen aus dem Rohtext verschwinden, die wir nicht gut in Unicode darstellen können (das entspricht dem Anzeigemodus "Original" mit Checkbox "faithful"). Die Normalisierung teilt sich auf in eine Normalisierung für die Textanzeige (das entspricht dem Anzeigemodus "Normalized") und einer Normalisierung für Wörterbücher. In der Kommentarspalte wird jeweils die Besonderheit des Wortes genannt.
     53Die folgende Tabelle zeigt einige Wörter vom Rohtext über das XML bis zum Anzeigesystem. Die Wörter sind nach Sprachen sortiert. In der Transkription gibt es zwei Versionen, den Rohtext und den bearbeiteten Rohtext. Der bearbeitete Rohtext entsteht, wenn man die Schreibweisen in den DESpecs in Unicode umsetzt. Dieser Schritt entspricht dem Anzeigemodus "Original". Im XML-Text werden mit <reg> zum einen die bekannten Textkorrekturen gemacht (das entspricht dem Anzeigemodus "Regularized"; der jeweilige type der Korrektur ist hier nicht angegeben), zum anderen gibt es in <reg> ein Attribut, in das alle Informationen aus dem Rohtext verschwinden, die wir nicht gut in Unicode darstellen können (das entspricht dem Anzeigemodus "Original" mit Checkbox "faithful"). Die Normalisierung teilt sich auf in eine Normalisierung für die Textanzeige (das entspricht dem Anzeigemodus "Normalized") und einer Normalisierung für Wörterbücher. In der Kommentarspalte wird jeweils die Besonderheit des Wortes genannt.
    5454
    5555|| ||||  Transkription  ||||  <reg> (im XML)  ||||  Normalisierung (System)  ||  Kommentar  ||
     
    7070||= =|| {quis} 5) || ꝙ || || u.a. quod ||||  =  || MUFI, offizielles Unicode-Zeichen ||
    7171||= =|| idem\'{que} || idem́ 7) || || idemque ||||  =  || MUFI, PUA: &q3app (E8BF) ||
    72 ||= =|| $enatori\'{que} || ſenatoriq́ꝫ || ſenatori{q3-it-a} || ſenatorique ||||  senatorique  || kein Font enthält E8BF in kursiv 8) ||
     72||= =|| $enatori\'{que} || (ſenatoriq́ꝫ) || ſenatori{q3-it-a} || ſenatorique ||||  senatorique  || kein Font enthält E8BF in kursiv 8) ||
    7373||= =|| <001>dã || ꝗdã || || quidam ||||  =  || MUFI-Zeichen als Teil eines Wortes ||
    7474||= =|| || ſcīa || || ſcientia ||||  scientia  || Wortliste ||
     
    9494
    9595 1. "=" in Regularisierung: es gibt kein <reg>, d.h. Regularized = Original (das gilt auch, wenn es kein @norm gibt); "=" in Normalisierung: die Wortform wird nicht normalisiert
    96  1. falls möglich, verwende die Diakritika zur Lemma-Disambiguierung
     96 1. falls möglich, verwende die Diakritika zur Disambiguierung
    9797 1. in Original-Spalte in Klammern: neues Original, sobald es <reg> mit faithful-Attribut gibt
    9898 1. automatisiert eventuell eine Zwischenstufe 中<reg faithful="{国}" type="unresolved">国</reg>, damit die Suche nicht bricht; per Hand <reg faithful="中{⿴口玉}">中国</reg> (Wortgrenzen beachten, IDS-Sequenz einfügen)
     
    100100 1. Es ist wohl auch im Original-Textmodus nicht sinnvoll, die Zeichenvariante an das Wörterbuch zu senden.
    101101 1. Um die PUA zu vermeiden, könnte man statt <reg norm="idemque">idem́</reg> auch <reg faithful="idem́" norm="idemque">idemq́ꝫ</reg> schreiben, siehe [wiki:regularization#DiePrivateUseArea hier].
    102  1. {q3-it-a} wird entweder als Text wiedergegeben, oder es gibt eine Datei `q3-it-a` vom Typ jpg, svg, etc. {q3-it-a} enthält den Akut bereits. Selbst wenn wir ein Bild von {q3-it} haben, können wir wohl nicht erwarten, ein Bild korrekt mit einem combining acute anzuzeigen.
     102 1. Beachte die Klammern in der Original-Spalte. Zur Erläuterung siehe [wiki:regularization#Latein hier].
    103103
     104=== Standard-Normalisierungen in allen Sprachen ===
     105
     106 * ſ wird zu s
     107 * Es gibt keine Normalisierungsregeln für Satzzeichen.
     108
     109=== Latein ===
     110
     111 * Im Gegensatz zum Deutschen wird ß wie in eße oder serenißimi normalisiert.
     112 * ę wird zu ae
     113 * ij wird zu ii
     114 * Diakritika:
     115   * überflüssige Diakritika sind aër, verò, hîc
     116   * bedeutungstragende Diakritika sind reſiduũ
     117   * andere Diakritika werden nicht normalisiert
     118 * Medievalist characters wie ꝙ (A759) sollten regularisiert sein. Wenn sie doch noch enthalten sind, werden sie nicht normalisiert.
     119 * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in Lex. Beispiele für Malcolms Algorithmus:
     120 
     121|| vnum || unum ||
     122|| diuerſarum || diversarum ||
     123|| DIVERSARVM || DIVERSARUM ||
     124|| PARVVS || PARUUS ||
     125|| octauum || octavum ||
     126|| loquuti || loquuti ||
     127
     128Überflüssige Diakritika können zur Lemma- und-Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden.
     129
     130Beachte, dass Donatus ein Kodierungsproblem hat: Wahrscheinlich wird ISO 8859-1 verwendet.
     131
     132=== Italienisch ===
     133
     134Über Italienisch weiß ich zu wenig. Aber zumindest die u/v-Regeln gelten auch hier.
     135
     136=== Englisch ===
     137
     138Gibt es sprachspezifische Normalisierungen?
     139
     140=== Französisch ===
     141
     142Über Französisch weiß ich zu wenig.
     143
     144=== Deutsch ===
     145
     146Die Beispiele in der Tabelle besagen, dass Umlaute und ß nicht normalisiert werden, im Gegensatz zum Lateinischen.
     147
     148Darüber hinaus ist eine orthographische Normalisierung deutscher Texte schwierig. Eventuell wird es mehrere verschiedene Normalierungsregeln in Abhängigkeit vom Alter des Textes geben.
     149
     150=== Fraktur ===
     151
     152Mir ist noch nicht klar, ob {uo} mit einem MUFI-PUA-Zeichen oder als zuͦ geschrieben werden sollte. Diese Entscheidung findet aber vor der Normalisierung statt. Im ersten Fall findet die Normalisierung "zu" vor, im zweiten Fall "zuͦ".
     153
     154Für die Normalisierung gibt es also die Regel: uͦ wird zu u.
     155
     156
     157=== Chinesisch ===
     158
     159Die Normalisierung im Chinesischen funktioniert über eine Zeichenliste, in der jeweils ein oder mehr Zeichenvarianten auf ein Standardzeichen zurückgeführt werden. Beispielsweise wird das Zeichen 歴 (6B74) zu 歷 (6B77) normalisiert. (Beachte: der Unicode-Codepoint des Standardzeichens kann höher sein als der Codepoint der Zeichenvariante.)
     160
     161Im Chinesischen gibt es eine Schwelle, unter der eine Zeichenvariante nicht mehr sinnvoll vom Standardzeichen unterschieden werden kann. Diese Entscheidung ist aber im Text bereits getroffen worden. Die Normalisierung ist nur noch rein technischer Akt: Ersetze das Unicode-Zeichen 歴 durch das-Unicode-Zeichen 歷, etc.
     162
     163Es liegt in der Natur der Sache, dass die Zeichenliste eine offene Klasse ist. Die Liste wird regelmäßig ergänzt werden. Im Idealfall sollte dies möglich sein, ohne dass Programmcode angepasst werden muss. Insbesondere sollten der Mechanismus und die Liste selbst in getrennten Dateien stehen.
     164
     165Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
     166
     167=== Arabisch ===
     168
     169Über Arabisch weiß ich zu wenig.
     170
     171=== Keilschrift ===
     172
     173Über Keilschrifttexte weiß ich zu wenig.
     174
     175=== Griechisch ===
     176
     177Im griechischen Text sollten alle Ligaturen regularisiert sein. Noch im Text vorhandene Ligaturen werden nicht normalisiert.
     178
     179Im Text können middle dots enthalten sein, die ebenfalls nicht normalisiert werden.
     180
     181Beachte bei der Kommunikation mit Pollux das Problem mit dem Sigma (Ticket [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/64 #64]):
     182 * Anzeige im Text sollte richtig sein
     183 * link sollte richtig sein
     184 * Wörterbuch-Eintrag sollte richtig sein
     185Sind dafür Änderungen an Donatus / Pollux nötig? Oder brauchen wir ein kleines Konvertierungsmodul?
     186