Changes between Version 16 and Version 17 of normalization/6


Ignore:
Timestamp:
Dec 8, 2010, 2:12:23 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v16 v17  
    88
    99Außerdem:
    10  * Die Normalisierungsregeln sollten einfach formulierbar sein.
     10 * Die Normalisierungsregeln sollten einfach und eindeutig formuliert sein
    1111 * die Normalisierungsschicht sollte so einfach wie möglich sein, aber nicht einfacher:
    1212   * muss mit einfachen Algorithmen wie bei u/v umgehen können (Latein)
     
    8282||= =|| tert{ij} || tertij ||||  =  ||||  tertii  || einfache Ligatur ||
    8383||= =||||  cœlum  ||||  =  || coelum || caelum || Mittellatein 9) ||
     84||= =|| || ve-<lb/>ritate ||||  =  || || veritate || Zeilenumbruch ||
    8485|||||||||||||||| ||
    8586||= '''Deutsch''' =||||  Wasserstraße  ||||  =  ||||  =  || ß im Deutschen wird nicht normalisiert ||
     
    9899||= =|| τ{ὴν} || τ{ὴν} (τὴν) || τὴν || ||  || τήν || schwierige Ligatur ||
    99100||= =|| {τῶν} || {τῶν} (τῶν) || {τῶν} || ||||  =  || Abbreviatur ||
     101|||||||||||||||| ||
     102||=  '''Symbole'''  =|| <001> || ♉ ||||  =  ||||  =  || einfaches Symbol ||
     103||= =|| <002> || ♁ ||||  =  ||||  =  || Symbol mit zwei Formen 10) ||
     104||= =|| <al> || &x1F70D; ||||  =  ||||  =  || Alchemie-Symbol Sulfur ||
    100105||= =|||| |||| |||| || ||
    101106
     
    109114 1. Beachte die Klammern in der Original-Spalte. Zur Erläuterung siehe [wiki:regularization#Latein hier].
    110115 1. Siehe die Diskussion im Abschnitt [#Latein Latein].
    111 
     116 1. Das Symbol ist semantisch beschrieben: "Earth". Offenbar gibt es zwei verschiedene übliche Formen. Wie es dargestellt wird, hängt vom jeweiligen Font ab.
     117 
    112118=== Standard-Normalisierungen in allen Sprachen ===
    113119
    114120 * ſ wird zu s
    115  * Es gibt keine Normalisierungsregeln für Satzzeichen.
     121 * Es gibt (zumindet für die Textanzeige) keine Normalisierungsregeln für Satzzeichen.
     122 * Bindestriche werden in der Textanzeige nicht normalisert. Für das Wörterbuch werden Bindestrich am Ende der Zeile entfernt und das Wort zusammengesetzt.
    116123 * Als normalisierenswerte Diakritika kommen nur ó ò ô ö õ ō ŏ in Frage, alle anderen Diakritika sind Fehler und werden nicht normalisiert.
    117124 * Umgang mit hyphen und soft hyphen, <lb/> etc.
     
    124131
    125132Wäre es sinnvoll, im sprachunabhängigen Modul eine Regel wie "ß wird zu ss" zu haben, und das Modul für Deutsch überschreibt diese Regel? Wahrscheinlich würde das Ändern der Regeln dadurch schwieriger.
     133
     134Sind die Normalisierungen für die Anzeige und das Wörterbuch in einer Sprache unabhängig voneinander, oder besteht die Normalisierung für das Wörterbuch aus der Normaliserung für die Textanzeige und weiteren Normalisierungen? Bei den überflüssigen Diakritika wäre das nicht möglich, ansonsten ginge es wohl.
    126135
    127136=== Latein ===
     
    184193Umlaute und ß werden nicht normalisiert, im Gegensatz zum Lateinischen.
    185194
     195Bindestriche werden für die Anzeige nicht normalisiert. Für das Wörterbuch: Bindestriche innerhalb eines Wortes werden nicht normalisiert. Probleme wie "Vor- und Rücksicht" (mit space nach dem Bindestrich) können wir wohl nicht lösen. Am Ende der Zeile wird das Wort ohne Bindestrich zusammengesetzt, außer der zweite Teil beginnt mit einem Großbuchstaben. Alles, was trotzdem nicht korrekt erkannt wird, können wir nicht ändern. (Eventuell ist das Wörterbuch clever genug, das Bindestrich-Problem selber zu lösen.)
     196
    186197Darüber hinaus ist eine orthographische Normalisierung deutscher Texte schwierig. Eventuell wird es mehrere verschiedene Normalierungsregeln in Abhängigkeit vom Alter des Textes geben.
    187198
     
    200211Im Chinesischen gibt es eine Schwelle, unter der eine Zeichenvariante nicht mehr sinnvoll vom Standardzeichen unterschieden werden kann. Diese Entscheidung ist aber im Text bereits getroffen worden. Die Normalisierung ist nur noch rein technischer Akt: Ersetze das Unicode-Zeichen 歴 durch das-Unicode-Zeichen 歷, etc.
    201212
    202 Es liegt in der Natur der Sache, dass die Zeichenliste eine offene Klasse ist. Die Liste wird regelmäßig ergänzt werden. Im Idealfall sollte dies möglich sein, ohne dass Programmcode angepasst werden muss. Insbesondere sollten der Mechanismus und die Liste selbst in getrennten Dateien stehen.
     213Es liegt in der Natur der Sache, dass die Zeichenliste eine offene Klasse ist. Die Liste wird regelmäßig ergänzt werden. Wir brauchen eine Architektur, die damit umgehen kann. Im Idealfall sollte dies möglich sein, ohne dass Programmcode angepasst werden muss. Insbesondere sollten der Mechanismus und die Liste selbst in getrennten Dateien stehen.
    203214
    204215Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
     
    207218
    208219Arboreal: hochgestellte 1 bis 5 werden erstmal nicht normalisiert. (aber Teil der Wortende-Markierung??)
     220
     221Einen Service zur Umwandlung von Lang- in Kurzzeichen könnte man zwar auch anbieten, aber wirklich sinnvoll wäre das für klassisches Chinesisch wohl nicht.
    209222
    210223=== Arabisch ===