Changes between Version 4 and Version 5 of normalization


Ignore:
Timestamp:
Nov 9, 2010, 8:07:49 AM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization

    v4 v5  
    55== Zusammenfassung ==
    66
     7Abschnitt 1 beschreibt die Normalisierungsregeln in Arboreal und im Backend im Detail. In Abschnitt 2 werden diese Regeln diskutiert. Abschnitt 3 beschreibt, in welchen Situationen diese Regeln angewendet werden. In Abschnitt 4 beschreibe ich, wie bei uns normalisiert werden soll. Abschnitt 5 listet auf, was dafür konkret zu tun ist.
     8
    79== 1. Wie werden Wörter zurzeit normalisiert? ==
    810
    9 Im folgenden gehe ich alle Sprachen einzeln durch. Zuerst werden jeweils die Normalisierungen in der Arboreal-Klasse `OrthographicRules.java` aufgelistet, danach werden die Änderungen in der Backend-Klasse `MpdlNormalizer.java` aufgelistet.
     11Im folgenden gehe ich alle Sprachen einzeln durch. Zuerst werden jeweils die Normalisierungen in der Arboreal-Klasse [attachment:OrthographicRules.java OrthographicRules] aufgelistet, danach werden die Änderungen in der Backend-Klasse [attachment:MpdlNormalizer.java MpdlNormalizer] aufgelistet. Abschnitt 1 kann auch übersprungen werden.
    1012
    1113In den Tabellen wird immer zuerst die normalisierte Form genannt, und dann alle Formen, die in dieselbe Form normalisiert werden. Beispiel:
    1214|| ae || æ (00E6) ę (0119)  ||
    13 bedeutet, dass æ und ę zu ae normalisiert werden. "--" bedeutet, dass die Form ganz getilgt wird. Bei combining characters habe ich jeweils ein o dazugemacht, damit man es besser erkennen kann.
     15bedeutet, dass æ und ę zu ae normalisiert werden. "--" bedeutet, dass die Form ganz getilgt wird. Bei combining characters habe ich jeweils ein o dazugemacht, damit man den combining character besser erkennen kann.
    1416
    1517=== Latein ===