Changes between Version 4 and Version 5 of normalization
- Timestamp:
- Nov 9, 2010, 8:07:49 AM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization
v4 v5 5 5 == Zusammenfassung == 6 6 7 Abschnitt 1 beschreibt die Normalisierungsregeln in Arboreal und im Backend im Detail. In Abschnitt 2 werden diese Regeln diskutiert. Abschnitt 3 beschreibt, in welchen Situationen diese Regeln angewendet werden. In Abschnitt 4 beschreibe ich, wie bei uns normalisiert werden soll. Abschnitt 5 listet auf, was dafür konkret zu tun ist. 8 7 9 == 1. Wie werden Wörter zurzeit normalisiert? == 8 10 9 Im folgenden gehe ich alle Sprachen einzeln durch. Zuerst werden jeweils die Normalisierungen in der Arboreal-Klasse `OrthographicRules.java` aufgelistet, danach werden die Änderungen in der Backend-Klasse `MpdlNormalizer.java` aufgelistet.11 Im folgenden gehe ich alle Sprachen einzeln durch. Zuerst werden jeweils die Normalisierungen in der Arboreal-Klasse [attachment:OrthographicRules.java OrthographicRules] aufgelistet, danach werden die Änderungen in der Backend-Klasse [attachment:MpdlNormalizer.java MpdlNormalizer] aufgelistet. Abschnitt 1 kann auch übersprungen werden. 10 12 11 13 In den Tabellen wird immer zuerst die normalisierte Form genannt, und dann alle Formen, die in dieselbe Form normalisiert werden. Beispiel: 12 14 || ae || æ (00E6) ę (0119) || 13 bedeutet, dass æ und ę zu ae normalisiert werden. "--" bedeutet, dass die Form ganz getilgt wird. Bei combining characters habe ich jeweils ein o dazugemacht, damit man esbesser erkennen kann.15 bedeutet, dass æ und ę zu ae normalisiert werden. "--" bedeutet, dass die Form ganz getilgt wird. Bei combining characters habe ich jeweils ein o dazugemacht, damit man den combining character besser erkennen kann. 14 16 15 17 === Latein ===