Context Navigation

Changes between Version 1 and Version 2 of normalization

Timestamp:: Nov 8, 2010, 12:59:32 PM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization

-                      v1
+                      v2
 [[PageOutline(1-4,,pullout)]]
+== Zusammenfassung ==
 == 1. Wie werden Wörter zurzeit normalisiert? ==
 …
 || -- || 〈 (2329) 〉 (232A)  ||
+Beachte: Zirkumflex (z.B. û 00FB, ê 00EA) wird normalisiert, aber nicht Tilde (z.B. ũ 0169, ẽ 1EBD)
 Backend zusätzlich:
 …
 || -- || hyphen (002D) soft hyphen (00AD)  ||
 Optisch identisch, aber Tonos wird zu Oxia.
+Optisch identisch, aber "Tonos" (der monotonische Akzent im modernen Griechisch) wird zu "Oxia" (der Akut im Altgriechischen).
 Tippfehler: \uu1f7d statt \u1f7d bei ώ
 …
 === Griechisch ohne Akzente ===
 Greek Atonic ("el_atonic"") meint, dass alle Akzente und Spiritus weggelassen werden. Normales modernes Griechisches hat dagegen noch Betonungszeichen (Oxia) bei mehrsilbigen Wörtern.
+=== Griechisch ohne Diakritika ===
+Greek Atonic ("el_atonic") meint, dass alle Diakritika, d.h. Akzente, Spiritus, Trema ("dialytika", ϋ 03CB) und Iota subscriptum/adscriptum, weggelassen werden. Normales modernes Griechisches hat dagegen noch Betonungszeichen (Oxia) bei mehrsilbigen Wörtern.
 || σ (03C3) || ς (03C2)  ||
 …
 "map characters with diacritics to their plain equivalent":
-|| ΁ (0381) || ά (03AC)  ||
-|| ΅ (0385) || έ (03AD)  ||
-|| · (0387) || ή (03AE)  ||
-|| Ή (0389) || ί (03AF)  ||
 || Α (0391) || Ἀ (1F08) Ἁ (1F09) Ἂ (1F0A) Ἃ (1F0B) Ἄ (1F0C) Ἅ (1F0D) Ἆ (1F0E) Ἇ (1F0F) ᾈ (1F88) ᾉ (1F89) ᾊ (1F8A) ᾋ (1F8B) ᾌ (1F8C) ᾍ (1F8D) ᾎ (1F8E) ᾏ (1F8F) Ὰ (1FBA) Ά (1FBB) ᾼ (1FBC)  ||
 || Ε (0395) || Ἐ (1F18) Ἑ (1F19) Ἒ (1F1A) Ἓ (1F1B) Ἔ (1F1C) Ἕ (1F1D)  ||
 …
 (aber nicht 1 und 2)
+Einträge wie
+Außerdem einige fehlerhafte Einträge:
 || ΁ (0381) || ά (03AC)  ||
 || ΅ (0385) || έ (03AD)  ||
 || · (0387) || ή (03AE)  ||
 || Ή (0389) || ί (03AF)  ||
+sind sehr wahrscheinlich falsch. Diese Regeln sind offenbar nicht oft verwendet worden.
+Diese Einträge enthalten denselben Tippfehler; gemeint ist
+|| α (03B1) || ά (03AC)  ||
+|| ε (03B5) || έ (03AD)  ||
+|| η (03B7) || ή (03AE)  ||
+|| ι (03B9) || ί (03AF)  ||
+Diese Regeln sind offenbar nicht oft verwendet worden.
 …
 In Arboreal werden alle Buchstaben eines Wortes außer dem ersten in Kleinbuchstaben normalisiert. (Ausnahme natürlich u.a. Chinesisch.) Dies fehlt in der Backend-Version.
 In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wassérstrasse und Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße.
+In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wasserstrassé und Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße.
 == 2. Und was bedeutet das? ==