Changes between Version 1 and Version 2 of normalization
- Timestamp:
- Nov 8, 2010, 12:59:32 PM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization
v1 v2 2 2 3 3 [[PageOutline(1-4,,pullout)]] 4 5 == Zusammenfassung == 4 6 5 7 == 1. Wie werden Wörter zurzeit normalisiert? == … … 40 42 || -- || 〈 (2329) 〉 (232A) || 41 43 44 45 Beachte: Zirkumflex (z.B. û 00FB, ê 00EA) wird normalisiert, aber nicht Tilde (z.B. ũ 0169, ẽ 1EBD) 46 42 47 Backend zusätzlich: 43 48 … … 179 184 || -- || hyphen (002D) soft hyphen (00AD) || 180 185 181 Optisch identisch, aber Tonos wird zu Oxia.186 Optisch identisch, aber "Tonos" (der monotonische Akzent im modernen Griechisch) wird zu "Oxia" (der Akut im Altgriechischen). 182 187 183 188 Tippfehler: \uu1f7d statt \u1f7d bei ώ … … 186 191 187 192 188 === Griechisch ohne Akzente===189 190 Greek Atonic ("el_atonic" ") meint, dass alle Akzente und Spiritusweggelassen werden. Normales modernes Griechisches hat dagegen noch Betonungszeichen (Oxia) bei mehrsilbigen Wörtern.193 === Griechisch ohne Diakritika === 194 195 Greek Atonic ("el_atonic") meint, dass alle Diakritika, d.h. Akzente, Spiritus, Trema ("dialytika", ϋ 03CB) und Iota subscriptum/adscriptum, weggelassen werden. Normales modernes Griechisches hat dagegen noch Betonungszeichen (Oxia) bei mehrsilbigen Wörtern. 191 196 192 197 || σ (03C3) || ς (03C2) || … … 194 199 "map characters with diacritics to their plain equivalent": 195 200 196 || (0381) || ά (03AC) ||197 || ΅ (0385) || έ (03AD) ||198 || · (0387) || ή (03AE) ||199 || Ή (0389) || ί (03AF) ||200 201 || Α (0391) || Ἀ (1F08) Ἁ (1F09) Ἂ (1F0A) Ἃ (1F0B) Ἄ (1F0C) Ἅ (1F0D) Ἆ (1F0E) Ἇ (1F0F) ᾈ (1F88) ᾉ (1F89) ᾊ (1F8A) ᾋ (1F8B) ᾌ (1F8C) ᾍ (1F8D) ᾎ (1F8E) ᾏ (1F8F) Ὰ (1FBA) Ά (1FBB) ᾼ (1FBC) || 201 202 || Ε (0395) || Ἐ (1F18) Ἑ (1F19) Ἒ (1F1A) Ἓ (1F1B) Ἔ (1F1C) Ἕ (1F1D) || … … 221 222 (aber nicht 1 und 2) 222 223 223 Einträge wie 224 Außerdem einige fehlerhafte Einträge: 225 224 226 || (0381) || ά (03AC) || 225 227 || ΅ (0385) || έ (03AD) || 226 228 || · (0387) || ή (03AE) || 227 229 || Ή (0389) || ί (03AF) || 228 sind sehr wahrscheinlich falsch. Diese Regeln sind offenbar nicht oft verwendet worden. 230 231 Diese Einträge enthalten denselben Tippfehler; gemeint ist 232 233 || α (03B1) || ά (03AC) || 234 || ε (03B5) || έ (03AD) || 235 || η (03B7) || ή (03AE) || 236 || ι (03B9) || ί (03AF) || 237 238 Diese Regeln sind offenbar nicht oft verwendet worden. 229 239 230 240 … … 235 245 In Arboreal werden alle Buchstaben eines Wortes außer dem ersten in Kleinbuchstaben normalisiert. (Ausnahme natürlich u.a. Chinesisch.) Dies fehlt in der Backend-Version. 236 246 237 In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wass érstrasseund Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße.247 In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wasserstrassé und Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße. 238 248 239 249 == 2. Und was bedeutet das? ==