Changes between Version 1 and Version 2 of normalization


Ignore:
Timestamp:
Nov 8, 2010, 12:59:32 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization

    v1 v2  
    22
    33[[PageOutline(1-4,,pullout)]]
     4
     5== Zusammenfassung ==
    46
    57== 1. Wie werden Wörter zurzeit normalisiert? ==
     
    4042|| -- || 〈 (2329) 〉 (232A)  ||
    4143
     44
     45Beachte: Zirkumflex (z.B. û 00FB, ê 00EA) wird normalisiert, aber nicht Tilde (z.B. ũ 0169, ẽ 1EBD)
     46
    4247Backend zusätzlich:
    4348
     
    179184|| -- || hyphen (002D) soft hyphen (00AD)  ||
    180185
    181 Optisch identisch, aber Tonos wird zu Oxia.
     186Optisch identisch, aber "Tonos" (der monotonische Akzent im modernen Griechisch) wird zu "Oxia" (der Akut im Altgriechischen).
    182187
    183188Tippfehler: \uu1f7d statt \u1f7d bei ώ
     
    186191
    187192
    188 === Griechisch ohne Akzente ===
    189 
    190 Greek Atonic ("el_atonic"") meint, dass alle Akzente und Spiritus weggelassen werden. Normales modernes Griechisches hat dagegen noch Betonungszeichen (Oxia) bei mehrsilbigen Wörtern.
     193=== Griechisch ohne Diakritika ===
     194
     195Greek Atonic ("el_atonic") meint, dass alle Diakritika, d.h. Akzente, Spiritus, Trema ("dialytika", ϋ 03CB) und Iota subscriptum/adscriptum, weggelassen werden. Normales modernes Griechisches hat dagegen noch Betonungszeichen (Oxia) bei mehrsilbigen Wörtern.
    191196
    192197|| σ (03C3) || ς (03C2)  ||
     
    194199"map characters with diacritics to their plain equivalent":
    195200
    196 || ΁ (0381) || ά (03AC)  ||
    197 || ΅ (0385) || έ (03AD)  ||
    198 || · (0387) || ή (03AE)  ||
    199 || Ή (0389) || ί (03AF)  ||
    200201|| Α (0391) || Ἀ (1F08) Ἁ (1F09) Ἂ (1F0A) Ἃ (1F0B) Ἄ (1F0C) Ἅ (1F0D) Ἆ (1F0E) Ἇ (1F0F) ᾈ (1F88) ᾉ (1F89) ᾊ (1F8A) ᾋ (1F8B) ᾌ (1F8C) ᾍ (1F8D) ᾎ (1F8E) ᾏ (1F8F) Ὰ (1FBA) Ά (1FBB) ᾼ (1FBC)  ||
    201202|| Ε (0395) || Ἐ (1F18) Ἑ (1F19) Ἒ (1F1A) Ἓ (1F1B) Ἔ (1F1C) Ἕ (1F1D)  ||
     
    221222(aber nicht 1 und 2)
    222223
    223 Einträge wie
     224Außerdem einige fehlerhafte Einträge:
     225
    224226|| ΁ (0381) || ά (03AC)  ||
    225227|| ΅ (0385) || έ (03AD)  ||
    226228|| · (0387) || ή (03AE)  ||
    227229|| Ή (0389) || ί (03AF)  ||
    228 sind sehr wahrscheinlich falsch. Diese Regeln sind offenbar nicht oft verwendet worden.
     230
     231Diese Einträge enthalten denselben Tippfehler; gemeint ist
     232
     233|| α (03B1) || ά (03AC)  ||
     234|| ε (03B5) || έ (03AD)  ||
     235|| η (03B7) || ή (03AE)  ||
     236|| ι (03B9) || ί (03AF)  ||
     237
     238Diese Regeln sind offenbar nicht oft verwendet worden.
    229239
    230240
     
    235245In Arboreal werden alle Buchstaben eines Wortes außer dem ersten in Kleinbuchstaben normalisiert. (Ausnahme natürlich u.a. Chinesisch.) Dies fehlt in der Backend-Version.
    236246
    237 In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wassérstrasse und Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße.
     247In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wasserstrassé und Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße.
    238248
    239249== 2. Und was bedeutet das? ==