Context Navigation

Changes between Version 7 and Version 8 of normalization/1

Timestamp:: Dec 18, 2010, 10:16:08 AM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/1

-                      v7
+                      v8
 == 1. Wie werden Wörter zurzeit normalisiert? ==
 In Arboreal wird jede Sprache getrennt normalisiert. Im folgenden gehe ich die Sprachen einzeln durch. Zuerst werden jeweils die Normalisierungen in der Arboreal-Klasse [attachment:OrthographicRules.java OrthographicRules] aufgelistet, danach werden die Änderungen in der Backend-Klasse [attachment:MpdlNormalizer.java MpdlNormalizer] (siehe auch [source:hg/software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlNormalizer.java hier]) aufgelistet.
+In Arboreal wird jede Sprache getrennt normalisiert. Im folgenden gehe ich die Sprachen einzeln durch. Zuerst werden jeweils die Normalisierungen in der Arboreal-Klasse [attachment:OrthographicRules.java] aufgelistet, danach werden die Änderungen in der Backend-Klasse [attachment:MpdlNormalizer.java] (siehe auch [source:hg/software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlNormalizer.java hier]) aufgelistet.
 In den Tabellen wird immer zuerst die normalisierte Form genannt, und dann alle Formen, die in dieselbe Form normalisiert werden. Beispiel:
 || ae || æ (00E6) ę (0119)  ||
 bedeutet, dass æ und ę zu ae normalisiert werden. "--" bedeutet, dass die Form ganz getilgt wird. Bei ''combining characters'' habe ich jeweils ein o dazugemacht, damit man den combining character besser erkennen kann.
+=== Ersetzungsregeln ===
+In Arboreal werden zuerst alle Buchstaben eines Wortes außer dem ersten zu Kleinbuchstaben normalisiert (Ausnahme natürlich u.a. Chinesisch). In der Backend-Version wurde dies weggelassen.
+Die Regeln gehen dann so vor: Ein Wort wird Buchstabe für Buchstabe durchgegangen. Es wird entschieden, wodurch jeder Buchstabe ersetzt werden soll, und daraus ein neues Wort zusammengesetzt.
+ * Die meisten Buchstaben werden durch sich selbst ersetzt, d.h. es gibt keine Änderung. Beispiel: a bleibt a.
+ * Es gibt Regeln für Buchstaben-Sequenzen. Beispiel: ij wird im Italienischen zu ii.
+ * Die meisten Ersetzungsregeln sind kontextlos. Beispiel: ſ wird im Lateinischen immer durch s ersetzt.
+ * Einige Regeln sind kontextabhängig. Es wird entweder geprüft, ob ein Buchstabe am Anfang oder Ende eines Wortes steht, oder was für ein Buchstabe davor oder danach kommt. Beispiel: Im Italienischen wird u zu v, wenn vor und nach dem u ein Vokal ist.
+ * Die Regeln beziehen sich immer das Originalwort, d.h. wenn in einem Wort bereits Änderungen gemacht wurden, wissen die Regeln für die nächsten Buchstaben des Wortes noch nichts davon. Beispiel: PARVVS wird erst zu Parvvs, dann wird es buchstabenweise zu Paruus. Nachdem das erste v in u umgewandelt wurde, ist zweite v trotzdem noch zwischen v und s und wird deshalb ebenfalls umgewandelt.
 === Latein ===
 …
  * u wird zu v, wenn direkt davor und danach ein Vokal (d.h. A E I O U Æ Œ in groß/klein) steht (hyphen/soft hyphen davor wird übersprungen)
  * v wird zu u, wenn direkt davor und danach ein Konsonant (d.h. B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß) steht (hyphen/soft hyphen danach wird übersprungen). Am Anfang eines Wortes oder wenn direkt davor kein Buchstabe ist, reicht ein Konsonant danach.
 Die Regeln für u/v stehen im Gegensatz zur einfachen Regel "v wird zu u" im Lateinischen. Lateinische Beispiele für Malcolms Algorithmus:
+Die Regeln für u/v stehen im Gegensatz zur einfachen Regel "v wird zu u" im Lateinischen. Lateinische Beispiele für Malcolms Algorithmus (zusammen mit den Regeln für ſ und für Großbuchstaben):
 || vnum || unum ||
 || diuerſarum || diversarum ||
 || DIVERSARVM || DIVERSARUM ||
 || PARVVS || PARUUS ||
+|| DIVERSARVM || Diversarum ||
+|| PARVVS || Paruus ||
 || octauum || octavum ||
 || loquuti || loquuti ||
 …
 === Weiteres ===
-In Arboreal werden alle Buchstaben eines Wortes außer dem ersten zu Kleinbuchstaben normalisiert (Ausnahme natürlich u.a. Chinesisch). In der Backend-Version wurde dies weggelassen.
 In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wasserstrassé und Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße.