Context Navigation

Changes between Version 10 and Version 11 of normalization/1

Timestamp:: Jan 17, 2011, 10:03:18 AM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/1

-                      v10
+                      v11
 [[PageOutline(1-4,,pullout)]]
+== 1. Wie werden Wörter zurzeit normalisiert? ==
+[wiki:normalization Regularisierung und Normalisierung],
+I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7]
+= 1. Wie werden Wörter zurzeit normalisiert? =
 In Arboreal wird jede Sprache getrennt normalisiert. Im folgenden gehe ich die Sprachen einzeln durch. Zuerst werden jeweils die Normalisierungen in der Arboreal-Klasse [attachment:OrthographicRules.java] aufgelistet, danach werden die Änderungen in der Backend-Klasse [attachment:MpdlNormalizer.java] (siehe auch [source:hg/software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlNormalizer.java hier]) aufgelistet.
 …
 bedeutet, dass æ und ę zu ae normalisiert werden. "--" bedeutet, dass die Form ganz getilgt wird. Bei ''combining characters'' habe ich jeweils ein o dazugemacht, damit man den combining character besser erkennen kann.
 === Ersetzungsregeln ===
+== Ersetzungsregeln ==
 In Arboreal wird zuerst die Groß- und Kleinschreibung normalisiert: Alle Buchstaben eines Wortes außer dem ersten werden zu Kleinbuchstaben, und zwar bei Sprachen auf Basis des lateinischen Alphabets und bei Griechisch. In der Backend-Version wurde dies weggelassen.
 …
  * Die Regeln beziehen sich immer das Originalwort, d.h. wenn in einem Wort bereits Änderungen gemacht wurden, wissen die Regeln für die nächsten Buchstaben des Wortes noch nichts davon. Beispiel: PARVVS wird erst zu Parvvs, dann wird es buchstabenweise zu Paruus. Nachdem das erste v in u umgewandelt wurde, ist zweite v trotzdem noch zwischen v und s und wird deshalb ebenfalls umgewandelt.
 === Latein ===
+== Latein ==
 || i || j ||
 …
 Insbesondere wird jetzt auch ẽ (1EBD) normalisiert.
 === Italienisch ===
+== Italienisch ==
 Regeln für u/v:
 …
  * Die zusätzlichen e-Varianten sind ebenfalls nicht übernommen, stattdessen eine neue Regel "ẍ (1E8D) wird zu e" (gemeint ist ẽ (1EBD), was auch in den zusätzlichen Regeln für Latein vorkommt).
 === Englisch ===
+== Englisch ==
 Englisch fehlt in Arboreal.
 …
 Backend: wie bei Latein; wieder ohne j, v, "q;", ";", aber mit combining characters, soft hyphen, 〈 〉. Wieder zusätzlich mit ẍ (1E8D).
 === Französisch ===
+== Französisch ==
 Regeln für u und v genau wie bei Italienisch, mit dem gleichen Programmfehler.
 …
 Backend: Regeln für u und v weggelassen. Ansonsten wie bei Arboreal.
 === Deutsch ===
+== Deutsch ==
 In Arboreal eine andere Definition für Wortanfang ("beginWord") als zum Beispiel im Italienischen: nach Whitespace und . , : ; ? ! ( < [ ' " ‘ “ (wird nur dafür verwendet, das Wort ab dem zweiten Buchstaben in Kleinbuchstaben umzuwandeln)
 …
 Backend: genauso
 === Niederländisch ===
+== Niederländisch ==
 Für Niederländisch gibt es weder in Arboreal noch im Backend Normalisierungsregeln.
 === Chinesisch ===
+== Chinesisch ==
 || " " || "　" (3000)  ||
 …
 === Arabisch ===
+== Arabisch ==
 Trage ich bei Interesse nach.
 …
 (fehlt im Backend)
 === Keilschrift ===
+== Keilschrift ==
 Das meint:
 …
 (Backend: wie bei Arboreal)
 === Griechisch ===
+== Griechisch ==
 || σ (03C3) || ς (03C2)  ||
 …
 Backend: genauso
 === Weiteres ===
+== Weiteres ==
 In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wasserstrassé und Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße.