Changes between Version 3 and Version 4 of normalization


Ignore:
Timestamp:
Nov 8, 2010, 4:21:09 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization

    v3 v4  
    2020
    2121";" wird getilgt, wenn das Zeichen direkt davor kein Buchstabe ("Character.isLetter") ist.
     22
     23Malcolm: Linguistic note: /u/ and /v/ are rarely phonemic in Latin, as in
     24  * alui 's/he nourished' vs. alvi 'of a belly',
     25  * volui 's/he wished' or 'it rolled' vs. volvi 'to be rolled',
     26  * (in)seruit 's/he joined together' vs. (in)servit 's/he serves'.
    2227
    2328|| -- || combining ò (0300) combining ó (0301) combining ô (0302) soft hyphen (00AD)  ||
     
    5863 * v wird zu u, wenn direkt davor und danach ein Konsonant (d.h. B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß) steht (hyphen/soft hyphen danach wird übersprungen), außerdem am Anfang eines Wortes oder wenn direkt davor kein Buchstabe ist
    5964 * t: tio wird zu zio (i und o können auch groß sein)
    60  * h am Wortanfang wird in getilgt, außer bei hai, hanno, ho*  ('h' only appears at the beginning of some pres. indic. forms of 'avere' -- with the exception of some unimportant loanwords in modern Italian (which I choose to ignore))
     65 * h am Wortanfang wird getilgt, außer bei hai, hanno, ho*  ('h' only appears at the beginning of some pres. indic. forms of 'avere' -- with the exception of some unimportant loanwords in modern Italian (which I choose to ignore))
    6166 * hyphen/soft hyphen wird vor whitespace getilgt, soft hyphen wird durch hyphen ersetzt
     67
     68Diese Regeln normalisieren in Richtung der heutigen italienischen Orthographie. Beachte den Unterschied zur einfachen Regel "v wird u" im Lateinischen.
    6269
    6370Wortanfang definiert als whitespace oder ’ (2019) oder \
     
    250257In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wasserstrassé und Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße.
    251258
    252 == 2. Und was bedeutet das? ==
     259== 2. Was bedeutet das? ==
    253260
    254261Die wichtigste Frage ist, wo die Normalisierungsregeln überhaupt verwendet werden. Siehe dazu Abschnitt 3.
     
    257264
    258265Die wichtigste Erkenntnis ist, dass die Arboreal-Regeln gar nicht für die Textanzeige gedacht sind, aber im Backend dafür verwendet werden.
    259