Changes between Version 5 and Version 6 of normalization/2


Ignore:
Timestamp:
Dec 12, 2010, 12:54:26 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/2

    v5 v6  
    11[[PageOutline(1-4,,pullout)]]
    22
    3 == 2. Was bedeuten diese Normalisierungsregeln? ==
     3== 2. Was bedeuten die Normalisierungsregeln? ==
    44
    5 Bei Arboreal ist die orthgraphische Normalisierung schwer zu durchschauen. Das Durcheinander ist durch die Übertragung in das neue Backend noch größer geworden.
     5Die Normalisierungsregeln sind schon in Arboreal bewusst für jede Sprache anders: Zum Beispiel wird "ä" im Lateinischen zu "a", aber im Italienischen bleibt es "ä". Andererseits scheinen einige Normalisierungen in Arboreal ad-hoc-Lösungen zu sein.
    66
    7 Warum auch immer bestimmte Zeichen bei bestimmten Sprachen normalisiert werden, die Menge der Zeichen ist jedenfalls recht bewusst in jeder Sprache anders: Zum Beispiel Italienisch hat nicht alle Zeichen von Latein.
     7Die Normalisierungsregeln für das Backend sind im wesentlichen von Arboreal übernommen. Die Anpassungen im Backend scheinen ad-hoc-Lösungen mit unbedachten Nebeneffekten zu sein. Die folgende Diskussion bezieht sich daher nur auf die Normalisierungsregeln in Arboreal.
     8
     9=== Diakritika ===
    810
    911Malcolm hat grundsätzlich zwischen (heutzutage) als überflüssig erachteten (d.h. meistens der Disambiguierung dienenden) und bedeutungstragenden Diakritika (in der Sprache übliche Zeichen sowie Abkürzungszeichen) unterschieden. Diese Unterscheidung muss für jede Sprache einzeln gemacht werden. Diakritika, die in einer Sprache nicht zu erwarten sind, hat er nicht normalisiert.
     
    1214 * Deutsch: deutsche Umlaute werden zwar normalisiert, aber zum Beispiel drucken und drücken werden nicht gleichgesetzt, sondern drucken und druecken.
    1315 * Griechisch: ά (03AC) wird stillschweigend zu ά (1F71): Argument ist wohl: es zwar falsch im Text, aber es ist eindeutig, was gemeint ist?
     16
     17=== Offene Fragen ===
    1418
    1519Wie erklären sich die Unterschiede zwischen den Sprachen, zum Beispiel bei der Normalisierung des Bindestrichs, oder bei der Definition von Wortgrenzen? Ist das Absicht, oder gab es jeweils irgendeinen konkreten Anlass und wurde dann nicht systematisiert?