Changes between Version 9 and Version 10 of normalization/2


Ignore:
Timestamp:
Jan 17, 2011, 10:04:54 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/2

    v9 v10  
    11[[PageOutline(1-4,,pullout)]]
    22
    3 == 2. Was bedeuten die Normalisierungsregeln? ==
     3[wiki:normalization Regularisierung und Normalisierung],
     4I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7]
     5
     6= 2. Was bedeuten die Normalisierungsregeln? =
    47
    58Normalisierungsregeln sind sprachabhängig. Zum Beispiel wird in Arboreal "ä" im Lateinischen zu "a", aber im Italienischen bleibt es "ä". Die Unterschiede zwischen den einzelnen Sprachen sind in Arboreal wohlüberlegt. Einige Normalisierungen in Arboreal scheinen andererseits ad-hoc-Lösungen zu sein, die wir nicht pauschal übernehmen können. Die Normalisierungen in Arboreal betreffen außerdem nicht die Textanzeige, sondern die Weitergabe der Wörter an Wörterbücher; siehe dazu [wiki:normalization/3 Abschnitt 3].
     
    912Die Regeln könnten ohne weiteres in ''Lex'' implementiert werden und wären dann wohl übersichtlicher als in der Java-Implementation.
    1013
    11 === Diakritika ===
     14== Diakritika ==
    1215
    1316Malcolm hat grundsätzlich zwischen (heutzutage) als überflüssig erachteten (d.h. meistens der Disambiguierung dienenden) und bedeutungstragenden Diakritika (in der Sprache übliche Zeichen sowie Abkürzungszeichen) unterschieden. Diese Unterscheidung muss für jede Sprache einzeln gemacht werden. Diakritika, die in einer Sprache nicht zu erwarten sind, hat er nicht normalisiert.
     
    1720 * Griechisch: ά (03AC) wird stillschweigend zu ά (1F71): Argument ist wohl: es zwar falsch im Text, aber es ist eindeutig, was gemeint ist?
    1821
    19 === Offene Fragen ===
     22== Offene Fragen ==
    2023
    2124Wie erklären sich die Unterschiede zwischen den Sprachen, zum Beispiel bei der Normalisierung des Bindestrichs, oder bei der Definition von Wortgrenzen? Ist das Absicht, oder gab es jeweils irgendeinen konkreten Anlass und wurde dann nicht systematisiert?
    2225
    23 === Latein ===
     26== Latein ==
    2427
    2528Eine Regel wie "Æ wird zu Ae" ist hier konsequent, weil alle Buchstaben bis auf den ersten schon in Kleinbuchstaben umgewandelt wurden. Also: ÆQVALIS wird zu Aequalis. Ohne die Umwandlung in Kleinbuchstaben ergibt die Regel für Æ keinen Sinn.
     
    2932Was bedeutet ç im Lateinischen? Muss es regularisiert werden, oder kann es normalisiert werden?
    3033
    31 === Italienisch ===
     34== Italienisch ==
    3235
    3336Die algorithmischen Regeln normalisieren in Richtung der heutigen italienischen Orthographie.
     
    3538(Warum wird Gravis zu Akut?)
    3639
    37 === Französisch ===
     40== Französisch ==
    3841
    3942œ wird nicht normalisiert: Gibt es gibt Minimalpaare œ versus oe?
    4043
    41 === Deutsch ===
     44== Deutsch ==
    4245 
    4346Warum wird gerade é normalisiert? Französische Fremdwörter?
    4447
    45 === Chinesisch ===
     48== Chinesisch ==
    4649
    4750Die Normalisierung des fullwidth space, der Aufzählungskommas und des chinesischen Punkts scheint ein Hack für die Wortlistenerstellung in Arboreal zu sein.
     
    5154Die Regeln für fullwidth space, Satzzeichen und hochgestellte 1 bis 5 werden von uns nicht übernommen.
    5255 
    53 === Griechisch ===
     56== Griechisch ==
    5457
    5558Ich weiß nicht, warum < > [ ] 1 2 getilgt werden. Zum Problem σ versus ς siehe [wiki:normalization/3 Abschnitt 3].