Changes between Version 9 and Version 10 of normalization/2
- Timestamp:
- Jan 17, 2011, 10:04:54 AM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/2
v9 v10 1 1 [[PageOutline(1-4,,pullout)]] 2 2 3 == 2. Was bedeuten die Normalisierungsregeln? == 3 [wiki:normalization Regularisierung und Normalisierung], 4 I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7] 5 6 = 2. Was bedeuten die Normalisierungsregeln? = 4 7 5 8 Normalisierungsregeln sind sprachabhängig. Zum Beispiel wird in Arboreal "ä" im Lateinischen zu "a", aber im Italienischen bleibt es "ä". Die Unterschiede zwischen den einzelnen Sprachen sind in Arboreal wohlüberlegt. Einige Normalisierungen in Arboreal scheinen andererseits ad-hoc-Lösungen zu sein, die wir nicht pauschal übernehmen können. Die Normalisierungen in Arboreal betreffen außerdem nicht die Textanzeige, sondern die Weitergabe der Wörter an Wörterbücher; siehe dazu [wiki:normalization/3 Abschnitt 3]. … … 9 12 Die Regeln könnten ohne weiteres in ''Lex'' implementiert werden und wären dann wohl übersichtlicher als in der Java-Implementation. 10 13 11 == = Diakritika ===14 == Diakritika == 12 15 13 16 Malcolm hat grundsätzlich zwischen (heutzutage) als überflüssig erachteten (d.h. meistens der Disambiguierung dienenden) und bedeutungstragenden Diakritika (in der Sprache übliche Zeichen sowie Abkürzungszeichen) unterschieden. Diese Unterscheidung muss für jede Sprache einzeln gemacht werden. Diakritika, die in einer Sprache nicht zu erwarten sind, hat er nicht normalisiert. … … 17 20 * Griechisch: ά (03AC) wird stillschweigend zu ά (1F71): Argument ist wohl: es zwar falsch im Text, aber es ist eindeutig, was gemeint ist? 18 21 19 == = Offene Fragen ===22 == Offene Fragen == 20 23 21 24 Wie erklären sich die Unterschiede zwischen den Sprachen, zum Beispiel bei der Normalisierung des Bindestrichs, oder bei der Definition von Wortgrenzen? Ist das Absicht, oder gab es jeweils irgendeinen konkreten Anlass und wurde dann nicht systematisiert? 22 25 23 == = Latein ===26 == Latein == 24 27 25 28 Eine Regel wie "Æ wird zu Ae" ist hier konsequent, weil alle Buchstaben bis auf den ersten schon in Kleinbuchstaben umgewandelt wurden. Also: ÆQVALIS wird zu Aequalis. Ohne die Umwandlung in Kleinbuchstaben ergibt die Regel für Æ keinen Sinn. … … 29 32 Was bedeutet ç im Lateinischen? Muss es regularisiert werden, oder kann es normalisiert werden? 30 33 31 == = Italienisch ===34 == Italienisch == 32 35 33 36 Die algorithmischen Regeln normalisieren in Richtung der heutigen italienischen Orthographie. … … 35 38 (Warum wird Gravis zu Akut?) 36 39 37 == = Französisch ===40 == Französisch == 38 41 39 42 œ wird nicht normalisiert: Gibt es gibt Minimalpaare œ versus oe? 40 43 41 == = Deutsch ===44 == Deutsch == 42 45 43 46 Warum wird gerade é normalisiert? Französische Fremdwörter? 44 47 45 == = Chinesisch ===48 == Chinesisch == 46 49 47 50 Die Normalisierung des fullwidth space, der Aufzählungskommas und des chinesischen Punkts scheint ein Hack für die Wortlistenerstellung in Arboreal zu sein. … … 51 54 Die Regeln für fullwidth space, Satzzeichen und hochgestellte 1 bis 5 werden von uns nicht übernommen. 52 55 53 == = Griechisch ===56 == Griechisch == 54 57 55 58 Ich weiß nicht, warum < > [ ] 1 2 getilgt werden. Zum Problem σ versus ς siehe [wiki:normalization/3 Abschnitt 3].