Changes between Version 2 and Version 3 of normalization/2


Ignore:
Timestamp:
Dec 10, 2010, 8:22:58 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/2

    v2 v3  
    33== 2. Was bedeutet das? ==
    44
    5 Schon bei Arboreal ist die orthgraphische Normalisierung etwas durcheinander, und das Durcheinander ist durch die Übertragung in das neue Backend noch größer geworden.
     5Bei Arboreal ist die orthgraphische Normalisierung schwer zu durchschauen. Das Durcheinander ist durch die Übertragung in das neue Backend noch größer geworden.
    66
    7 Die wichtigste Erkenntnis ist, dass diese Normalisierungsregeln in Arboreal nicht für die Textanzeige gedacht sind, denn die Normalisierungsregeln greifen massiv in die Textgestalt ein. Beispiele:
    8  * divisa wird zu diuisa, volumine wird zu uolumine (in der linguistic note begründet Malcolm, warum diese Normalierung praktisch nie dazu führt, dass sich fälschlicherweise das Lemma ändert)
    9  * Käse und KÄSE werden bei zu Kaese
    10  * 凡​古​今​一​言​之嘉、寸​長​可​取,必​勤​勤​懇​懇​而​契​合​焉。 wird zu
    11  * 凡​古​今​一​言​之嘉,寸​長​可​取,必​勤​勤​懇​懇​而​契​合​焉.
    12  * πλῆθος wird zu πλῆθοσ
    13 
    14 Eine naheliegende Frage ist daher, wo die Normalisierungsregeln überhaupt verwendet werden. Siehe dazu [wiki:normalization/3 Abschnitt 3].
    15  
    167Warum auch immer bestimmte Zeichen bei bestimmten Sprachen normalisiert werden, die Menge der Zeichen ist jedenfalls recht bewusst in jeder Sprache anders: Zum Beispiel Italienisch hat nicht alle Zeichen von Latein.
    178
    18 Malcolm hat grundsätzlich zwischen heutzutage als überflüssig (d.h. meistens der Disambiguierung dienenden) erachteten und bedeutungstragenden Diakritika (in der Sprache übliche Zeichen und Abkürzungszeichen) unterschieden. Diese Unterscheidung muss für jede Sprache einzeln gemacht werden.
    19  * Latein: Zirkumflex û (00FB), ê (00EA) versus Tilde ũ (0169), ẽ (1EBD): hîc wird zu hic und verò wird vero, aber eiuſdẽ wird eiusdẽ und reſiduũ wird residuũ (nur das ſ wird normalisiert).
    20  * Französisch: æ versus œ: ae kann aufgelöst werden, aber es gibt den Buchstaben œ.
     9Malcolm hat grundsätzlich zwischen (heutzutage) als überflüssig erachteten (d.h. meistens der Disambiguierung dienenden) und bedeutungstragenden Diakritika (in der Sprache übliche Zeichen sowie Abkürzungszeichen) unterschieden. Diese Unterscheidung muss für jede Sprache einzeln gemacht werden. Diakritika, die in einer Sprache nicht zu erwarten sind, hat er nicht normalisiert.
     10 * Latein: Zirkumflex û ê versus Tilde ũ ẽ: hîc wird zu hic und verò wird vero, aber eiuſdẽ wird eiusdẽ und reſiduũ wird residuũ (nur das ſ wird normalisiert).
     11 * Französisch: æ versus œ: æ kann aufgelöst werden, aber es gibt den Buchstaben œ.
    2112 * Deutsch: deutsche Umlaute werden zwar normalisiert, aber zum Beispiel drucken und drücken werden nicht gleichgesetzt, sondern drucken und druecken.
    2213 * Griechisch: ά (03AC) wird stillschweigend zu ά (1F71): Argument ist wohl: es zwar falsch im Text, aber es ist eindeutig, was gemeint ist?
     
    2415Wie erklären sich die Unterschiede zwischen den Sprachen, zum Beispiel bei der Normalisierung des Bindestrichs, oder bei der Definition von Wortgrenzen? Ist das Absicht, oder gab es jeweils irgendeinen konkreten Anlass und wurde dann nicht systematisiert?
    2516
    26 Inwieweit sind die Regeln veraltet oder noch aktuell? Welche Notwendigkeiten gab es? Insbesondere: Inwieweit gab es Kodierungsprobleme?
    27 
    28 Sollen die Arboreal-Regeln wenigstens für einen Wort-Index verwendet werden, oder hat sich das mit eXist und Lucene erledigt?
    29 
    3017=== Latein ===
    3118
    32 Warum werden in Latein (und nur dort) die angle brackets〈 (2329) 〉(232A) aus dem Block "Technische Symbole" (nicht zu verwechseln mit z.B. full-width less/greater than < (FF1E) > (FF1C)) entfernt? Wo kommen die überhaupt vor?
     19Eine Regel wie "Æ wird zu Ae" ist hier konsequent, weil alle Buchstaben bis auf den ersten schon in Kleinbuchstaben umgewandelt wurden. Also: ÆQVALIS wird zu Aequalis. Ohne die Umwandlung in Kleinbuchstaben ergibt die Regel für Æ keinen Sinn.
    3320
    34 Eine Regeln wie "Æ wird zu Ae" ist hier konsequent, weil alle Buchstaben bis auf den ersten schon in Kleinbuchstaben umgewandelt wurden. Also: ÆQVALIS wird zu Aequalis. Ohne die Umwandlung in Kleinbuchstaben ergibt die Regel für Æ keinen Sinn.
     21Warum werden in Latein (und nur dort) die angle brackets〈 (2329) 〉(232A) aus dem Block "Technische Symbole" (nicht zu verwechseln mit z.B. full-width less/greater than < (FF1E) > (FF1C)) entfernt? Wo kommen die überhaupt vor? War es ein Hack für einen einzelnen Text?
    3522
    3623=== Italienisch ===
     
    5037=== Chinesisch ===
    5138
    52 Die Normalisierung des fullwith space, der Aufzählungskommas und des Punkts scheint ein Hack für die Wortlistenerstellung in Arboreal zu sein.
     39Die Normalisierung des fullwidth space, der Aufzählungskommas und des Punkts scheint ein Hack für die Wortlistenerstellung in Arboreal zu sein.
    5340
    54 Was ist der Sinn, die hochgestellten 1 bis 5 zu normalisieren? Hat das einen Einfluss auf die Wortende-Markierung?
     41Was ist der Sinn, die hochgestellten Zahlen 1 bis 5 zu normalisieren? War es ein Hack für einen einzelnen Text? Hat das einen Einfluss auf die Wortende-Markierung?
    5542 
    5643=== Griechisch ===
    5744
    58 Ich weiß nicht, warum < > [ ] 1 2 getilgt werden. Zum Problem σ versus ς siehe oben.
     45Ich weiß nicht, warum < > [ ] 1 2 getilgt werden. Zum Problem σ versus ς siehe [wiki:normalization/3 Abschnitt 3].
     46
     47Die Tippfehler in "el_atonic" legen nahe, dass die Regeln für Griechisch ohne Diakritika nicht oft verwendet worden sind.