Version 1 (modified by 14 years ago) (diff) | ,
---|
2. Was bedeutet das?
Schon bei Arboreal ist die orthgraphische Normalisierung etwas durcheinander, und das Durcheinander ist durch die Übertragung in das neue Backend noch größer geworden.
Es ist außerdem offensichtlich, dass diese Normalisierungsregeln in Arboreal nicht für die Textanzeige gedacht sind. Eine naheliegende Frage ist daher, wo die Normalisierungsregeln überhaupt verwendet werden. Siehe dazu Abschnitt 3.
In Arboreal geht es bei der orthographischen Normalisierung darum, orthographische Varianten von Wortformen zu standardisieren. Das Ziel ist, eine Wortformenliste anzulegen, in der verschiedenen Schreibweisen zur selben normalisierten Form führen, aber verschiedene Wortformen zu verschiedenen Zeichenfolgen normalisiert werden. Es wird dabei aber keine reale Wortform angestrebt, sondern eine Pseudo-Form. Beispiele:
- divisa und diuisa werden zu diuisa (in der linguistic note begründet Malcolm, warum diese Normalierung praktisch nie dazu führt, dass sich fälschlicherweise das Lemma ändert)
- Käse und Kaese werden bei zu Kaese
- 凡古今一言之嘉、寸長可取,必勤勤懇懇而契合焉。 wird zu
- 凡古今一言之嘉,寸長可取,必勤勤懇懇而契合焉.
- πλῆθος wird zu πλῆθοσ
Warum auch immer bestimmte Zeichen bei bestimmten Sprachen normalisiert werden, die Menge der Zeichen ist jedenfalls recht bewusst in jeder Sprache anders: Zum Beispiel Italienisch hat nicht alle Zeichen von Latein.
Malcolm hat grundsätzlich zwischen heutzutage als überflüssig (d.h. meistens der Disambiguierung dienenden) erachteten und bedeutungstragenden Diakritika (in der Sprache übliche Zeichen und Abkürzungszeichen) unterschieden. Diese Unterscheidung muss für jede Sprache einzeln gemacht werden.
- Latein: Zirkumflex û (00FB), ê (00EA) versus Tilde ũ (0169), ẽ (1EBD): hîc wird zu hic und verò wird vero, aber eiuſdẽ wird eiusdẽ und reſiduũ wird residuũ (nur das ſ wird normalisiert).
- Französisch: æ versus œ: ae kann aufgelöst werden, aber es gibt den Buchstaben œ.
- Deutsch: deutsche Umlaute werden zwar normalisiert, aber zum Beispiel drucken und drücken werden nicht gleichgesetzt, sondern drucken und druecken.
- Griechisch: ά (03AC) wird stillschweigend zu ά (1F71): Argument ist wohl: es zwar falsch im Text, aber es ist eindeutig, was gemeint ist?
Wie erklären sich die Unterschiede zwischen den Sprachen, zum Beispiel bei der Normalisierung des Bindestrichs, oder bei der Definition von Wortgrenzen? Ist das Absicht, oder gab es jeweils irgendeinen konkreten Anlass und wurde dann nicht systematisiert?
Inwieweit sind die Regeln veraltet oder noch aktuell? Welche Notwendigkeiten gab es? Insbesondere: Inwieweit gab es Kodierungsprobleme?
Sollen die Arboreal-Regeln wenigstens für einen Wort-Index verwendet werden, oder hat sich das mit eXist und Lucene erledigt?
Latein
Warum werden in Latein (und nur dort) die angle brackets〈 (2329) 〉(232A) aus dem Block "Technische Symbole" (nicht zu verwechseln mit z.B. full-width less/greater than < (FF1E) > (FF1C)) entfernt? Wo kommen die überhaupt vor?
Eine Regeln wie "Æ wird zu Ae" ist hier konsequent, weil alle Buchstaben bis auf den ersten schon in Kleinbuchstaben umgewandelt wurden. Also: ÆQVALIS wird zu Aequalis. Ohne die Umwandlung in Kleinbuchstaben ergibt die Regel für Æ keinen Sinn.
Italienisch
Die algorithmischen Regeln normalisieren in Richtung der heutigen italienischen Orthographie.
(Warum wird Gravis zu Akut?)
Französisch
œ wird nicht normalisiert: Gibt es gibt Minimalpaare œ versus oe?
Deutsch
Warum wird gerade é normalisiert? Französische Fremdwörter?
Chinesisch
Die Normalisierung des fullwith space, der Aufzählungskommas und des Punkts scheint ein Hack für die Wortlistenerstellung in Arboreal zu sein.
Was ist der Sinn, die hochgestellten 1 bis 5 zu normalisieren? Hat das einen Einfluss auf die Wortende-Markierung?
Griechisch
Ich weiß nicht, warum < > [ ] 1 2 getilgt werden. Zum Problem σ versus ς siehe oben.
Die Normalisierung ist, wie gesagt, für die Wortlistenerstellung. Wo findet die Normalisierung für das Wörterbuch statt, oder gibt es die gar nicht, weil das Wörterbuch nur mit Betacode funktioniert? Konkret: Wo wird ὰ (1F70) zu ά (1F71), zum Beispiel ἀλλὰ zu ἀλλά, und das ganze eventuell noch zu Betacode? Offenbar nicht in den von mir untersuchten Klassen. BetaCode.java: ὰ wird zu A\\
(also wohl eigentlich A\
), ά wird zu "A/". Es könnte irgendwo einfach jedes \
zu /
werden, aber ich habe eine solche Stelle nicht gefunden.
Im Backend: Im Text steht πλῆθος und ἀλλὰ. Gefunden wird πλῆθοσ, aber nicht πλῆθος, πληθος, πληθοσ, und ἀλλά, aber nicht ἀλλὰ. Ich weiß nicht, wo ἀλλὰ zu ἀλλά wird.