Changes between Version 1 and Version 2 of normalization/2


Ignore:
Timestamp:
Dec 8, 2010, 5:08:24 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/2

    v1 v2  
    55Schon bei Arboreal ist die orthgraphische Normalisierung etwas durcheinander, und das Durcheinander ist durch die Übertragung in das neue Backend noch größer geworden.
    66
    7 Es ist außerdem offensichtlich, dass diese Normalisierungsregeln in Arboreal nicht für die Textanzeige gedacht sind. Eine naheliegende Frage ist daher, wo die Normalisierungsregeln überhaupt verwendet werden. Siehe dazu [wiki:normalization/3 Abschnitt 3].
    8 
    9 In Arboreal geht es bei der orthographischen Normalisierung darum, orthographische Varianten von Wortformen zu standardisieren. Das Ziel ist, eine Wortformenliste anzulegen, in der verschiedenen Schreibweisen zur selben normalisierten Form führen, aber verschiedene Wortformen zu verschiedenen Zeichenfolgen normalisiert werden. Es wird dabei aber keine reale Wortform angestrebt, sondern eine Pseudo-Form. Beispiele:
    10  * divisa und diuisa werden zu diuisa (in der linguistic note begründet Malcolm, warum diese Normalierung praktisch nie dazu führt, dass sich fälschlicherweise das Lemma ändert)
    11  * Käse und Kaese werden bei zu Kaese
     7Die wichtigste Erkenntnis ist, dass diese Normalisierungsregeln in Arboreal nicht für die Textanzeige gedacht sind, denn die Normalisierungsregeln greifen massiv in die Textgestalt ein. Beispiele:
     8 * divisa wird zu diuisa, volumine wird zu uolumine (in der linguistic note begründet Malcolm, warum diese Normalierung praktisch nie dazu führt, dass sich fälschlicherweise das Lemma ändert)
     9 * Käse und KÄSE werden bei zu Kaese
    1210 * 凡​古​今​一​言​之嘉、寸​長​可​取,必​勤​勤​懇​懇​而​契​合​焉。 wird zu
    1311 * 凡​古​今​一​言​之嘉,寸​長​可​取,必​勤​勤​懇​懇​而​契​合​焉.
    1412 * πλῆθος wird zu πλῆθοσ
     13
     14Eine naheliegende Frage ist daher, wo die Normalisierungsregeln überhaupt verwendet werden. Siehe dazu [wiki:normalization/3 Abschnitt 3].
    1515 
    1616Warum auch immer bestimmte Zeichen bei bestimmten Sprachen normalisiert werden, die Menge der Zeichen ist jedenfalls recht bewusst in jeder Sprache anders: Zum Beispiel Italienisch hat nicht alle Zeichen von Latein.
     
    5757
    5858Ich weiß nicht, warum < > [ ] 1 2 getilgt werden. Zum Problem σ versus ς siehe oben.
    59 
    60 Die Normalisierung ist, wie gesagt, für die Wortlistenerstellung. Wo findet die Normalisierung für das Wörterbuch statt, oder gibt es die gar nicht, weil das Wörterbuch nur mit Betacode funktioniert? Konkret: Wo wird ὰ (1F70) zu ά (1F71), zum Beispiel ἀλλὰ zu ἀλλά, und das ganze eventuell noch zu Betacode? Offenbar nicht in den von mir untersuchten Klassen. !BetaCode.java: ὰ wird zu `A\\` (also wohl eigentlich `A\`), ά wird zu "A/". Es  könnte irgendwo einfach jedes `\` zu `/` werden, aber ich habe eine solche Stelle nicht gefunden.
    61 
    62 Im Backend: Im Text steht πλῆθος und ἀλλὰ. Gefunden wird
    63 [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πλῆθοσ πλῆθοσ], aber nicht [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πλῆθος πλῆθος],
    64 [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πληθος πληθος],
    65 [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πληθοσ πληθοσ], und [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=ἀλλά ἀλλά], aber nicht [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=ἀλλὰ ἀλλὰ]. Ich weiß nicht, wo ἀλλὰ zu ἀλλά wird.