Changes between Version 2 and Version 3 of normalization/3


Ignore:
Timestamp:
Dec 10, 2010, 8:37:25 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/3

    v2 v3  
    33== 3. Wann wird zurzeit normalisiert? ==
    44
    5 Die Arboreal-Regeln sind gar nicht für die Textanzeige gedacht, werden aber im Backend dafür verwendet. Dieser Irrtum ist wohl durch die verwirrende Nomenklatur entstanden: "orthographic normalization" meint in Arboreal und bei uns verschiedene Dinge. Das ist wohl der Grund für die Normalisierungsprobleme, die in den Tickets [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/32 #32] für Chinesisch, [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/50 #50] für Deutsch und möglicherweise [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/64 #64] für Griechisch beschrieben sind.
     5=== Wortformenliste ===
    66
    7 In Arboreal geht es bei der orthographischen Normalisierung darum, orthographische Varianten von Wortformen zu standardisieren. Das Ziel ist, eine Wortformenliste anzulegen, in der verschiedenen Schreibweisen zur selben normalisierten Form führen, aber verschiedene Wortformen zu verschiedenen Zeichenfolgen normalisiert werden. Es wird dabei aber keine reale Wortform angestrebt, sondern eine Pseudo-Form wie uolumine, Kaese oder πλῆθοσ.
     7Die Normalisierungsregeln greifen massiv in die Textgestalt ein. Beispiele:
     8 * divisa wird zu diuisa, volumine wird zu uolumine; Malcolm begündet, warum diese Normalisierung praktisch nie dazu führt, dass sich fälschlicherweise das Lemma ändert: /u/ and /v/ are rarely phonemic in Latin, as in
     9  * alui 's/he nourished' vs. alvi 'of a belly',
     10  * volui 's/he wished' or 'it rolled' vs. volvi 'to be rolled',
     11  * (in)seruit 's/he joined together' vs. (in)servit 's/he serves'.
     12 * Käse und KÄSE werden bei zu Kaese
     13 * 凡​古​今​一​言​之嘉、寸​長​可​取,必​勤​勤​懇​懇​而​契​合​焉。 wird zu [[BR]] 凡​古​今​一​言​之嘉,寸​長​可​取,必​勤​勤​懇​懇​而​契​合​焉.
     14 * πλῆθος wird zu πλῆθοσ
    815
    9 Frage ist nun: Wofür werden die Regeln in Arboreal tatsächlich verwendet?
     16Die Normalisierungsregeln sind also nicht für die Textanzeige gedacht. Stattdessen geht es bei der Normalisierung darum, orthographische Varianten von Wortformen zu standardisieren. Das Ziel ist, eine Wortformenliste anzulegen, in der verschiedenen Schreibweisen zur selben normalisierten Form führen, aber verschiedene Wortformen zu verschiedenen Zeichenfolgen normalisiert werden. Es wird dabei keine reale Wortform angestrebt, sondern eine Pseudo-Form wie uolumine, Kaese oder πλῆθοσ. Es wäre sonst unklar, warum Malcolm die u/v-Regeln nicht einfach vom Italienischen ins Lateinische übernommen hat.
     17
     18Im Backend werden die Normalisierungsregeln aus Arboreal dann für die Textanzeige verwendet. Dieser Irrtum ist wohl durch die verwirrende Nomenklatur entstanden: "orthographic normalization" bedeutet in Arboreal etwas anderes als in unserem Anzeigesystem. Das ist wohl der Grund für die Normalisierungsprobleme, die in den Tickets [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/32 #32] für Chinesisch, [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/50 #50] für Deutsch und möglicherweise [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/64 #64] für Griechisch beschrieben sind.
     19
     20Wofür werden die Regeln in Arboreal tatsächlich verwendet? Gibt es Dokumentation von Malcolm zu diesem Thema?
    1021 * Eigenbedarf von Arboreal zur Index-Erstellung (term list, etc.)
    1122 * Pollux / Donatus ?
    1223 * Änderungen im XML, damit Skripte wie <s> funktionieren ??
    1324
    14 Kennt sich jemand damit aus? Gibt es Dokumentation von Malcolm zu diesem Thema?
     25=== !Pollux/Donatus ===
    1526
    16 Ich vermute, dass die Regeln in Arboreal nicht für !Donatus/Pollux verwendet werden, denn in Arboreal funktioniert die Verbindung zum Wörterbuch nur, wenn der Text in Betacode ist. Falls doch, wo findet die Normalisierung statt? Konkret: Wo wird ὰ (1F70) zu ά (1F71), zum Beispiel ἀλλὰ zu ἀλλά, und das ganze eventuell noch zu Betacode? Offenbar nicht in den von mir untersuchten Klassen. !BetaCode.java: ὰ wird zu `A\\` (also wohl eigentlich `A\`), ά wird zu "A/". Es  könnte irgendwo einfach jedes `\` zu `/` werden, aber ich habe eine solche Stelle nicht gefunden.
     27Ein Kommentar in !ArborApplication.java legt nahe, dass die Normalisierung für Donatus verwendet wird: "Produces an XML document where individual words are normalized, enumerated in their containers, and sorted by language. This format is used by the Donatus system and is intended to make possible lexico-statistical analysis."
    1728
    18 Kommentar in !ArborApplication.java: "Produces an XML document where individual words are normalized, enumerated in their containers, and sorted by language. This format is used by the Donatus system and is intended to make possible lexico-statistical analysis."
     29Ich vermute aber, dass zumindest die Regeln für Unicode-Griechisch nicht für !Donatus/Pollux verwendet werden, denn in Arboreal funktioniert bei griechischem Text die Verbindung zum Wörterbuch nur, wenn der Text in Betacode ist.
     30 * Falls doch, wo findet die Normalisierung statt? Konkret: Wo wird ὰ (1F70) zu ά (1F71), zum Beispiel ἀλλὰ zu ἀλλά, und das ganze eventuell noch zu Betacode? Offenbar nicht in den von mir untersuchten Klassen. !BetaCode.java: ὰ wird zu `A\\` (also wohl eigentlich `A\`), ά wird zu "A/". Es  könnte irgendwo einfach jedes `\` zu `/` werden, aber ich habe eine solche Stelle (noch) nicht gefunden.
     31 * Falls nicht: Wie kommuniziert Arboreal mit !Donatus/Pollux?
    1932
    2033Im Backend: Im Text steht πλῆθος und ἀλλὰ. Gefunden wird
    21 [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πλῆθοσ πλῆθοσ], aber nicht [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πλῆθος πλῆθος],
    22 [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πληθος πληθος],
    23 [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πληθοσ πληθοσ], und [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=ἀλλά ἀλλά], aber nicht [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=ἀλλὰ ἀλλὰ]. Ich weiß nicht, wo ἀλλὰ zu ἀλλά wird.
     34 * [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πλῆθοσ πλῆθοσ], aber nicht [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πλῆθος πλῆθος], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πληθος πληθος], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πληθοσ πληθοσ]
     35 * [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=ἀλλά ἀλλά], aber nicht [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=ἀλλὰ ἀλλὰ]. Ich weiß nicht, wo ἀλλὰ zu ἀλλά wird.
     36
     37=== Weitere Fragen ===
     38
     39 * Inwieweit sind die Regeln veraltet oder noch aktuell? Welche Notwendigkeiten gab es? Insbesondere: Inwieweit gab es Kodierungsprobleme?
     40 * Sollen die Arboreal-Regeln noch für einen Wort-Index verwendet werden, oder hat sich das mit eXist und Lucene erledigt?
     41