wiki:normalization/3

Version 2 (modified by Wolfgang Schmidle, 13 years ago) (diff)

--

3. Wann wird zurzeit normalisiert?

Die Arboreal-Regeln sind gar nicht für die Textanzeige gedacht, werden aber im Backend dafür verwendet. Dieser Irrtum ist wohl durch die verwirrende Nomenklatur entstanden: "orthographic normalization" meint in Arboreal und bei uns verschiedene Dinge. Das ist wohl der Grund für die Normalisierungsprobleme, die in den Tickets #32 für Chinesisch, #50 für Deutsch und möglicherweise #64 für Griechisch beschrieben sind.

In Arboreal geht es bei der orthographischen Normalisierung darum, orthographische Varianten von Wortformen zu standardisieren. Das Ziel ist, eine Wortformenliste anzulegen, in der verschiedenen Schreibweisen zur selben normalisierten Form führen, aber verschiedene Wortformen zu verschiedenen Zeichenfolgen normalisiert werden. Es wird dabei aber keine reale Wortform angestrebt, sondern eine Pseudo-Form wie uolumine, Kaese oder πλῆθοσ.

Frage ist nun: Wofür werden die Regeln in Arboreal tatsächlich verwendet?

  • Eigenbedarf von Arboreal zur Index-Erstellung (term list, etc.)
  • Pollux / Donatus ?
  • Änderungen im XML, damit Skripte wie <s> funktionieren ??

Kennt sich jemand damit aus? Gibt es Dokumentation von Malcolm zu diesem Thema?

Ich vermute, dass die Regeln in Arboreal nicht für Donatus/Pollux verwendet werden, denn in Arboreal funktioniert die Verbindung zum Wörterbuch nur, wenn der Text in Betacode ist. Falls doch, wo findet die Normalisierung statt? Konkret: Wo wird ὰ (1F70) zu ά (1F71), zum Beispiel ἀλλὰ zu ἀλλά, und das ganze eventuell noch zu Betacode? Offenbar nicht in den von mir untersuchten Klassen. BetaCode.java: ὰ wird zu A\\ (also wohl eigentlich A\), ά wird zu "A/". Es könnte irgendwo einfach jedes \ zu / werden, aber ich habe eine solche Stelle nicht gefunden.

Kommentar in ArborApplication.java: "Produces an XML document where individual words are normalized, enumerated in their containers, and sorted by language. This format is used by the Donatus system and is intended to make possible lexico-statistical analysis."

Im Backend: Im Text steht πλῆθος und ἀλλὰ. Gefunden wird πλῆθοσ, aber nicht πλῆθος, πληθος, πληθοσ, und ἀλλά, aber nicht ἀλλὰ. Ich weiß nicht, wo ἀλλὰ zu ἀλλά wird.