wiki:such-modi

Version 2 (modified by Wolfgang Schmidle, 14 years ago) (diff)

--

Such-Modi

Latein

Im Benedetti gibt es die Wortformen "reſiduũ" und "reſiduę". Beides sind Wortformen des Adjektivs residuus. (reſiduũ wird häufiger eine Wortform des Substantivs residuum als des Adjektivs residuus sein, aber ohne weitere Informationen muss das Suchsystem davon ausgehen, dass reſiduũ auch eine Wortform des Adjektivs sein könnte). Die <reg> tags sehen dann so aus:

<reg norm="reſiduum" type="context">reſiduũ</reg>
<reg norm="reſiduae" type="simple">reſiduę</reg>

Verwende folgende Abkürzungen mit O für Original, R für Regularisiert, N für Normalisiert:

O reſiduũ R reſiduum N residuum
O2 reſiduę R2 reſiduae N2 residuae
  1. Wortformsuche: Es sollte möglich sein, nach O zu suchen und alle Fundstellen für genau diese Form zu finden. In diesem Suchmodus würde eine Suche nach N keinen Treffer liefern, denn diese Form gibt es nicht im Text. Eine Suche nach R würde andere Treffer liefern als die Suche nach O. Dieser Suchmodus ist am naheliegendsten, aber wohl am wenigsten wichtig.
  2. normalisierte Wortformsuche: Es sollte möglich sein, nach O zu suchen und alle Fundstellen für O, R und N zu finden. In diesem Suchmodus sollte eine Suche nach N oder R genau die gleichen Fundstellen wie die Suche nach O liefern. Das ist der wichtigere Suchmodus, denn die User werden eher die normalisierte Form N eingeben und würden sich wundern, wenn es keine Treffer gibt.
  3. morphologische Suche: Die morphologische Suche nach O sollte auch zum Beispiel auch O2 finden. Denn O wird normalisiert zu N und O2 wird normalisiert zu N2, und die Formen N und N2 gehören zum gleichen Lemma: O --> N <--> N2 <-- O2. Die Suche nach N oder R sollte wieder genau die gleichen Fundstellen wie die Suche nach O liefern.

Zurzeit kommt nur die Original-Wortform in den Lucene-Index. Entweder muss also die normalisierte Form auch in den Lucene-Index, oder eine Form wie "reſiduũ" muss zumindest wissen, wie ihre regularisierte Version aussieht, aus der man dann wiederum die normalisierte Version ermitteln kann.

Insbesondere die Wortformensuche könnte sich auch unterschiedlich verhalten, je nachdem in welchem Anzeige-Modus (Original, regularisiert, normalisiert) der Text gerade angezeigt wird.