wiki:such-modi

Version 6 (modified by Wolfgang Schmidle, 15 years ago) (diff)

--

Suche

Such-Modi

Latein

Im Benedetti gibt es die Wortformen "reſiduũ" und "reſiduę". Beides sind Wortformen des Adjektivs residuus. (reſiduũ wird häufiger eine Wortform des Substantivs residuum als des Adjektivs residuus sein, aber ohne weitere Informationen muss das Suchsystem davon ausgehen, dass reſiduũ auch eine Wortform des Adjektivs sein könnte). Die <reg> tags sehen dann so aus:

<reg norm="reſiduum" type="context">reſiduũ</reg>
<reg norm="reſiduae" type="simple">reſiduę</reg>

Verwende folgende Abkürzungen mit O für Original, R für Regularisiert, N für Normalisiert:

O reſiduũ R reſiduum N residuum
O2 reſiduę R2 reſiduae N2 residuae
  1. Wortformsuche (alle Wortformen in der Tabelle sind verschieden): Es sollte möglich sein, nach O zu suchen und alle Fundstellen für genau diese Form zu finden. In diesem Suchmodus würde eine Suche nach N keinen Treffer liefern, denn diese Form gibt es nicht im Text. Eine Suche nach R würde andere Treffer liefern als die Suche nach O. Dieser Suchmodus ist am naheliegendsten, aber wohl am wenigsten wichtig.
  2. normalisierte Wortformsuche (die Zeilen der Tabelle sind verschieden, aber innerhalb einer Zeile sind alle Wortformen äquivalent): Es sollte möglich sein, nach O zu suchen und alle Fundstellen für O, R und N zu finden. In diesem Suchmodus sollte eine Suche nach N oder R genau die gleichen Fundstellen wie die Suche nach O liefern. Das ist der wichtigere Suchmodus, denn die User werden eher die normalisierte Form N eingeben und würden sich wundern, wenn es keine Treffer gibt.
  3. morphologische Suche (alle Wortformen in der Tabelle sind äquivalent): Die morphologische Suche nach O sollte auch zum Beispiel auch O2 finden. Denn O wird normalisiert zu N und O2 wird normalisiert zu N2, und die Formen N und N2 gehören zum gleichen Lemma: O --> N <--> N2 <-- O2. Die Suche nach N oder R sollte wieder genau die gleichen Fundstellen wie die Suche nach O liefern.

Zurzeit kommt nur die Original-Wortform in den Lucene-Index. Vor der Änderung von <reg> ist die regularisierte Form in den Lucene-Index gekommen. Für die morphologische Suche muss eine Wortform wie reſiduũ aber "wissen", wie ihre regularisierte Version aussieht, aus der man dann wiederum die normalisierte Version ermitteln kann.

Insbesondere die Wortformensuche könnte sich auch unterschiedlich verhalten, je nachdem in welchem Anzeige-Modus (Original, regularisiert, normalisiert) der Text gerade angezeigt wird.

Chinesisch

Auf alle Fälle soll die Suche nach 歷 auch 歴 (und andersrum!) finden.

Groß- und Kleinschreibung

Zurzeit wird in der Metadaten- und der Volltext-Suche die Groß- und Kleinschreibung berücksichtigt.

Der User erwartet aber sowohl bei der Volltextsuche als auch bei der Metadatensuche, dass Groß-/Kleinschreibung ignoriert wird, wie bei Google. Damit, dass "benedetti" nicht "Benedetti" findet, rechnet heutzutage keiner mehr.

Vorschlag: Man kann bei einer erweiterten Suche ein Häkchen machen, dass Groß-/Kleinschreibung beachtet werden soll, aber default bei der erweiterten Suche (und einzige Möglichkeit bei der einfachen Suche) ist, sie zu ignorieren.

XQuery

XQuery ist global über den ganzen Dokumentenbestand. Außerdem ist der gesamte Dokumentenbestand in eXist verdoppelt. Eine XQuery-Suche ist nicht auf der Startseite, sondern nur bei einzelnen Texten möglich. Bisher ist Benedetti der einzige Text, der <reg> enthält. Die Suche mit "echo:reg" liefert als XPath-Suche 5128 hits, als XQuery-Suche dagegen wegen der Verdoppelung des Dokumentenbestands 10256 hits, also doppelt so viele.

Diese "Schatten-Dokumente" kommen (zum Glück) nicht in der Dokumentenliste vor, die man erhält, wenn man auf "browse" klickt. Das heißt, aus der Sicht des Users gibt es diese Schatten-Dokumente nicht. Deshalb sollte XQuery auch keine Ergebnisse aus diesen Dokumenten liefern. Sonst findet man hits in Dokumenten, die es laut Liste gar nicht gibt. Vom User eine XQuery wie "collection('/db/mpdl/documents/standard')echo:reg" zu erwarten, ist unglücklich.

Wenn eine XQuery immer global ist, warum kann man dann auf der Startseite keine XQuery-Suche machen? Wenn man bei einem konkreten Dokument wie Benedetti ist, würde der User dagegen erwarten, dass ich zumindest die Option habe, dass sich meine XQuery-Suche wie bei XPath nur auf dieses eine Dokument bezieht.