Context Navigation

Changes between Version 46 and Version 47 of normalization/6

Timestamp:: Dec 21, 2010, 2:12:57 PM (13 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/6

-                      v46
+                      v47
  * Ich gehe davon aus, dass die Wahl der Sprachschicht sich sowohl auf die Textanzeige als auch auf die Wörterbuch-Normalisierung bezieht.
+ === Normalisierung und Suche ===
+Die Suche sollte per default zu intuitiv nachvollziehbaren Ergebnissen kommen. Wir können uns noch überlegen, welche Suchoptionen wir anbieten wollen, aber zuerst muss das default-Verhalten stimmen.
+Minimal-Anforderungen:
+. Ein Suchwort soll sich immer selbst finden, auch in Originalschreibweise. Konkret soll man ein Wort aus dem Text herauskopieren können, und die Suche findet es dann wieder. Beispiel: Wenn man Œuvre eintippt, soll zumindest jedes Œuvre im Text gefunden werden. Das ist schwieriger als es klingt, siehe Ticket [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/58 #58] mit der Form "eiuſdẽ".
+. Die normalisierte Form soll alle Formen finden, die zu dieser Form normalisiert werden. Beispiel: oeuvre sollte œuvre finden, und eiusdem sollte eiuſdẽ finden (falls es zu eiuſdem regularisiert wurde und daher zu eiusdem normalisiert wird).
+. Die Suche sollte als default nicht zwischen Groß- und Kleinbuchstaben unterscheiden, d.h. das Suchwörter Œuvre und œuvre sollten dieselben Ergebnisse liefern.
+eXist und Lucene haben meines Wissens immer noch ein Problem mit mehreren Indexen zu demselben Dokument. Deshalb gehe ich davon aus, dass zu jedem Wort die normalisierte Schreibweise indexiert wird. Beispiel: Original eiuſdẽ wird zu eiuſdem regularisiert und die regularisierte Form wird zu eiusdem normalisiert, daher wird eiuſdẽ als eiusdem indexiert.
+Zu Punkt 1: Ein Wort findet sich selbst, wenn man das Suchwort nach den gleichen Regeln normalisiert wie die Wörter im Text. Wahrscheinlich möchte man bei der Indexierung noch die sprachimmantente Normalisierung dazunehmen, so dass das Suchwort ἀλλά auch ἀλλὰ findet. Punkt 2 sollte dann auch kein Problem sein.
+Zu Punkt 3: Bei den Regeln für Latein (siehe unten) versuche ich, nur die Normalisierungen aufzuzählen, die im Benedetti tatsächlich benötigt werden. Insbesondere wird zum Beispiel œ normalisiert und Œ nicht, weil es im Benedetti nicht vorkommt. Wenn die Suche nach Œuvre und œuvre dasselbe Ergebnis liefern soll, muss Œuvre also zuerst in Kleinbuchstaben umgewandelt und danach nicht normalisiert werden. (Wenn man bei der Normalisierung doch nicht zwischen Groß- und Kleinbuchstaben unterscheidet, kann man auch erst normalisieren und dann in Kleinbuchstaben umwandeln.)
+Die Suche nach "benedicti" soll aber auch das Wort BENEDICTI auf der Titelseite finden. Das heißt, für den Index muss dieses Wort auch in Kleinbuchstaben umgewandelt werden. Und zwar wieder: entweder zuerst umwandeln und dann normalisieren, oder die Regeln müssen auch für Großbuchstaben gelten. Im Sinne der Modularität wäre es sinnvoller, dass man erst bis zur sprachimmanenten Form kommt und dann in Kleinbuchstaben umwandelt. Oder das Umwandeln in Kleinbuchstaben ist automatisch Teil der sprachimmanenten Normalisierung (jedenfalls nicht Teil der Normalisierung für die Textanzeige); aber dann kommt es für Wörter wie Œuvre oder ŒUVRE zu spät. Das (fiktive) ŒUVRE muss für die Textanzeige zu OEUVRE normalisiert werden, und dann muss es in Kleinbuchstaben umgewandelt werden. Da es andersrum nicht geht, braucht man wohl doch eine Regel für Œ. (Das würde auch das technische Problem der Kleinbuchstaben in <emph style="sc"> lösen, die in Wirklichkeit small caps sind und im Sinne der Regeln als Großbuchstaben behandelt werden müssten.)
+Also folgender Vorschlag:
+. in der sprachimmanenten Normalisierung werden die Wörter immer in Kleinbuchstaben umgewandelt.
+. Index und Suche mit der sprachimmanenten Normalisierung.
+Verwenden wir irgendwelche Wörterbücher, die mit vollständiger Kleinschreibung ein Problem hätten?
+Vorläufig werden in der neuen Normalisierung für Latein nur die wirklich notwendigen Regeln verwendet, um zu sehen, ob das vielleicht schon ausreicht, und um keine Fehler zu übertünchen. Und beispielsweise sollte aus der Regel "J wird zu I" eigentlich nicht "j wird zu i" folgen, weil j wie in major fast immer falsch ist. Aber siehe unten: Vielleicht muss <reg> dann aufpassen, dass alle j korrigiert sind, und die Normalisierung macht aus major maior, egal ob es ein Transkriptionsfehler ist oder nicht.
 === Standard-Normalisierungen in allen Sprachen ===
 …
   * 8x í : einzelne Wörter, z.B. commutatíuæ: Transkriptionsfehler bei schlechtem Druck
   * ó 2x
   * ù 11x, davon 2x cú wohl für Tilde, z.B. ſecundú ist Tilde
+  * ú 11x, davon 2x cú wohl für Tilde, z.B. ſecundú ist Tilde
  * Makron kommt nicht vor.
  * Breve kommt nicht vor.
 …
 Œ und Ę kommen im Gegensatz zu Æ nicht vor, also keine Regel. (Alternative wäre: eine Regel, die im Benedetti nie angewendet wird.)
+Großes J kommt 4x vor: JACOBO und JLLVST. jeweils kursiv, JD unklares drop cap, Jupiter Transkriptionsfehler durch schlechten Druck. Also keine Regel für IJ. Kleine j ohne i sind Transkriptionsfehler. (Es gibt aber 1x DIj: Regel dafür? Oder regularisieren? Dann müsste man aber bei allen drop caps regularisieren.)
+Großes J kommt 4x vor:
+ * JACOBO und JLLVST. jeweils kursiv,
+ * JD unklares drop cap,
+ * Jupiter Transkriptionsfehler durch schlechten Druck.
+Also keine Regel für IJ. Kleine j ohne i sind Transkriptionsfehler. (Es gibt aber 1x DIj: Regel dafür? Oder regularisieren? Dann müsste man aber bei allen drop caps regularisieren.) Alternative wäre, nicht die ij-Regel aus dem Italienischen zu übernehmen, sondern einfach jedes j zu i zu machen. Wäre das besser? Verdeckt Transkriptionsfehler. Wenigstens J zu I? Ist ein J am Anfang eines Wortes denn wirklich ein eigener Buchstabe, oder ist es eine graphische Variante des kursiven I, ähnlich wie quam und QVAM? In der Zeile von JACOBO gibt es auch ein normales I. Trotzdem: "AD EVNDEM IACOBVM" (upright) Wikipedia: I unfd J seit dem Mittelalter verschiedene Laute, aber in der Schrift noch nicht klar getrennt. Also: <reg> sollte aufpassen, dass im wesentlichen keine j übrig sind, und die Normalisierung darf jedes noch übrige j zu i machen?
 Deshalb auf der Basis des Benedetti vorläufig folgende explizite Liste für Latein: