Changes between Version 48 and Version 49 of normalization/6


Ignore:
Timestamp:
Dec 22, 2010, 3:42:55 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v48 v49  
    5151 * Im Lateinischen bedeutet das zum Beispiel, dass wir die moderne u/v-Schreibung verwenden. Bisher verwenden wir allerdings keine zeitgenössischen lateinischen Wörterbücher.
    5252 * Ob wir im Deutschen die gleiche Strategie verwenden können, ist noch nicht klar, insbesondere weil die Normalisierung im Deutschen mit seinen vielen verschiedenen historischen Schreibungen noch nicht feststeht. Das Problem wird im nächsten Abschnitt am Beispiel des Grimm-Wörterbuchs angerissen, das Schreibweisen wie ruszen und abnöthigen verwendet.
     53
     54Wir brauchen eine Standard-Schreibweise als Austauschformat für alte und neue Wörterbücher, Suche, etc. Am geeignetsten ist wohl die sprachimmanente Normalisierung. Siehe unten "Normalisierung und Suche".
    5355
    5456=== Wortform und Grundform ===
     
    6971 
    7072Eine Folge der nicht aufgelösten Diakritika (siehe unten) ist, dass die Wörter nicht im Wörterbuch gefunden werden. Das ist Absicht. Es ist ein wichtiger Grundsatz, lieber gar keinen Eintrag im Wörterbuch anzubieten als einen falschen. Ausnahme mag sein, wenn man explizit dazusagt, dass der Eintrag automatisch erzeugt wurde und nicht korrekt sein muss.
     73
     74=== Das Problem der Umlaute ===
    7175
    7276Die Grundform ist bei Sprachen mit einfacheren Flexionsparadigmen wie Deutsch leichter zu finden als beispielsweise im Lateinischen. Ein Problem entsteht im Deutschen aber dadurch, dass Celex die Umlaute zu ae, oe, ue normalisiert. Beispielsweise werden Poebene und das fiktive Wort Pöbene zum gleichen Wort Poebene normalisiert. Wir können daher nur die Wörter unterscheiden, die Celex unterscheiden kann. Bei Poebene scheint es weiter kein Problem zu geben, denn Pöbene gibt es nicht. Wenn man aber "musste" nachschlagen will, muss man es erst zu "muessen" normalisieren und dann entweder die Form "muessen" im Wörterbuch finden oder "muessen" wieder zurück in "müssen" verwandeln und diese Form dann im Wörterbuch finden.
     
    139143
    140144Ein Beispiel im Lateinischen: Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden).
    141 
    142 Paul: Dass es in Benedetti caelum und caelum gibt, bedeutet nicht, dass Benedetti eine Mischung aus zwei Sprachschichten ist, sondern dass in dieser Sprachschicht beide Formen nebeneinander verwendet werden. Unterschiedliche Schreibweisen auch bei den Zeitgenossen Cicero und Sallust.
    143 
    144145 * Möglicherweise brauchen wir eine Sprachschicht "Mittellatein".
    145146 * Als Alternative zum Standard-Latein oder als vor- oder nachgeschaltetes Modul? Beachte dabei, dass Benedetti Wortformen aus beiden Sprachschichten hat.
     147Paul: Dass es in Benedetti caelum und caelum gibt, bedeutet nicht, dass Benedetti eine Mischung aus zwei Sprachschichten ist, sondern dass in dieser Sprachschicht beide Formen nebeneinander verwendet werden. Unterschiedliche Schreibweisen auch bei den Zeitgenossen Cicero und Sallust. Und das Ziel ist, das Wort im Wörterbuch zu finden. Problem der nicht-klassischen Wörter wie "veritas", für die wir kein Wörterbuch haben.
    146148 * Eine Wortliste, oder Ersetzungsregeln? Also "cœlum" zu "caelum" oder "cœl-" zu "cael-" oder œ zu ae?
    147149 * Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Wäre das eine Aufgabe der Normalisierung? Gegen Regularisierung spricht: es ist kein Textfehler und auch nicht buchspezifisch.)
     
    150152
    151153Jedem Text ist eine Sprachschicht zugeordnet, entweder durch eine explizite Angabe in den Metadaten oder durch eine implizite Folgerung aus der Sprache des Textes und seinem Erscheinungsjahr.
    152  * Jochen: Der Benutzer soll aber auch die Möglichkeit haben, den Text mit den Normalisierungen für andere Sprachschichten auszuprobieren.
     154
     155Jochen: Der Benutzer soll aber auch die Möglichkeit haben, den Text mit den Normalisierungen für andere Sprachschichten auszuprobieren.
    153156 * Sollte man einen französischen Text auch probehalber mit den italienischen Normalisierungsregeln anzeigen lassen können, oder nur mit unterschiedlichen Sprachschichten der gleichen Sprache?
    154157 * Ich gehe davon aus, dass die Wahl der Sprachschicht sich sowohl auf die Textanzeige als auch auf die Wörterbuch-Normalisierung bezieht.
     
    159162 
    160163Minimal-Anforderungen:
    161  1. Ein Suchwort soll sich immer selbst finden, auch in Originalschreibweise. Konkret soll man ein Wort aus dem Text herauskopieren können, und die Suche findet es dann wieder. Beispiel: Wenn man Œuvre eintippt, soll zumindest jedes Œuvre im Text gefunden werden. Das ist schwieriger als es klingt, siehe Ticket [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/58 #58] mit der Form "eiuſdẽ".
     164 1. Ein Suchwort soll sich immer selbst finden, auch in Originalschreibweise. Konkret soll man ein Wort aus dem Text herauskopieren können, und die Suche findet es dann wieder. Beispiel: Wenn man nach Œuvre sucht, soll zumindest jedes Œuvre im Text gefunden werden. Das ist schwieriger als es klingt, siehe Ticket [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/58 #58] mit der Form "eiuſdẽ".
    162165 1. Die normalisierte Form soll alle Formen finden, die zu dieser Form normalisiert werden. Beispiel: oeuvre sollte œuvre finden, und eiusdem sollte eiuſdẽ finden (falls es zu eiuſdem regularisiert wurde und daher zu eiusdem normalisiert wird).
    163166 1. Die Suche sollte als default nicht zwischen Groß- und Kleinbuchstaben unterscheiden, d.h. das Suchwörter Œuvre und œuvre sollten dieselben Ergebnisse liefern.
     
    167170Zu Punkt 1: Ein Wort findet sich selbst, wenn man das Suchwort nach den gleichen Regeln normalisiert wie die Wörter im Text. Wahrscheinlich möchte man bei der Indexierung noch die sprachimmantente Normalisierung dazunehmen, so dass das Suchwort ἀλλά auch ἀλλὰ findet. Punkt 2 sollte dann auch kein Problem sein.
    168171
    169 Zu Punkt 3: Bei den Regeln für Latein (siehe unten) versuche ich, nur die Normalisierungen aufzuzählen, die im Benedetti tatsächlich benötigt werden. Insbesondere wird zum Beispiel œ normalisiert und Œ nicht, weil es im Benedetti nicht vorkommt. Wenn die Suche nach Œuvre und œuvre dasselbe Ergebnis liefern soll, muss Œuvre also zuerst in Kleinbuchstaben umgewandelt und danach nicht normalisiert werden. (Wenn man bei der Normalisierung doch nicht zwischen Groß- und Kleinbuchstaben unterscheidet, kann man auch erst normalisieren und dann in Kleinbuchstaben umwandeln.)
    170 
    171 Die Suche nach "benedicti" soll aber auch das Wort BENEDICTI auf der Titelseite finden. Das heißt, für den Index muss dieses Wort auch in Kleinbuchstaben umgewandelt werden. Und zwar wieder: entweder zuerst umwandeln und dann normalisieren, oder die Regeln müssen auch für Großbuchstaben gelten. Im Sinne der Modularität wäre es sinnvoller, dass man erst bis zur sprachimmanenten Form kommt und dann in Kleinbuchstaben umwandelt. Oder das Umwandeln in Kleinbuchstaben ist automatisch Teil der sprachimmanenten Normalisierung (jedenfalls nicht Teil der Normalisierung für die Textanzeige); aber dann kommt es für Wörter wie Œuvre oder ŒUVRE zu spät. Das (fiktive) ŒUVRE muss für die Textanzeige zu OEUVRE normalisiert werden, und dann muss es in Kleinbuchstaben umgewandelt werden. Da es andersrum nicht geht, braucht man wohl doch eine Regel für Œ. (Das würde auch das technische Problem der Kleinbuchstaben in <emph style="sc"> lösen, die in Wirklichkeit small caps sind und im Sinne der Regeln als Großbuchstaben behandelt werden müssten.)
     172Zu Punkt 3: Bei den Regeln für Latein (siehe unten) versuche ich, nur die Normalisierungen aufzuzählen, die im Benedetti tatsächlich benötigt werden. Insbesondere wird zum Beispiel œ normalisiert und Œ nicht, weil es im Benedetti nicht vorkommt. Wenn die Suche nach Œuvre und œuvre dasselbe Ergebnis liefern soll, muss Œuvre also zuerst in Kleinbuchstaben umgewandelt und danach normalisiert werden. (Wenn man bei der Normalisierung doch nicht zwischen Groß- und Kleinbuchstaben unterscheidet, kann man auch erst normalisieren und dann in Kleinbuchstaben umwandeln.)
     173
     174Die Suche nach "benedicti" soll aber auch das Wort BENEDICTI auf der Titelseite finden. Das heißt, für den Index muss dieses Wort auch in Kleinbuchstaben umgewandelt werden. Dabei gilt wieder: entweder zuerst umwandeln und dann normalisieren, oder die Regeln müssen auch für Großbuchstaben gelten. Im Sinne der Modularität wäre es sinnvoller, dass man erst bis zur sprachimmanenten Form kommt und dann in Kleinbuchstaben umwandelt. Oder das Umwandeln in Kleinbuchstaben ist automatisch Teil der sprachimmanenten Normalisierung (jedenfalls nicht Teil der Normalisierung für die Textanzeige); aber dann kommt es für Wörter wie Œuvre oder ŒUVRE zu spät. Das (fiktive) ŒUVRE muss für die Textanzeige zu OEUVRE normalisiert werden, und dann muss es in Kleinbuchstaben umgewandelt werden. Da es andersrum nicht geht, braucht man wohl doch eine Regel für Œ. (Das würde auch das technische Problem der Kleinbuchstaben in <emph style="sc"> lösen, die in Wirklichkeit small caps sind und im Sinne der Regeln als Großbuchstaben behandelt werden müssten.)
    172175
    173176Also folgender Vorschlag:
    174  1. in der sprachimmanenten Normalisierung werden die Wörter immer in Kleinbuchstaben umgewandelt.
    175177 1. Index und Suche mit der sprachimmanenten Normalisierung.
    176 
    177 Verwenden wir irgendwelche Wörterbücher, die mit vollständiger Kleinschreibung ein Problem hätten?
    178 
    179 Vorläufig werden in der neuen Normalisierung für Latein nur die wirklich notwendigen Regeln verwendet, um zu sehen, ob das vielleicht schon ausreicht, und um keine Fehler zu übertünchen. Und beispielsweise sollte aus der Regel "J wird zu I" eigentlich nicht "j wird zu i" folgen, weil j wie in major fast immer falsch ist. Aber siehe unten: Vielleicht muss <reg> dann aufpassen, dass alle j korrigiert sind, und die Normalisierung macht aus major maior, egal ob es ein Transkriptionsfehler ist oder nicht.
    180  
     178 1. In der sprachimmanenten Normalisierung werden die Wörter immer in Kleinbuchstaben umgewandelt.
     179 1. Erst einen Test mit minimalen Normalisierungsregeln, danach eventuell Regeln für Großbuchstaben ergänzen.
     180
     181Zu 2: Ist das überhaupt nötig?
     182 * Verwenden wir irgendwelche Wörterbücher, die mit vollständiger Kleinschreibung ein Problem hätten?
     183 * Und andersrum: Nehmen uns die Wörterbücher diese Arbeit ab, indem sie selbst gar nicht nach Groß- und Kleinschreibung unterscheiden? Dann könnte bei einem einzelnen Wörterbuch, das mit Großbuchstaben nicht umgehen kann, die Umwandlung in Kleinbuchstaben Teil der technisch bedingten Normalisierung sein.
     184 * Wichtig: Wie geht eXist und insbesondere Lucene mit Großbuchstaben um?
     185
     186Zu 3: Vorläufig werden in der neuen Normalisierung für Latein nur die wirklich notwendigen Regeln verwendet, um zu sehen, ob das vielleicht schon ausreicht, und um keine Fehler zu übertünchen. Und beispielsweise sollte aus der Regel "J wird zu I" eigentlich nicht "j wird zu i" folgen, weil j wie in major fast immer falsch ist. Aber siehe unten: Vielleicht muss <reg> dann aufpassen, dass alle j korrigiert sind, und die Normalisierung macht aus major maior, egal ob es ein Transkriptionsfehler ist oder nicht. Wenn wir alle Regeln auch für Großbuchstaben formulieren, würden abgesehen von den Einzelwortregeln noch Regeln für Ę Œ J À È Ò Ù dazukommen. Mindestens die Regeln für Ę À È Ò Ù werden in einem echten lateinischen Text wohl nie angewendet. (Gibt es diese Zeichen überhaupt in einem Setzkasten im 16. Jh.?) Das würde dafür sprechen, das Suchwort einfach in Kleinbuchstaben umzuwandeln und dann erst zu normalisieren (und wenn es für die Architektur einfacher ist, es dann nochmal in Kleinbuchstaben umzuwandeln, was natürlich keinen Effekt mehr hat). Echte Wörter werden erst normalisiert und erst dann in Kleinbuchstaben umgewandelt.
     187
    181188=== Standard-Normalisierungen in allen Sprachen ===
    182189