Changes between Version 31 and Version 32 of normalization/6


Ignore:
Timestamp:
Dec 16, 2010, 11:56:14 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v31 v32  
    4444Zu technisch bedingten Normalisierungen kann ich nicht viel sagen. Ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden.
    4545
    46 Die sprachimmanente und die technisch bedingte Normalisierung werden hintereinander geschaltet: zuerst sprachimmanent, dann technisch bedingt. In einer Sprache kann es mehr als ein technisch bedingtes Normalisierungsmodul geben, wenn verschiedene Wörterbücher verschiedene Normalisierungen erwarten. Nicht jedes Wörterbuch wird eine zusätzliche Normalisierung benötigen.
     46Die sprachimmanente und die technisch bedingte Normalisierung werden hintereinander geschaltet: zuerst sprachimmanent, dann technisch bedingt. In einer Sprache kann es mehr als ein technisch bedingtes Normalisierungsmodul geben, wenn verschiedene Wörterbücher verschiedene Normalisierungen erwarten. Manche Wörterbucher benötigen gar keine zusätzliche Normalisierung.
    4747
    4848Die Normalisierung der Textanzeige ist von den sprachimmanenten und technisch bedingten Normalisierungen für die Wörterbücher ganz unberührt.
     
    5050=== Wortform und Grundform ===
    5151
    52 Die durch die Normalisierung erhaltene Wortform steht möglicherweise nicht genau so im Wörterbuch. Deshalb braucht man noch einen Mechanismus, um von der normalisierten Wortform auf die Grundform zu kommen. Normalerweise ist die Grundform eine festgelegte Wortform aus dem Lemma. Welche Wortform dabei verwendet wird, ist eine Konvention. Beispielsweise wird bei Verben im Lateinischen der Infinitiv ("gehen") und im Griechischen die 1. Sg. Ind. Pr. akt. ("ich gehe") verwendet. Manchmal haben verschiedene Lemmas dieselbe Grundform und werden erst durch weitere Wortformen des Lemmas disambiguiert (Beispiel: pecus, pecoris versus pecus, pecudis).
     52Die durch die Normalisierung erhaltene Wortform steht möglicherweise nicht genau so im Wörterbuch. Deshalb braucht man noch einen Mechanismus, um von der normalisierten Wortform auf die Grundform zu kommen. Normalerweise ist die Grundform eine festgelegte Wortform aus dem Lemma. Welche Wortform dabei verwendet wird, ist eine Konvention. Beispielsweise wird bei Verben im Lateinischen oft der Infinitiv ("gehen") und im Griechischen die 1. Sg. Ind. Präs. akt. ("ich gehe") verwendet. Manchmal haben verschiedene Lemmas dieselbe Grundform und werden erst durch weitere Wortformen des Lemmas disambiguiert (Beispiel: pecus, pecoris versus pecus, pecudis). Noch häufiger ist der Fall, dass die Wortform zu verschiedenen Lemmas gehört, zum Beispiel "est" von esse oder von edo.
    5353
    5454Bei uns funktioniert der Mechanismus zurzeit meines Wissens folgendermaßen:
     
    6060Eine Folge der nicht aufgelösten Diakritika (siehe unten) ist, dass die Wörter nicht im Wörterbuch gefunden werden. Das ist Absicht. Es ist ein wichtiger Grundsatz, lieber gar keinen Eintrag im Wörterbuch anzubieten als einen falschen. Ausnahme mag sein, wenn man explizit dazusagt, dass der Eintrag automatisch erzeugt wurde und nicht korrekt sein muss.
    6161
    62 Das Problem der Grundform ist bei Sprachen wie Deutsch sicher kleiner als beispielsweise im Lateinischen. Ein Problem entsteht im Deutschen aber dadurch, dass Celex die Umlaute zu ae, oe, ue normalisiert. Beispielsweise werden Poebene und das fiktive Wort Pöbene zum gleichen Wort Poebene normalisiert. Wir können daher nur die Wörter unterscheiden, die Celex unterscheiden kann. Bei Poebene scheint es weiter kein Problem zu geben, denn Pöbene gibt es nicht. Wenn man aber "musste" nachschlagen will, muss man es erst zu "muessen" normalisieren und dann entweder die Form "muessen" im Wörterbuch finden oder "muessen" wieder zurück in "müssen" verwandeln und diese Form dann im Wörterbuch finden.
     62Die Grundform ist bei Sprachen mit einfacheren Flexionsparadigmen wie Deutsch leichter zu finden als beispielsweise im Lateinischen. Ein Problem entsteht im Deutschen aber dadurch, dass Celex die Umlaute zu ae, oe, ue normalisiert. Beispielsweise werden Poebene und das fiktive Wort Pöbene zum gleichen Wort Poebene normalisiert. Wir können daher nur die Wörter unterscheiden, die Celex unterscheiden kann. Bei Poebene scheint es weiter kein Problem zu geben, denn Pöbene gibt es nicht. Wenn man aber "musste" nachschlagen will, muss man es erst zu "muessen" normalisieren und dann entweder die Form "muessen" im Wörterbuch finden oder "muessen" wieder zurück in "müssen" verwandeln und diese Form dann im Wörterbuch finden.
    6363 * Ist das eine korrekte Beschreibung des Problems?
    6464 * Verwenden wir Celex tatsächlich nur für die Morphologie und nicht als Wörterbuch?
     
    244244
    245245Unicode enthält:
    246  * Ugaritisch (10380-1039F)
    247  * Altpersisch (103A0-103DF)
    248  * Zahlen und Interpunktion (12400-1247F)
     246 * Ugaritisch ([http://www.unicode.org/charts/PDF/U10380.pdf 10380-1039F])
     247 * Altpersisch ([http://www.unicode.org/charts/PDF/U103A0.pdf 103A0-103DF])
     248 * Zahlen und Interpunktion ([http://www.unicode.org/charts/PDF/U12400.pdf 12400-1247F])
    249249
    250250Über Keilschrifttexte weiß ich zu wenig. Es geht aber wohl nicht Unicode-Zeichen, sondern um Transliterierungen der originalen Texte. Vermutlich wird hier gar nichts normalisiert.