46 | | Die sprachimmanente und die technisch bedingte Normalisierung werden hintereinander geschaltet: zuerst sprachimmanent, dann technisch bedingt. In einer Sprache kann es mehr als ein technisch bedingtes Normalisierungsmodul geben, wenn verschiedene Wörterbücher verschiedene Normalisierungen erwarten. Ein Beispiel ist Celex versus Grimmsches Wörterbuch: Celex erwartet "Kaese", Grimm kann mit "Käse" umgehen. Ein Wörterbuch kann auch gar keine zusätzliche Normalisierung benötigen. |
47 | | |
48 | | Im Meeting 2010-12-10 haben wir über das Problem des "Zurückschickens" gesprochen, also dem Versuch, aus der technisch bedingt normalisierten Form zurück zur Originalform zu kommen. Beispielsweise wird bei Celex der Umlaut ö zu oe normalisiert, und deshalb kann Celex das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten. Wenn man also aus den Einträgen im Celex eine explizite Liste ermitteln möchte, auf welche nicht-normalisierten Wörter es reagieren würde, muss man aus der normalisierten Form alle möglichen nicht-normalisierten Wortformen erstellen. Das ist schwierig (siehe zum Beispiel [wiki:normalization/1#Weiteres hier]). Es scheint mir aber auch gar keinen Grund zu geben, warum man von der technisch bedingt normalisierten Form zurück zur Originalform kommen möchte. Das kommt mir verkehrt herum gedacht vor. Wenn Celex beispielsweise ö zu oe normalisiert und deshalb das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten kann, kann der Text dieses Problem einfach ignorieren. Im Text wird das Wort korrekt angezeigt, und sowohl Poebene als auch Pöbene werden zu Poebene normalisiert und dann mit dem Eintrag für Poebene verbunden. |
| 46 | Die sprachimmanente und die technisch bedingte Normalisierung werden hintereinander geschaltet: zuerst sprachimmanent, dann technisch bedingt. In einer Sprache kann es mehr als ein technisch bedingtes Normalisierungsmodul geben, wenn verschiedene Wörterbücher verschiedene Normalisierungen erwarten. Nicht jedes Wörterbuch wird eine zusätzliche Normalisierung benötigen. |
| 47 | |
| 48 | Die Normalisierung der Textanzeige ist von den sprachimmanenten und technisch bedingten Normalisierungen für die Wörterbücher ganz unberührt. |
| 49 | |
| 50 | === Wortform und Grundform === |
| 51 | |
| 52 | Die durch die Normalisierung erhaltene Wortform steht möglicherweise nicht genau so im Wörterbuch. Deshalb braucht man noch einen Mechanismus, um von der normalisierten Wortform auf die Grundform zu kommen. Normalerweise ist die Grundform eine festgelegte Wortform aus dem Lemma. Welche Wortform dabei verwendet wird, ist eine Konvention. Beispielsweise wird bei Verben im Lateinischen der Infinitiv ("gehen") und im Griechischen die 1. Sg. Ind. Pr. akt. ("ich gehe") verwendet. Manchmal haben verschiedene Lemmas dieselbe Grundform und werden erst durch weitere Wortformen des Lemmas disambiguiert (Beispiel: pecus, pecoris versus pecus, pecudis). |
| 53 | |
| 54 | Bei uns funktioniert der Mechanismus zurzeit meines Wissens folgendermaßen: |
| 55 | * Latein: Wortformenliste |
| 56 | * Griechisch: Wortformenliste |
| 57 | * Deutsch: Morphologie durch Celex |
| 58 | * Chinesisch: siehe unten |
| 59 | |
| 60 | Eine Folge der nicht aufgelösten Diakritika (siehe unten) ist, dass die Wörter nicht im Wörterbuch gefunden werden. Das ist Absicht. Es ist ein wichtiger Grundsatz, lieber gar keinen Eintrag im Wörterbuch anzubieten als einen falschen. Ausnahme mag sein, wenn man explizit dazusagt, dass der Eintrag automatisch erzeugt wurde und nicht korrekt sein muss. |
| 61 | |
| 62 | Das Problem der Grundform ist bei Sprachen wie Deutsch sicher kleiner als beispielsweise im Lateinischen. Ein Problem entsteht im Deutschen aber dadurch, dass Celex die Umlaute zu ae, oe, ue normalisiert. Beispielsweise werden Poebene und das fiktive Wort Pöbene zum gleichen Wort Poebene normalisiert. Wir können daher nur die Wörter unterscheiden, die Celex unterscheiden kann. Bei Poebene scheint es weiter kein Problem zu geben, denn Pöbene gibt es nicht. Wenn man aber "musste" nachschlagen will, muss man es erst zu "muessen" normalisieren und dann entweder die Form "muessen" im Wörterbuch finden oder "muessen" wieder zurück in "müssen" verwandeln und diese Form dann im Wörterbuch finden. |
| 63 | * Ist das eine korrekte Beschreibung des Problems? |
| 64 | * Verwenden wir Celex tatsächlich nur für die Morphologie und nicht als Wörterbuch? |
| 65 | * Was genau ist das Problem? Das Grimmsche Wörterbuch kann vermutlich auch mit ae, oe, ue umgehen: siehe [http://urts55.uni-trier.de:8080/Projekte/WBB2009/DWB//wbgui_py?mainmode= hier]. Auch Plurale scheinen kein Problem zu sein. DWDS kann ebenfalls mit Pluralen umgehen: Beispiel [http://beta.dwds.de/?qu=Russen Russen]. Findet auch "ist", "isst", "ißt". |
| 66 | * Funktioniert Celex mit Wortliste oder mit Algorithmus? |
| 67 | * Können wir das Problem lösen, indem wir für das Deutsche wie für das Lateinische und Griechische eine Wortliste erstellen und diese eventuell per Hand nachbessern? Oder haben wir bei Celex sogar Zugang zum Algorithmus? |
| 68 | * Gibt es im Deutschen überhaupt Beispiele, wo beide möglichen Ausgangsformen existieren und verschiedene Bedeutungen haben? |
| 69 | * Es gibt wohl wenige Fälle wie "musste", wo die Grundform einen Umlaut hat, den die originale Wortform nicht hatte. Andersrum häufiger: Bäume, Baum. |
| 70 | * Was macht Celex mit ß? Wird es zu ss? Im Grimm muss man offenbar sz verwenden. |
| 71 | * Was macht Celex mit Bindestrichen? |
| 72 | * Wenn man aus den Einträgen im Celex eine explizite Liste ermitteln möchte, auf welche nicht-normalisierten Wörter es reagieren würde, muss man aus der normalisierten Form alle möglichen nicht-normalisierten Wortformen erstellen. Das ist schwierig (siehe zum Beispiel [wiki:normalization/1#Weiteres hier]). Es scheint mir aber auch gar keinen Grund zu geben, warum man von der technisch bedingt normalisierten Form zurück zur Originalform kommen möchte. Das kommt mir verkehrt herum gedacht vor. |
| 73 | * Trotzdem: Kann man die Originalform verwenden, um die korrekte Schreibung der Grundform abzuleiten? Beispiel "Wasserstraßen": Solange alles im Wort bis dahin übereinstimmt, kann man die Schreibung der Originalform übernehmen? Beispiel "flösse" mit Grundform fließen bzw. fliessen: Unterschied schon beim dritten Buchstaben: ö versus i, man kann also automatisiert nicht sagen, ob es fliessen oder fließen wäre. Außer natürlich dadurch, dass die deutsche Rechtschreibung regulär ist: nach ie muss ß stehen. Wenn man nicht in der Schweiz ist. |
| 74 | * Gibt es in anderen Sprachen vergleichbare Probleme? |
| 75 | |
| 76 | Eine Liste von möglicherweise schwierigen Wörtern: |
| 77 | * Russen: Russe -- rußen: rußen, Celex russen?, Grimm erwartet aber ruszen |
| 78 | * flössen -- Flößen |
| 79 | * Masse -- Maße |
| 80 | * musste: müssen |
| 81 | * Fußangel: Grimm erwartet Fuszangel. "automatisch erstellter Rückverweis": Fußangel. |
| 82 | * abnötigen: Grimm erwartet abnöthigen. Hier braucht man die Normalisierung der Sprachschicht. |
| 83 | * Zooeingang, Poet |
| 84 | * Wasserstraße |
| 85 | * Bäume: Baum |
| 86 | * waren: sein |
| 87 | * wären: sein |
| 88 | * Schulden (kein Singular) |
| 89 | * einzigste, maximalst |