Changes between Version 28 and Version 29 of normalization/6


Ignore:
Timestamp:
Dec 15, 2010, 4:33:03 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v28 v29  
    4444Zu technisch bedingten Normalisierungen kann ich nicht viel sagen. Ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden.
    4545
    46 Die sprachimmanente und die technisch bedingte Normalisierung werden hintereinander geschaltet: zuerst sprachimmanent, dann technisch bedingt. In einer Sprache kann es mehr als ein technisch bedingtes Normalisierungsmodul geben, wenn verschiedene Wörterbücher verschiedene Normalisierungen erwarten. Ein Beispiel ist Celex versus Grimmsches Wörterbuch: Celex erwartet "Kaese", Grimm kann mit "Käse" umgehen. Ein Wörterbuch kann auch gar keine zusätzliche Normalisierung benötigen.
    47 
    48 Im Meeting 2010-12-10 haben wir über das Problem des "Zurückschickens" gesprochen, also dem Versuch, aus der technisch bedingt normalisierten Form zurück zur Originalform zu kommen. Beispielsweise wird bei Celex der Umlaut ö zu oe normalisiert, und deshalb kann Celex das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten. Wenn man also aus den Einträgen im Celex eine explizite Liste ermitteln möchte, auf welche nicht-normalisierten Wörter es reagieren würde, muss man aus der normalisierten Form alle möglichen nicht-normalisierten Wortformen erstellen. Das ist schwierig (siehe zum Beispiel [wiki:normalization/1#Weiteres hier]). Es scheint mir aber auch gar keinen Grund zu geben, warum man von der technisch bedingt normalisierten Form zurück zur Originalform kommen möchte. Das kommt mir verkehrt herum gedacht vor. Wenn Celex beispielsweise ö zu oe normalisiert und deshalb das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten kann, kann der Text dieses Problem einfach ignorieren. Im Text wird das Wort korrekt angezeigt, und sowohl Poebene als auch Pöbene werden zu Poebene normalisiert und dann mit dem Eintrag für Poebene verbunden.
     46Die sprachimmanente und die technisch bedingte Normalisierung werden hintereinander geschaltet: zuerst sprachimmanent, dann technisch bedingt. In einer Sprache kann es mehr als ein technisch bedingtes Normalisierungsmodul geben, wenn verschiedene Wörterbücher verschiedene Normalisierungen erwarten. Nicht jedes Wörterbuch wird eine zusätzliche Normalisierung benötigen.
     47
     48Die Normalisierung der Textanzeige ist von den sprachimmanenten und technisch bedingten Normalisierungen für die Wörterbücher ganz unberührt.
     49
     50=== Wortform und Grundform ===
     51
     52Die durch die Normalisierung erhaltene Wortform steht möglicherweise nicht genau so im Wörterbuch. Deshalb braucht man noch einen Mechanismus, um von der normalisierten Wortform auf die Grundform zu kommen. Normalerweise ist die Grundform eine festgelegte Wortform aus dem Lemma. Welche Wortform dabei verwendet wird, ist eine Konvention. Beispielsweise wird bei Verben im Lateinischen der Infinitiv ("gehen") und im Griechischen die 1. Sg. Ind. Pr. akt. ("ich gehe") verwendet. Manchmal haben verschiedene Lemmas dieselbe Grundform und werden erst durch weitere Wortformen des Lemmas disambiguiert (Beispiel: pecus, pecoris versus pecus, pecudis).
     53
     54Bei uns funktioniert der Mechanismus zurzeit meines Wissens folgendermaßen:
     55 * Latein: Wortformenliste
     56 * Griechisch: Wortformenliste
     57 * Deutsch: Morphologie durch Celex
     58 * Chinesisch: siehe unten
     59 
     60Eine Folge der nicht aufgelösten Diakritika (siehe unten) ist, dass die Wörter nicht im Wörterbuch gefunden werden. Das ist Absicht. Es ist ein wichtiger Grundsatz, lieber gar keinen Eintrag im Wörterbuch anzubieten als einen falschen. Ausnahme mag sein, wenn man explizit dazusagt, dass der Eintrag automatisch erzeugt wurde und nicht korrekt sein muss.
     61
     62Das Problem der Grundform ist bei Sprachen wie Deutsch sicher kleiner als beispielsweise im Lateinischen. Ein Problem entsteht im Deutschen aber dadurch, dass Celex die Umlaute zu ae, oe, ue normalisiert. Beispielsweise werden Poebene und das fiktive Wort Pöbene zum gleichen Wort Poebene normalisiert. Wir können daher nur die Wörter unterscheiden, die Celex unterscheiden kann. Bei Poebene scheint es weiter kein Problem zu geben, denn Pöbene gibt es nicht. Wenn man aber "musste" nachschlagen will, muss man es erst zu "muessen" normalisieren und dann entweder die Form "muessen" im Wörterbuch finden oder "muessen" wieder zurück in "müssen" verwandeln und diese Form dann im Wörterbuch finden.
     63 * Ist das eine korrekte Beschreibung des Problems?
     64 * Verwenden wir Celex tatsächlich nur für die Morphologie und nicht als Wörterbuch?
     65 * Was genau ist das Problem? Das Grimmsche Wörterbuch kann vermutlich auch mit ae, oe, ue umgehen: siehe [http://urts55.uni-trier.de:8080/Projekte/WBB2009/DWB//wbgui_py?mainmode= hier]. Auch Plurale scheinen kein Problem zu sein. DWDS kann ebenfalls  mit Pluralen umgehen: Beispiel [http://beta.dwds.de/?qu=Russen Russen]. Findet auch "ist", "isst", "ißt".
     66 * Funktioniert Celex mit Wortliste oder mit Algorithmus?
     67 * Können wir das Problem lösen, indem wir für das Deutsche wie für das Lateinische und Griechische eine Wortliste erstellen und diese eventuell per Hand nachbessern? Oder haben wir bei Celex sogar Zugang zum Algorithmus?
     68 * Gibt es im Deutschen überhaupt Beispiele, wo beide möglichen Ausgangsformen existieren und verschiedene Bedeutungen haben?
     69 * Es gibt wohl wenige Fälle wie "musste", wo die Grundform einen Umlaut hat, den die originale Wortform nicht hatte. Andersrum häufiger: Bäume, Baum.
     70 * Was macht Celex mit ß? Wird es zu ss? Im Grimm muss man offenbar sz verwenden.
     71 * Was macht Celex mit Bindestrichen?
     72 * Wenn man aus den Einträgen im Celex eine explizite Liste ermitteln möchte, auf welche nicht-normalisierten Wörter es reagieren würde, muss man aus der normalisierten Form alle möglichen nicht-normalisierten Wortformen erstellen. Das ist schwierig (siehe zum Beispiel [wiki:normalization/1#Weiteres hier]). Es scheint mir aber auch gar keinen Grund zu geben, warum man von der technisch bedingt normalisierten Form zurück zur Originalform kommen möchte. Das kommt mir verkehrt herum gedacht vor.
     73 * Trotzdem: Kann man die Originalform verwenden, um die korrekte Schreibung der Grundform abzuleiten? Beispiel "Wasserstraßen": Solange alles im Wort bis dahin übereinstimmt, kann man die Schreibung der Originalform übernehmen? Beispiel "flösse" mit Grundform fließen bzw. fliessen: Unterschied schon beim dritten Buchstaben: ö versus i, man kann also automatisiert nicht sagen, ob es fliessen oder fließen wäre. Außer natürlich dadurch, dass die deutsche Rechtschreibung regulär ist: nach ie muss ß stehen. Wenn man nicht in der Schweiz ist.
     74 * Gibt es in anderen Sprachen vergleichbare Probleme?
     75
     76Eine Liste von möglicherweise schwierigen Wörtern:
     77 * Russen: Russe -- rußen: rußen, Celex russen?, Grimm erwartet aber ruszen
     78 * flössen -- Flößen
     79 * Masse -- Maße
     80 * musste: müssen
     81 * Fußangel: Grimm erwartet Fuszangel. "automatisch erstellter Rückverweis": Fußangel.
     82 * abnötigen: Grimm erwartet abnöthigen. Hier braucht man die Normalisierung der Sprachschicht.
     83 * Zooeingang, Poet
     84 * Wasserstraße
     85 * Bäume: Baum
     86 * waren: sein
     87 * wären: sein
     88 * Schulden (kein Singular)
     89 * einzigste, maximalst
    4990
    5091=== Diakritika ===
    5192
    52 Für Diakritika bedeutet Normalisierung, dass sie entfernt werden.
     93Für Diakritika bedeutet Normalisierung in der Regel, dass sie entfernt werden.
    5394 1. Diakritika, die in einer Sprache verwendet werden, werden nicht normalisiert: Beispiel ist ä ö ü im Deutschen.
    5495 1. Diakritika zur Disambiguierung oder als Lesehilfe wie in aër und verò im Lateinischen, die in der modernen Schreibweise nicht mehr verwendet werden, werden normalisiert. Wenn sie nicht reine Lesehilfen sind, können aber noch zur Lemma-Disambiguierung oder zumindest zur Wortform-Disambiguierung beitragen.
     
    172213=== Chinesisch ===
    173214
    174 Ziel der Normalisierung im Chinesischen ist Textversion mit Standardzeichen.
     215Ziel der Normalisierung im Chinesischen ist eine Textversion mit Standardzeichen.
    175216
    176217Die Normalisierung im Chinesischen funktioniert über eine Zeichenliste, in der jeweils ein oder mehr Zeichenvarianten auf ein Standardzeichen zurückgeführt werden. Beispielsweise wird das Zeichen 歴 (6B74) zu 歷 (6B77) normalisiert. (Beachte: der Unicode-Codepoint des Standardzeichens kann höher sein als der Codepoint der Zeichenvariante.)
    177218
     219Technisch gesehen ähnelt die Normalisierung einer Zeichenvariante dem Finden der Grundform wie bei "Bäume" zu "Baum" (linguistisch ist es allerdings nicht das gleiche). Es gibt im Chinesischen dann auch eine Wortliste, die allerdings sowohl in der Textanzeige als auch für das Wörterbuch verwendet wird. Ein weiterer Gegensatz zum Lateinischen und Griechischen ist, dass diese Wortliste notwendigerweise niemals vollständig ist, beispielsweise wenn Unicode noch mehr Schriftzeichen aufnimmt.
     220
    178221Im Chinesischen gibt es eine Schwelle, unter der eine Zeichenvariante nicht mehr sinnvoll vom Standardzeichen unterschieden werden kann. (Die Variante 歴 von 歷 gehört nicht dazu, auch wenn die beiden Zeichen für das ungeübte Auge gleich aussehen. Tatsächlich hat 歴 zwei Striche weniger als 歷.) Diese Entscheidung ist aber im Text bereits getroffen worden. Die Normalisierung ist nur noch rein technischer Akt: Ersetze das Unicode-Zeichen 歴 durch das-Unicode-Zeichen 歷, etc.
    179222
     
    181224
    182225Die Normalisierung für das Wörterbuch ist wie immer unabhängig vom Textanzeigemodus: Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
     226
     227Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht?
    183228
    184229Die ''ZWS'' werden zumindest in der Normalisierung für das Wörterbuch entfernt.