Changes between Version 32 and Version 33 of normalization/6


Ignore:
Timestamp:
Dec 16, 2010, 1:09:47 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v32 v33  
    6262Die Grundform ist bei Sprachen mit einfacheren Flexionsparadigmen wie Deutsch leichter zu finden als beispielsweise im Lateinischen. Ein Problem entsteht im Deutschen aber dadurch, dass Celex die Umlaute zu ae, oe, ue normalisiert. Beispielsweise werden Poebene und das fiktive Wort Pöbene zum gleichen Wort Poebene normalisiert. Wir können daher nur die Wörter unterscheiden, die Celex unterscheiden kann. Bei Poebene scheint es weiter kein Problem zu geben, denn Pöbene gibt es nicht. Wenn man aber "musste" nachschlagen will, muss man es erst zu "muessen" normalisieren und dann entweder die Form "muessen" im Wörterbuch finden oder "muessen" wieder zurück in "müssen" verwandeln und diese Form dann im Wörterbuch finden.
    6363 * Ist das eine korrekte Beschreibung des Problems?
     64 * Was genau ist das Problem? Das Grimmsche Wörterbuch kann vermutlich auch mit ae, oe, ue umgehen: siehe [http://urts55.uni-trier.de:8080/Projekte/WBB2009/DWB//wbgui_py?mainmode= hier]. Auch Plurale scheinen kein Problem zu sein. DWDS kann ebenfalls  mit Pluralen umgehen: Beispiel [http://beta.dwds.de/?qu=Russen Russen]. Findet auch "ist", "isst", "ißt".
     65 * Gibt es in anderen Sprachen vergleichbare Probleme?
     66 * Können wir das Problem lösen, indem wir für das Deutsche wie für das Lateinische und Griechische eine Wortliste erstellen und diese eventuell per Hand nachbessern? Oder eine Wortliste für Ausnahmen und für alle anderen Wortformen ein einfacher Algorithmus?
     67
     68Fragen zu Celex:
    6469 * Verwenden wir Celex tatsächlich nur für die Morphologie und nicht als Wörterbuch?
    65  * Was genau ist das Problem? Das Grimmsche Wörterbuch kann vermutlich auch mit ae, oe, ue umgehen: siehe [http://urts55.uni-trier.de:8080/Projekte/WBB2009/DWB//wbgui_py?mainmode= hier]. Auch Plurale scheinen kein Problem zu sein. DWDS kann ebenfalls  mit Pluralen umgehen: Beispiel [http://beta.dwds.de/?qu=Russen Russen]. Findet auch "ist", "isst", "ißt".
    66  * Funktioniert Celex mit Wortliste oder mit Algorithmus?
    67  * Können wir das Problem lösen, indem wir für das Deutsche wie für das Lateinische und Griechische eine Wortliste erstellen und diese eventuell per Hand nachbessern? Oder haben wir bei Celex sogar Zugang zum Algorithmus?
     70 * Funktioniert Celex mit Wortliste oder mit Algorithmus?  Oder haben wir bei Celex sogar Zugang zum Algorithmus?
     71 * Was macht Celex mit ß? Wird es zu ss? Im Grimm muss man offenbar sz verwenden.
     72 * Was macht Celex mit Bindestrichen?
     73
     74Fragen zum Deutschen:
    6875 * Gibt es im Deutschen überhaupt Beispiele, wo beide möglichen Ausgangsformen existieren und verschiedene Bedeutungen haben?
    6976 * Es gibt wohl wenige Fälle wie "musste", wo die Grundform einen Umlaut hat, den die originale Wortform nicht hatte. Andersrum häufiger: Bäume, Baum.
    70  * Was macht Celex mit ß? Wird es zu ss? Im Grimm muss man offenbar sz verwenden.
    71  * Was macht Celex mit Bindestrichen?
     77 * Kann man Groß-/Kleinschreibung von Wörtern zur Disambiguierung verwenden?
     78 * Was machen wir mit zusammengesetzten Wörtern? Gibt es überhaupt eine Chance, sie im Wörterbuch zu finden?
     79
     80Rückführung in eine nicht-normalisierte Form:
    7281 * Wenn man aus den Einträgen im Celex eine explizite Liste ermitteln möchte, auf welche nicht-normalisierten Wörter es reagieren würde, muss man aus der normalisierten Form alle möglichen nicht-normalisierten Wortformen erstellen. Das ist schwierig (siehe zum Beispiel [wiki:normalization/1#Weiteres hier]). Es scheint mir aber auch gar keinen Grund zu geben, warum man von der technisch bedingt normalisierten Form zurück zur Originalform kommen möchte. Das kommt mir verkehrt herum gedacht vor.
    73  * Trotzdem: Kann man die Originalform verwenden, um die korrekte Schreibung der Grundform abzuleiten? Beispiel "Wasserstraßen": Solange alles im Wort bis dahin übereinstimmt, kann man die Schreibung der Originalform übernehmen? Beispiel "flösse" mit Grundform fließen bzw. fliessen: Unterschied schon beim dritten Buchstaben: ö versus i, man kann also automatisiert nicht sagen, ob es fliessen oder fließen wäre. Außer natürlich dadurch, dass die deutsche Rechtschreibung regulär ist: nach ie muss ß stehen. Wenn man nicht in der Schweiz ist.
    74  * Gibt es in anderen Sprachen vergleichbare Probleme?
     82 * Trotzdem: Kann man die Originalform verwenden, um die korrekte Schreibung der Grundform abzuleiten? Beispiel "Wasserstraßen": Solange alles im Wort bis dahin übereinstimmt, kann man die Schreibung der Originalform übernehmen? Beispiel "flösse" mit Grundform fließen bzw. fliessen: Unterschied schon beim dritten Buchstaben: ö versus i, man kann also automatisiert nicht sagen, ob es fliessen oder fließen wäre. Außer natürlich dadurch, dass die deutsche Rechtschreibung einigermaßen regulär ist: nach ie muss ß stehen. Wenn man nicht in der Schweiz ist.
    7583
    7684Eine Liste von möglicherweise schwierigen Wörtern:
    77  * Russen: Russe -- rußen: rußen, Celex russen?, Grimm erwartet aber ruszen
    78  * flössen -- Flößen
    79  * Masse -- Maße
    80  * musste: müssen
    81  * Fußangel: Grimm erwartet Fuszangel. "automatisch erstellter Rückverweis": Fußangel.
    82  * abnötigen: Grimm erwartet abnöthigen. Hier braucht man die Normalisierung der Sprachschicht.
    83  * Zooeingang, Poet
    84  * Wasserstraße
    85  * Bäume: Baum
    86  * waren: sein
    87  * wären: sein
    88  * Schulden (kein Singular)
    89  * einzigste, maximalst
     85 * ß
     86  * Russen: Russe -- rußen: rußen, Celex russen?, Grimm erwartet aber ruszen
     87  * flössen -- Flößen: Celex kann sie nicht unterscheiden
     88  * Masse -- Maße: Celex kann sie nicht unterscheiden
     89  * mußte: müssen
     90  * Wasserstraße: ss und ß
     91  * Fußangel: Grimm erwartet Fuszangel. "automatisch erstellter Rückverweis": Fußangel.
     92 * Umlaute
     93  * musste: müssen
     94  * Bäume: Baum
     95  * Zooeingang, Poet
     96 * Suppletionen
     97  * waren: sein
     98  * wären: sein
     99 * Sprachschichten
     100  * abnötigen: Grimm erwartet abnöthigen. Hier braucht man die Normalisierung der Sprachschicht.
     101 * weiteres:
     102  * Schulden (kein Singular)
     103  * einzigste, maximalst
    90104
    91105=== Diakritika ===