Changes between Version 24 and Version 25 of normalization/6


Ignore:
Timestamp:
Dec 13, 2010, 11:48:00 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v24 v25  
    4646Die sprachimmanente und die technisch bedingte Normalisierung werden hintereinander geschaltet: zuerst sprachimmanent, dann technisch bedingt. In einer Sprache kann es mehr als ein technisch bedingtes Normalisierungsmodul geben, wenn verschiedene Wörterbücher verschiedene Normalisierungen erwarten. Ein Beispiel ist Celex versus Grimmsches Wörterbuch: Celex erwartet "Kaese", Grimm kann mit "Käse" umgehen. Ein Wörterbuch kann auch gar keine zusätzliche Normalisierung benötigen.
    4747
    48 Es scheint mir keinen Grund zu geben, warum man von der technisch bedingt normalisierten Form zurück zur Originalform kommen möchte. Das kommt mir verkehrt herum gedacht vor. Wenn Celex beispielsweise ö zu oe normalisiert und deshalb das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten kann, kann der Text dieses Problem einfach ignorieren. Im Text wird das Wort korrekt angezeigt, und sowohl Poebene als auch Pöbene werden mit dem Eintrag für Poebene verbunden.
     48Im Meeting 2010-12-10 haben wir über das Problem des "Zurückschickens" gesprochen, also dem Versuch, aus der technisch bedingt normalisierten Form zurück zur Originalform zu kommen. Beispielsweise wird bei Celex der Umlaut ö zu oe normalisiert, und deshalb kann Celex das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten. Wenn man also aus den Einträgen im Celex eine explizite Liste ermitteln möchte, auf welche nicht-normalisierten Wörter es reagieren würde, muss man aus der normalisierten Form alle möglichen nicht-normalisierten Wortformen erstellen. Das ist schwierig (siehe zum Beispiel [wiki:normalization/1#Weiteres hier]). Es scheint mir aber auch gar keinen Grund zu geben, warum man von der technisch bedingt normalisierten Form zurück zur Originalform kommen möchte. Das kommt mir verkehrt herum gedacht vor. Wenn Celex beispielsweise ö zu oe normalisiert und deshalb das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten kann, kann der Text dieses Problem einfach ignorieren. Im Text wird das Wort korrekt angezeigt, und sowohl Poebene als auch Pöbene werden zu Poebene normalisiert und dann mit dem Eintrag für Poebene verbunden.
    4949
    5050=== Diakritika ===