Changes between Version 23 and Version 24 of normalization/6


Ignore:
Timestamp:
Dec 13, 2010, 11:23:52 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v23 v24  
    2626 * keine Abkürzungszeichen mehr im Text
    2727 * keine ''PUA''-Zeichen mehr im Text
    28  * der Text ist in ''NFC''-Normalform
     28 * der Text ist in ''NFC-Normalform''
    2929
    3030Natürlich muss die Normalisierung mit der Textversion arbeiten, die sie vorfindet. Formal gesagt: Für Wörter mit <reg> und einem norm-Attribut in diesem <reg> arbeitet die Normalisierung nicht mit dem originalen Wort, sondern mit der Version im norm-Attribut. Bei Wörtern ohne <reg>, oder mit einem <reg> ohne norm-Attribut, wird das originale Wort verwendet.
     
    3434=== Textanzeige und Wörterbücher ===
    3535
    36 Normalisierung meint in der Regel die Normalisierung für die Textanzeige. Abweichende Normalisierungen für !Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden.
    37 
    38 Insbesondere ist mir unklar, warum man von der normalisierten Form zurück zur Originalform kommen möchte. Wenn das Wörterbuch beispielsweise ö zu oe normalisiert und deshalb das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten kann, wird Poebene angezeigt und mit dem Eintrag für Poebene verbunden.
    39 
    40 Die Normalisierung für das Wörterbuch ist unabhängig vom gerade aktiven Textanzeigemodus: Jede Anfrage an das Wörterbuch wird auf Basis des regularisierten Wortes normalisiert.
    41 
    42 Ich gehe der Einfachheit halber davon aus, dass die Normalisierung (Groß- zu Kleinbuchstaben, Entfernen unnötiger Diakritika, chinesische Standardzeichen, Gravis wird Akut) auf unserer Seite stattfindet, und dass die Wörterbücher mit Unicode umgehen können und kein Betacode etc. erwarten.
     36Die Normalisierung für eine Sprache teilt sich auf in die Normalisierung für die Textanzeige und für das Wörterbuch. Die Normalisierung für das Wörterbuch ist unabhängig vom gerade aktiven Textanzeigemodus: Jede Anfrage an das Wörterbuch wird auf Basis des regularisierten Wortes normalisiert.
     37
     38Die Normalisierung für das Wörterbuch teilt sich noch einmal auf:
     39 * sprachimmanent (Beispiel "Gravis wird zu Akut")
     40 * technisch bedingt (Beispiel "Unicode wird zu Betacode")
     41
     42Sprachimmanente Normalisierungen treffen auf alle Wörterbücher zu. Ich gehe der Einfachheit halber davon aus, dass die in der [wiki:normalization/4 Tabelle] beschriebenen Normalisierungen (Groß- zu Kleinbuchstaben, Entfernen unnötiger Diakritika, chinesische Standardzeichen, Gravis wird Akut) alle sprachimmanent sind, mit der Ausnahme "Kaese" für Celex. Zum Beispiel bei der Umwandlung in Kleinbuchstaben, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden, bin ich mir jedoch nicht sicher, ob sie wirklich sprachimmanent ist. Wenn ein Wörterbuch keine Schwierigkeiten mit Großbuchstaben hat, zum Beispiel weil es Großbuchstaben intern selbst in Kleinbuchstaben umwandelt, müssen wir es nicht normalisieren.
     43
     44Zu technisch bedingten Normalisierungen kann ich nicht viel sagen. Ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden.
     45
     46Die sprachimmanente und die technisch bedingte Normalisierung werden hintereinander geschaltet: zuerst sprachimmanent, dann technisch bedingt. In einer Sprache kann es mehr als ein technisch bedingtes Normalisierungsmodul geben, wenn verschiedene Wörterbücher verschiedene Normalisierungen erwarten. Ein Beispiel ist Celex versus Grimmsches Wörterbuch: Celex erwartet "Kaese", Grimm kann mit "Käse" umgehen. Ein Wörterbuch kann auch gar keine zusätzliche Normalisierung benötigen.
     47
     48Es scheint mir keinen Grund zu geben, warum man von der technisch bedingt normalisierten Form zurück zur Originalform kommen möchte. Das kommt mir verkehrt herum gedacht vor. Wenn Celex beispielsweise ö zu oe normalisiert und deshalb das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten kann, kann der Text dieses Problem einfach ignorieren. Im Text wird das Wort korrekt angezeigt, und sowohl Poebene als auch Pöbene werden mit dem Eintrag für Poebene verbunden.
    4349
    4450=== Diakritika ===
     
    5965=== Sprachschichten ===
    6066
    61 Es ist noch nicht klar, wie wir mit verschiedenen Sprachschichten umgehen sollen. Wahrscheinlich muss es unterschiedliche Normalisierungen für unterschiedliche Sprachschichten geben. Beispielsweise ist es nicht sinnvoll, alle deutschen Texte auf die moderne Rechtschreibung zu normalisierten.
    62 
    63 Ein Beispiel im Lateinischen: Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). Eine Wortliste? Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Wäre das eine Aufgabe der Normalisierung? Gegen Regularisierung spricht: es ist kein Textfehler und auch nicht buchspezifisch.) Möglicherweise brauchen wir eine Sprachschicht "Mittellatein". Als Alternative zum Standard-Latein oder als nachgeschaltetes Modul? Oder als buchspezifisches Normalisierung, eventuell als overlay? Wäre auch bei Alvarus eine buchspezifische Normalisierung sinnvoll, um sich einen großen Teil der Regularisierungen im Text zu sparen? Oder wird unser System damit zu zersplittert? Unsere Texte könnten dann praktisch nur noch bei uns korrekt angezeigt werden.
     67Dieser Abschnitt ist noch nicht fertig ausgearbeitet. Es ist noch nicht klar, wie wir mit verschiedenen Sprachschichten umgehen sollen. Sehr wahrscheinlich muss es aber unterschiedliche Normalisierungen für unterschiedliche Sprachschichten geben. Beispielsweise ist es nicht sinnvoll, alle deutschen Texte auf die moderne Rechtschreibung zu normalisieren.
     68
     69Sprachschicht meint eine Art Verfeinerung von Sprachstufen. Der Begriff Sprachstufe, also zum Beispiel Mittelhochdeutsch, Frühneuhochdeutsch und Neuhochdeutsch, ist wohl zu grob für unsere Zwecke. Ein Text von 1890 und von 1910 unterscheidet sich durch die unterschiedliche Schreibung von Thier versus Tier, aber es sind keine verschiedenen Sprachstufen.
     70
     71Reicht es im Deutschen, nur für die Wörterbücher zu normalisieren? Dann würde zum Beispiel "worinn" angezeigt werden, aber der Wörterbucheintrag für "worin" gezeigt werden. Oder erwartet der Benutzer, dass das Wort in der normalisierten Textanzeige so aussieht wie das nachgeschlagene Wort? Problem ist, dass dem Benutzer bei deutschsprachigen Texten bei einem Unterschied zwischen beiden Formen nicht klar sein muss, ob unser System sich etwas dabei gedacht hat oder ob es schlicht geraten hat und eventuell den falschen Wörterbucheintrag anzeigt.
     72
     73Ein Beispiel im Lateinischen: Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden).
     74 * Möglicherweise brauchen wir eine Sprachschicht "Mittellatein". Als Alternative zum Standard-Latein oder als vor- oder nachgeschaltetes Modul?
     75 * Eine Wortliste, oder Ersetzungsregeln?
     76 * Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Wäre das eine Aufgabe der Normalisierung? Gegen Regularisierung spricht: es ist kein Textfehler und auch nicht buchspezifisch.)
     77 * Oder als buchspezifisches Normalisierung, eventuell als overlay? Wäre auch bei Alvarus eine buchspezifische Normalisierung sinnvoll, um sich einen großen Teil der Regularisierungen im Text zu sparen? Oder wird unser System damit zu zersplittert? Unsere Texte könnten dann praktisch nur noch bei uns korrekt angezeigt werden.
    6478
    6579=== Standard-Normalisierungen in allen Sprachen ===
     
    7084 * Als normalisierenswerte Diakritika kommen in der Regel nur ó ò ô ö õ ō ŏ in Frage, alle anderen Diakritika werden nicht normalisiert.
    7185 * Umgang mit hyphen und soft hyphen, <lb/> etc.
    72  * Umgang mit combining characters versus precomposed characters
     86 * Umgang mit ''combining characters'' versus ''precomposed characters''
    7387 * Falls nicht anders angegeben, gelten für Kleinbuchstaben aufgestellten Regeln in der Textanzeige entsprechend auch für eventuelle Großbuchstaben. (In der Normalisierung für das Wörterbuch entfällt die Version für Großbuchstaben, weil vermutlich nur Kleinbuchstaben weitergeleitet werden.) Beispiele:
    7488  * Aus "ò wird zu o" folgt die Regel "Ò wird zu O".
     
    96110   * Was ist mit ó ŏ ?
    97111   * Andere Diakritika werden nicht normalisiert. Insbesondere die Zeichen 1E14-1E1D und 1EB8-1EC7 und die Äquivalente für die anderen Vokale werden nicht normalisiert.
    98  * Medievalist characters wie ꝙ (A759) sollten regularisiert sein. Wenn sie doch noch enthalten sind, werden sie nicht normalisiert.
    99  * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in Lex.
     112 * ''Medievalist characters'' wie ꝙ (A759) sollten regularisiert sein. Wenn sie doch noch enthalten sind, werden sie nicht normalisiert.
     113 * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in ''Lex''.
    100114 
    101115Überflüssige Diakritika können zur Lemma- und-Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden:
     
    147161=== Fraktur ===
    148162
    149 Mir ist noch nicht klar, ob {uo} mit einem MUFI-PUA-Zeichen oder als zuͦ geschrieben werden sollte. Diese Entscheidung findet aber vor der Normalisierung statt. Im ersten Fall findet die Normalisierung "zu" vor, im zweiten Fall "zuͦ".
     163Mir ist noch nicht klar, ob {uo} mit einem ''MUFI''-''PUA''-Zeichen oder als zuͦ geschrieben werden sollte. Diese Entscheidung findet aber vor der Normalisierung statt. Im ersten Fall findet die Normalisierung "zu" vor, im zweiten Fall "zuͦ".
    150164
    151165Für die Normalisierung gibt es also die Regel: uͦ wird zu u.