36 | | Normalisierung meint in der Regel die Normalisierung für die Textanzeige. Abweichende Normalisierungen für !Pollux/Donatus werden zwar auch angegeben, aber ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. Beispielsweise weiß ich nicht, an welcher Stelle der Unterschied zwischen Groß- und Kleinbuchstaben nivelliert wird, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden. |
37 | | |
38 | | Insbesondere ist mir unklar, warum man von der normalisierten Form zurück zur Originalform kommen möchte. Wenn das Wörterbuch beispielsweise ö zu oe normalisiert und deshalb das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten kann, wird Poebene angezeigt und mit dem Eintrag für Poebene verbunden. |
39 | | |
40 | | Die Normalisierung für das Wörterbuch ist unabhängig vom gerade aktiven Textanzeigemodus: Jede Anfrage an das Wörterbuch wird auf Basis des regularisierten Wortes normalisiert. |
41 | | |
42 | | Ich gehe der Einfachheit halber davon aus, dass die Normalisierung (Groß- zu Kleinbuchstaben, Entfernen unnötiger Diakritika, chinesische Standardzeichen, Gravis wird Akut) auf unserer Seite stattfindet, und dass die Wörterbücher mit Unicode umgehen können und kein Betacode etc. erwarten. |
| 36 | Die Normalisierung für eine Sprache teilt sich auf in die Normalisierung für die Textanzeige und für das Wörterbuch. Die Normalisierung für das Wörterbuch ist unabhängig vom gerade aktiven Textanzeigemodus: Jede Anfrage an das Wörterbuch wird auf Basis des regularisierten Wortes normalisiert. |
| 37 | |
| 38 | Die Normalisierung für das Wörterbuch teilt sich noch einmal auf: |
| 39 | * sprachimmanent (Beispiel "Gravis wird zu Akut") |
| 40 | * technisch bedingt (Beispiel "Unicode wird zu Betacode") |
| 41 | |
| 42 | Sprachimmanente Normalisierungen treffen auf alle Wörterbücher zu. Ich gehe der Einfachheit halber davon aus, dass die in der [wiki:normalization/4 Tabelle] beschriebenen Normalisierungen (Groß- zu Kleinbuchstaben, Entfernen unnötiger Diakritika, chinesische Standardzeichen, Gravis wird Akut) alle sprachimmanent sind, mit der Ausnahme "Kaese" für Celex. Zum Beispiel bei der Umwandlung in Kleinbuchstaben, um ein Wort in Großbuchstaben trotzdem im Wörterbuch zu finden, bin ich mir jedoch nicht sicher, ob sie wirklich sprachimmanent ist. Wenn ein Wörterbuch keine Schwierigkeiten mit Großbuchstaben hat, zum Beispiel weil es Großbuchstaben intern selbst in Kleinbuchstaben umwandelt, müssen wir es nicht normalisieren. |
| 43 | |
| 44 | Zu technisch bedingten Normalisierungen kann ich nicht viel sagen. Ich weiß nicht genau, wie die Schnittstelle zu den jeweiligen Wörterbüchern funktioniert und welche Kodierungen dabei verwendet werden. |
| 45 | |
| 46 | Die sprachimmanente und die technisch bedingte Normalisierung werden hintereinander geschaltet: zuerst sprachimmanent, dann technisch bedingt. In einer Sprache kann es mehr als ein technisch bedingtes Normalisierungsmodul geben, wenn verschiedene Wörterbücher verschiedene Normalisierungen erwarten. Ein Beispiel ist Celex versus Grimmsches Wörterbuch: Celex erwartet "Kaese", Grimm kann mit "Käse" umgehen. Ein Wörterbuch kann auch gar keine zusätzliche Normalisierung benötigen. |
| 47 | |
| 48 | Es scheint mir keinen Grund zu geben, warum man von der technisch bedingt normalisierten Form zurück zur Originalform kommen möchte. Das kommt mir verkehrt herum gedacht vor. Wenn Celex beispielsweise ö zu oe normalisiert und deshalb das Wort Poebene und das fiktive Wort Pöbene nicht auseinanderhalten kann, kann der Text dieses Problem einfach ignorieren. Im Text wird das Wort korrekt angezeigt, und sowohl Poebene als auch Pöbene werden mit dem Eintrag für Poebene verbunden. |
61 | | Es ist noch nicht klar, wie wir mit verschiedenen Sprachschichten umgehen sollen. Wahrscheinlich muss es unterschiedliche Normalisierungen für unterschiedliche Sprachschichten geben. Beispielsweise ist es nicht sinnvoll, alle deutschen Texte auf die moderne Rechtschreibung zu normalisierten. |
62 | | |
63 | | Ein Beispiel im Lateinischen: Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). Eine Wortliste? Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Wäre das eine Aufgabe der Normalisierung? Gegen Regularisierung spricht: es ist kein Textfehler und auch nicht buchspezifisch.) Möglicherweise brauchen wir eine Sprachschicht "Mittellatein". Als Alternative zum Standard-Latein oder als nachgeschaltetes Modul? Oder als buchspezifisches Normalisierung, eventuell als overlay? Wäre auch bei Alvarus eine buchspezifische Normalisierung sinnvoll, um sich einen großen Teil der Regularisierungen im Text zu sparen? Oder wird unser System damit zu zersplittert? Unsere Texte könnten dann praktisch nur noch bei uns korrekt angezeigt werden. |
| 67 | Dieser Abschnitt ist noch nicht fertig ausgearbeitet. Es ist noch nicht klar, wie wir mit verschiedenen Sprachschichten umgehen sollen. Sehr wahrscheinlich muss es aber unterschiedliche Normalisierungen für unterschiedliche Sprachschichten geben. Beispielsweise ist es nicht sinnvoll, alle deutschen Texte auf die moderne Rechtschreibung zu normalisieren. |
| 68 | |
| 69 | Sprachschicht meint eine Art Verfeinerung von Sprachstufen. Der Begriff Sprachstufe, also zum Beispiel Mittelhochdeutsch, Frühneuhochdeutsch und Neuhochdeutsch, ist wohl zu grob für unsere Zwecke. Ein Text von 1890 und von 1910 unterscheidet sich durch die unterschiedliche Schreibung von Thier versus Tier, aber es sind keine verschiedenen Sprachstufen. |
| 70 | |
| 71 | Reicht es im Deutschen, nur für die Wörterbücher zu normalisieren? Dann würde zum Beispiel "worinn" angezeigt werden, aber der Wörterbucheintrag für "worin" gezeigt werden. Oder erwartet der Benutzer, dass das Wort in der normalisierten Textanzeige so aussieht wie das nachgeschlagene Wort? Problem ist, dass dem Benutzer bei deutschsprachigen Texten bei einem Unterschied zwischen beiden Formen nicht klar sein muss, ob unser System sich etwas dabei gedacht hat oder ob es schlicht geraten hat und eventuell den falschen Wörterbucheintrag anzeigt. |
| 72 | |
| 73 | Ein Beispiel im Lateinischen: Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden). |
| 74 | * Möglicherweise brauchen wir eine Sprachschicht "Mittellatein". Als Alternative zum Standard-Latein oder als vor- oder nachgeschaltetes Modul? |
| 75 | * Eine Wortliste, oder Ersetzungsregeln? |
| 76 | * Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Wäre das eine Aufgabe der Normalisierung? Gegen Regularisierung spricht: es ist kein Textfehler und auch nicht buchspezifisch.) |
| 77 | * Oder als buchspezifisches Normalisierung, eventuell als overlay? Wäre auch bei Alvarus eine buchspezifische Normalisierung sinnvoll, um sich einen großen Teil der Regularisierungen im Text zu sparen? Oder wird unser System damit zu zersplittert? Unsere Texte könnten dann praktisch nur noch bei uns korrekt angezeigt werden. |