wiki:normalization/7

Version 4 (modified by Wolfgang Schmidle, 13 years ago) (diff)

--

5. Was ist konkret zu tun?

Arboreal

Tippfehler und Programmfehler bei u/v-Regeln korrigieren.

XML-Texte

Benedetti:

  • entferne <reg> für ę

Frontend

Checkbox "faithful" als Unterpunkt von Original.

Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen MUFI-kompatiblen Font wie Andron, Junicode oder Palemonas.

Backend

Modulare Architektur:

  • Zwei Lex-Dateien pro Sprache, eine für die Textanzeige und eine für die Wörterbuch-Normalisierung. In manchen Sprachen weitere Aufteilung in Sprachschichten. Falls gewünscht, schreibe ich die Lex-Dateien zumindest für die Textanzeige.
  • Regeln sollten leicht änderbar sein, indem man eine Lex-Datei ändert, ohne in den Java-Code eingreifen zu müssen; sowohl bei einfachen Ersetzungsregeln als auch bei algorithmischen Regeln wie u/v.
  • Änderungen sollten im System sofort sichtbar sein. Wenn die Lex-Dateien in Java umgewandelt werden müssen, sollte das idealerweise per Knopfdruck möglich sein.
  • Die Architektur muss mit offenen Klassen wie der chinesischen Zeichenliste umgehen können, wo gelegentlich Zeichen von studentischen Hilfskräften nachgetragen werden.
  • Ein wichtiges Ziel ist, die Kommunikation mit den Wörterbüchern auf Unicode umzustellen. Falls zum Beispiel bei Griechisch weiterhin Betacode verwendet werden muss, brauchen wir eine modulare Architektur mit einer Unicode-Schnittstelle und kleinen Konvertierungsmodulen für die Wörterbücher, die leicht angepasst werden können. Wahrscheinlich sollten wir auch zwischen sprachimmanenten Änderungen wie "Gravis wird zu Akut" und technisch bedingten Änderungen wie "Unicode wird zu Betacode" unterscheiden.

Die Informationen im faithful-Attribut sollen sinnvoll suchbar sein.

Langfristig sollen zumindest die IDS- und IVS-Sequenzen als jeweils ein einziges Zeichen anzeigbar sein, siehe Ticket #40.

sprachspezifische Normalisierungen

alle Sprachen:

  • ſ wird zu s
  • Umgang mit Zeilenumbrüchen (siehe auch Tickets #62 und #82)

Latein:

  • ß zu ss
  • æ und ę zu ae
  • œ wird zu oe
  • ij wird zu ii
  • u/v-Regeln
  • nur Anzeige:
    • ò ô ö werden zu o, entsprechend für alle Vokale
  • nur Wörterbuch:
    • ò wird zu o; entsprechend für alle Vokale
    • ô wird zu o; Wortform-Disambiguierung; entsprechend für alle Vokale
    • ö wird zu o; entsprechend für alle Vokale

Italienisch:

  • u/v-Regeln

Englisch:

  • nichts?

Französisch:

  • nichts?

Deutsch (modern):

  • nur Wörterbuch (Celex):
    • Umlaute
    • é zu e?

Chinesisch:

  • Wortliste mit Einträgen der Form "Standard: Variante1 Variante2 etc." Beispiel: "歷: 歴"
  • entferne ZWS

Griechisch:

  • nur Wörterbuch:
    • Gravis wird zu Akut
    • Sigma: siehe #64