Changes between Version 1 and Version 2 of normalization/7


Ignore:
Timestamp:
Dec 10, 2010, 10:33:26 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/7

    v1 v2  
    11[[PageOutline(1-4,,pullout)]]
    22
    3 == 5. Was ist zu tun? ==
     3== 5. Was ist konkret zu tun? ==
     4
     5=== Arboreal ===
     6
     7Tippfehler und Programmfehler bei u/v korrigieren.
     8
     9=== XML-Texte ===
     10
     11Benedetti:
     12 * entferne <reg> für ę
     13 
     14
     15=== Frontend ===
     16
     17Checkbox "faithful" als Unterpunkt von Original.
     18
     19Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen MUFI-kompatiblen Font wie Andron, Junicode oder Palemonas.
     20
     21=== Backend ===
    422
    523Modulare Architektur:
    6  * zwei Lex-Dateien pro Sprache
    7  * Regeln sollten leicht änderbar sein, indem man eine Lex-Datei ändert, ohne in den Java-Code eingreifen zu müssen; sowohl einfache Ersetzungsregeln als auch algorithmische Regeln wie u/v.
     24 * zwei Lex-Dateien pro Sprache, eine für die Textanzeige und eine für die Wörterbuch-Normalisierung (falls gewünscht, schreibe ich die Lex-Dateien zumindest für die Textanzeige)
     25 * Regeln sollten leicht änderbar sein, indem man eine Lex-Datei ändert, ohne in den Java-Code eingreifen zu müssen; sowohl bei einfachen Ersetzungsregeln als auch bei algorithmischen Regeln wie u/v.
     26 * Änderungen sollten im System sofort sichtbar sein. Wenn die Lex-Dateien in Java umgewandelt werden müssen, sollte das idealerweise per Knopfdruck möglich sein.
    827 * Die Architektur muss mit offenen Klassen wie der chinesischen Zeichenliste umgehen können, wo gelegentlich Zeichen von studentischen Hilfskräften nachgetragen werden.
    928
    10 Der Benutzer muss gewarnt werden, dass er für Original/faithful eventuell bestimmte Fonts installieren muss, zum Beispiel eine MUFI-kompatiblen Font wie Andron, Junicode oder Palemonas.
     29Ein wichtiges Ziel ist, die Kommunikation mit den Wörterbüchern auf Unicode umzustellen. Falls zum Beispiel bei Griechisch weiterhin Betacode verwendet werden muss, brauchen wir eine modulare Architektur mit kleinen Konvertierungsmodulen, die leicht angepasst werden können.
    1130
    12 Ein wichtiges Ziel ist, die Kommunikation mit den Wörterbüchern auf Unicode umzustellen. Falls zum Beispiel bei Griechisch weiterhin Betacode verwendet werden muss, brauchen wir eine modulare Architektur mit kleinen Konvertierungsmodulen, die leicht angepasst werden können.
     31Langfristig sollen die Informationen im faithful-Attribut sinnvoll suchbar sein. Zumindest die IDS- und IVS-Sequenzen sollen als jeweils ein einziges Zeichen anzeigbar sein, siehe Ticket [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/40 #40].
     32
     33=== sprachspezifische Normalisierungen ===
     34
     35alle Sprachen:
     36 * ſ wird zu s
     37 * Umgang mit Zeilenumbrüchen
     38 
     39Latein:
     40 * ß zu ss
     41 * æ und ę zu ae
     42 * œ wird zu oe
     43 * ij wird zu ii
     44 * u/v-Regeln
     45 * Anzeige:
     46  * ò ô ö werden zu o, entsprechend für alle Vokale
     47 * Wörterbuch:
     48  * ò wird zu o; entsprechend für alle Vokale
     49  * ô wird zu o; Wortform-Disambiguierung; entsprechend für alle Vokale
     50  * ö wird zu o; entsprechend für alle Vokale