Changes between Version 2 and Version 3 of normalization/7


Ignore:
Timestamp:
Dec 10, 2010, 11:07:28 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/7

    v2 v3  
    2222
    2323Modulare Architektur:
    24  * zwei Lex-Dateien pro Sprache, eine für die Textanzeige und eine für die Wörterbuch-Normalisierung (falls gewünscht, schreibe ich die Lex-Dateien zumindest für die Textanzeige)
     24 * Zwei Lex-Dateien pro Sprache, eine für die Textanzeige und eine für die Wörterbuch-Normalisierung. In manchen Sprachen weitere Aufteilung in Sprachschichten. Falls gewünscht, schreibe ich die Lex-Dateien zumindest für die Textanzeige.
    2525 * Regeln sollten leicht änderbar sein, indem man eine Lex-Datei ändert, ohne in den Java-Code eingreifen zu müssen; sowohl bei einfachen Ersetzungsregeln als auch bei algorithmischen Regeln wie u/v.
    2626 * Änderungen sollten im System sofort sichtbar sein. Wenn die Lex-Dateien in Java umgewandelt werden müssen, sollte das idealerweise per Knopfdruck möglich sein.
     
    2929Ein wichtiges Ziel ist, die Kommunikation mit den Wörterbüchern auf Unicode umzustellen. Falls zum Beispiel bei Griechisch weiterhin Betacode verwendet werden muss, brauchen wir eine modulare Architektur mit kleinen Konvertierungsmodulen, die leicht angepasst werden können.
    3030
    31 Langfristig sollen die Informationen im faithful-Attribut sinnvoll suchbar sein. Zumindest die IDS- und IVS-Sequenzen sollen als jeweils ein einziges Zeichen anzeigbar sein, siehe Ticket [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/40 #40].
     31Die Informationen im faithful-Attribut sollen sinnvoll suchbar sein.
     32
     33Langfristig sollen zumindest die IDS- und IVS-Sequenzen als jeweils ein einziges Zeichen anzeigbar sein, siehe Ticket [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/40 #40].
    3234
    3335=== sprachspezifische Normalisierungen ===
     
    3537alle Sprachen:
    3638 * ſ wird zu s
    37  * Umgang mit Zeilenumbrüchen
     39 * Umgang mit Zeilenumbrüchen (siehe auch Tickets [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/62 #62] und [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/82 #82])
    3840 
    3941Latein:
     
    4345 * ij wird zu ii
    4446 * u/v-Regeln
    45  * Anzeige:
     47 * nur Anzeige:
    4648  * ò ô ö werden zu o, entsprechend für alle Vokale
    47  * Wörterbuch:
     49 * nur Wörterbuch:
    4850  * ò wird zu o; entsprechend für alle Vokale
    4951  * ô wird zu o; Wortform-Disambiguierung; entsprechend für alle Vokale
    5052  * ö wird zu o; entsprechend für alle Vokale
     53
     54Italienisch:
     55 * u/v-Regeln
     56
     57Englisch:
     58 * nichts?
     59
     60Französisch:
     61 * nichts?
     62
     63Deutsch (modern):
     64 * nur Wörterbuch (Celex):
     65  * Umlaute
     66  * é zu e?
     67
     68Chinesisch:
     69 * Wortliste mit Einträgen der Form "Standard: Variante1 Variante2 etc." Beispiel: "歷: 歴"
     70 * entferne ZWS
     71
     72Griechisch:
     73 * nur Wörterbuch:
     74  * Gravis wird zu Akut
     75  * Sigma: siehe [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/64 #64]
     76