Changes between Version 6 and Version 7 of normalization/7


Ignore:
Timestamp:
Dec 13, 2010, 11:27:28 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/7

    v6 v7  
    55=== Arboreal ===
    66
    7 Tippfehler und Programmfehler bei u/v-Regeln korrigieren.
     7Tippfehler und Programmfehler bei u/v-Regeln korrigieren. (Wer macht das?)
    88
    99=== XML-Texte ===
     
    2222 * ersetze `<reg norm="exem" type="context">exẽ</reg> <lb/>plo` durch `<reg norm="exem- plo" type="context">exẽ-<lb/>plo</reg>`
    2323
    24 === DESPecs ===
     24=== DESpecs ===
    2525
    26 * chinesische DESpecs: bei Varianten eine IDS-Sequenz angeben lassen
     26* chinesische DESpecs: bei Varianten eine ''IDS-Sequenz'' angeben lassen
    2727* uͤ versus ü markieren lassen?
    2828
     
    3535Checkbox "faithful" als Unterpunkt von Original.
    3636
    37 Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen MUFI-kompatiblen Font wie Andron, Junicode oder Palemonas.
     37Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen ''MUFI''-kompatiblen Font wie Andron, Junicode oder Palemonas.
    3838
    3939=== Backend ===
    4040
    4141Modulare Architektur:
    42  * Zwei Lex-Dateien pro Sprache, eine für die Textanzeige und eine für die Wörterbuch-Normalisierung. In manchen Sprachen weitere Aufteilung in Sprachschichten. Falls gewünscht, schreibe ich die Lex-Dateien zumindest für die Textanzeige.
     42 * Zwei ''Lex''-Dateien pro Sprache, eine für die Textanzeige und eine für die Wörterbuch-Normalisierung. In manchen Sprachen weitere Aufteilung in Sprachschichten. Falls gewünscht, schreibe ich die Lex-Dateien zumindest für die Textanzeige.
    4343 * Regeln sollten leicht änderbar sein, indem man eine Lex-Datei ändert, ohne in den Java-Code eingreifen zu müssen; sowohl bei einfachen Ersetzungsregeln als auch bei algorithmischen Regeln wie u/v.
    4444 * Änderungen sollten im System sofort sichtbar sein. Wenn die Lex-Dateien in Java umgewandelt werden müssen, sollte das idealerweise per Knopfdruck möglich sein.
    4545 * Die Architektur muss mit offenen Klassen wie der chinesischen Zeichenliste umgehen können, wo gelegentlich Zeichen von studentischen Hilfskräften nachgetragen werden.
    46  * Ein wichtiges Ziel ist, die Kommunikation mit den Wörterbüchern auf Unicode umzustellen. Falls zum Beispiel bei Griechisch weiterhin Betacode verwendet werden muss, brauchen wir eine modulare Architektur mit einer Unicode-Schnittstelle und kleinen Konvertierungsmodulen für die Wörterbücher, die leicht angepasst werden können. Wahrscheinlich sollten wir auch zwischen sprachimmanenten Änderungen wie "Gravis wird zu Akut" und technisch bedingten Änderungen wie "Unicode wird zu Betacode" unterscheiden.
     46 * Trennung von sprachimmanenter Normalisierung (Beispiel "Gravis wird zu Akut") und technisch bedingter Normalisierung (Beispiel "Unicode wird zu Betacode"). Die technisch bedingte Normalisierung ist der sprachimmanenten Normalisierung nachgeschaltet.
     47  * Intern verwenden wir reines Unicode. Ein wichtiges Ziel ist, auch die Wörterbücher auf Unicode umzustellen. Falls aber zum Beispiel bei Griechisch weiterhin Betacode verwendet werden muss, brauchen wir eine modulare Architektur mit einer Unicode-Schnittstelle und kleinen Konvertierungsmodulen für die Wörterbücher, die leicht angepasst werden können.
     48  * Die Umwandlung von Käse in Kaese für ein bestimmtes Wörterbuch ist ein Beispiel eine technisch bedingte Normalisierung, die schon für das nächste Wörterbuch in der gleichen Sprache nicht zutrifft.
     49  * Aus Performance-Gründen kann man dann die Normalisierungen eventuell automatisiert zusammenfassen. Dieser Vorgang müsste bei jeder Änderung an den Original-Modulen wiederholt werden.
     50 
     51Zentrales repository ("authority file") für die {}-Sequenzen aus dem faithful-Attribut: {πρ}, {q3-it-a}, {⿴口或} etc., mit Angaben, wie diese Sequenzen dargestellt werden. (Wenn es zu einer Sequenz keine Angabe oder Dateinamen gibt, wird sie unverändert angezeigt.)
    4752
    4853Die Informationen im faithful-Attribut sollen sinnvoll suchbar sein.
     
    8792Chinesisch:
    8893 * Wortliste mit Einträgen der Form "Standard: Variante1 Variante2 etc." Beispiel: "歷: 歴"
    89  * entferne ZWS
     94 * entferne ''ZWS''
    9095
    9196Griechisch: