Changes between Version 25 and Version 26 of normalization/7


Ignore:
Timestamp:
Jan 17, 2011, 9:58:28 AM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/7

    v25 v26  
    11[[PageOutline(1-4,,pullout)]]
    22
    3 == 7. Was ist konkret zu tun? ==
    4 
    5 === Arboreal ===
     3[wiki:normalization Regularisierung und Normalisierung],
     4I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7]
     5
     6
     7= 7. Was ist konkret zu tun? =
     8
     9== Arboreal ==
    610
    711Tippfehler und Programmfehler bei u/v-Regeln korrigieren. (Wer macht das?)
    812
    9 === XML-Texte ===
     13== XML-Texte ==
    1014
    1115Benedetti:
     
    1620Info in den Metadaten: Für diesen Text wird ein Font für medievalist characters, Extension B, Hieroglyphen etc. benötigt. Oder: Dieser Text enthält Zeichen aus den Unicode-Blöcken ... (Skript schreiben!) (Insbesondere bei PUA-Zeichen, denn offizielle Codepoints kann man immerhin bei Unicode oder oft auch bei der (englischen) Wikipedia oder Wiktionary nachschauen.)
    1721
    18 === Workflow ===
     22== Workflow ==
    1923
    2024Textkorrektur: Akut statt Tonos
     
    3135 * ersetze `<reg norm="exem" type="context">exẽ</reg> <lb/>plo` durch `<reg norm="exem- plo" type="context">exẽ-<lb/>plo</reg>` (soft hyphen!)
    3236
    33 === DESpecs ===
     37== DESpecs ==
    3438
    3539* chinesische DESpecs: bei Varianten eine ''IDS-Sequenz'' angeben lassen
    3640* uͤ versus ü markieren lassen?
    3741
    38 === Schema ===
     42== Schema ==
    3943
    4044<reg> mit type="unverified" (spätestens wenn die automatisierte Textverbesserung beginnt)
    4145
    42 === Frontend ===
     46== Frontend ==
    4347
    4448Checkbox "faithful" als Unterpunkt von Original. (Jochen: zwar einfach zu machen, aber nicht dringend)
     
    4852Der Benutzer soll für einen Text die Normalisierungen von verschiedenen Sprachschichten einstellen können. Also in den extended-Optionen für jede Sprache die Wahl zwischen allen vorhandenen Normalisierungen. Wenn das Backend die Information liefert, ob ein Text <place> enthält, könnte man vielleicht auch herausfinden, welche Sprachen er laut den xml:lang-Attributen im Text enthält, und in den Optionen nur diese Sprachen auflisten?
    4953
    50 === Backend ===
     54== Backend ==
    5155
    5256Modulare Architektur:
     
    8185Durchgehen: was genau sind die spezifischen Anforderungen der von uns verwendeten Wörterbücher?
    8286
    83 === sprachspezifische Normalisierungen ===
     87== sprachspezifische Normalisierungen ==
    8488
    8589alle Sprachen:
     
    9599 * Es gibt kein sprachunabhängiges Normalisierungsmodul mit allgemeinen Regeln wie "ſ wird zu s", denn es wird immer irgendwelche Ausnahmen geben. Stattdessen wird "ſ wird zu s" bei jeder auf dem lateinischen Alphabet beruhenden Sprache wiederholt.
    96100 
    97 === Latein ===
     101== Latein ==
    98102
    99103 * ſ wird zu s
     
    169173Wir sollten uns mal zusammensetzen, um zu gucken, wie die technisch bedingte Normalisierung aussehen soll. Es ist klar, dass Zeichen wie ẽ oder û nicht an Pollux geschickt werden sollten, weil Pollux nicht mit Unicode umgehen kann. Vermutlich läuft es darauf hinaus, dass die Diakritika nicht wie bei Malcolm einfach entfernt werden, sondern dass solche Wörter gar nicht erst an Pollux geschickt werden. Für die Index-Erstellung sollte es aber okay sein, die Wörter zu schicken. Dann sind eben Wörter wie Praeterquàmquod im Index. (Original ist Pręterquàmquòd, und ich gehe von einer Regel -òd aus; wird P im Index zu p, also praeterquàmquod? Wenn ja, macht Lucene das selbst?)
    170174
    171 === Italienisch ===
     175== Italienisch ==
    172176
    173177 * ſ wird zu s
    174178 * u/v-Regeln
    175179
    176 === Englisch ===
    177 
    178  * ſ wird zu s
    179 
    180 === Französisch ===
     180== Englisch ==
     181
     182 * ſ wird zu s
     183
     184== Französisch ==
    181185
    182186 * ſ wird zu s
    183187 * u/v-Regeln?
    184188
    185 === Deutsch ===
     189== Deutsch ==
    186190
    187191 * ſ wird zu s
     
    189193  * Umlaute
    190194
    191 === Chinesisch ===
     195== Chinesisch ==
    192196
    193197 * Wortliste mit Einträgen der Form "Standard: Variante1 Variante2 etc." Beispiel: "歷: 歴"
    194198 * entferne ''ZWS''
    195199
    196 === Griechisch ===
     200== Griechisch ==
    197201
    198202 * nur Wörterbuch, sprachimmanent: