Context Navigation

← Previous Change
Wiki History
Next Change →

Changes between Version 25 and Version 26 of normalization/7

Timestamp:: Jan 17, 2011, 9:58:28 AM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/7

-                      v25
+                      v26
 [[PageOutline(1-4,,pullout)]]
+== 7. Was ist konkret zu tun? ==
+=== Arboreal ===
+[wiki:normalization Regularisierung und Normalisierung],
+I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7]
+= 7. Was ist konkret zu tun? =
+== Arboreal ==
 Tippfehler und Programmfehler bei u/v-Regeln korrigieren. (Wer macht das?)
 === XML-Texte ===
+== XML-Texte ==
 Benedetti:
 …
 Info in den Metadaten: Für diesen Text wird ein Font für medievalist characters, Extension B, Hieroglyphen etc. benötigt. Oder: Dieser Text enthält Zeichen aus den Unicode-Blöcken ... (Skript schreiben!) (Insbesondere bei PUA-Zeichen, denn offizielle Codepoints kann man immerhin bei Unicode oder oft auch bei der (englischen) Wikipedia oder Wiktionary nachschauen.)
 === Workflow ===
+== Workflow ==
 Textkorrektur: Akut statt Tonos
 …
  * ersetze `<reg norm="exem" type="context">exẽ</reg> <lb/>plo` durch `<reg norm="exem- plo" type="context">exẽ-<lb/>plo</reg>` (soft hyphen!)
 === DESpecs ===
+== DESpecs ==
 * chinesische DESpecs: bei Varianten eine ''IDS-Sequenz'' angeben lassen
 * uͤ versus ü markieren lassen?
 === Schema ===
+== Schema ==
 <reg> mit type="unverified" (spätestens wenn die automatisierte Textverbesserung beginnt)
 === Frontend ===
+== Frontend ==
 Checkbox "faithful" als Unterpunkt von Original. (Jochen: zwar einfach zu machen, aber nicht dringend)
 …
 Der Benutzer soll für einen Text die Normalisierungen von verschiedenen Sprachschichten einstellen können. Also in den extended-Optionen für jede Sprache die Wahl zwischen allen vorhandenen Normalisierungen. Wenn das Backend die Information liefert, ob ein Text <place> enthält, könnte man vielleicht auch herausfinden, welche Sprachen er laut den xml:lang-Attributen im Text enthält, und in den Optionen nur diese Sprachen auflisten?
 === Backend ===
+== Backend ==
 Modulare Architektur:
 …
 Durchgehen: was genau sind die spezifischen Anforderungen der von uns verwendeten Wörterbücher?
 === sprachspezifische Normalisierungen ===
+== sprachspezifische Normalisierungen ==
 alle Sprachen:
 …
  * Es gibt kein sprachunabhängiges Normalisierungsmodul mit allgemeinen Regeln wie "ſ wird zu s", denn es wird immer irgendwelche Ausnahmen geben. Stattdessen wird "ſ wird zu s" bei jeder auf dem lateinischen Alphabet beruhenden Sprache wiederholt.
 === Latein ===
+== Latein ==
  * ſ wird zu s
 …
 Wir sollten uns mal zusammensetzen, um zu gucken, wie die technisch bedingte Normalisierung aussehen soll. Es ist klar, dass Zeichen wie ẽ oder û nicht an Pollux geschickt werden sollten, weil Pollux nicht mit Unicode umgehen kann. Vermutlich läuft es darauf hinaus, dass die Diakritika nicht wie bei Malcolm einfach entfernt werden, sondern dass solche Wörter gar nicht erst an Pollux geschickt werden. Für die Index-Erstellung sollte es aber okay sein, die Wörter zu schicken. Dann sind eben Wörter wie Praeterquàmquod im Index. (Original ist Pręterquàmquòd, und ich gehe von einer Regel -òd aus; wird P im Index zu p, also praeterquàmquod? Wenn ja, macht Lucene das selbst?)
 === Italienisch ===
+== Italienisch ==
  * ſ wird zu s
  * u/v-Regeln
 === Englisch ===
  * ſ wird zu s
 === Französisch ===
+== Englisch ==
+ * ſ wird zu s
+== Französisch ==
  * ſ wird zu s
  * u/v-Regeln?
 === Deutsch ===
+== Deutsch ==
  * ſ wird zu s
 …
   * Umlaute
 === Chinesisch ===
+== Chinesisch ==
  * Wortliste mit Einträgen der Form "Standard: Variante1 Variante2 etc." Beispiel: "歷: 歴"
  * entferne ''ZWS''
 === Griechisch ===
+== Griechisch ==
  * nur Wörterbuch, sprachimmanent: