Changes between Version 25 and Version 26 of normalization/7
- Timestamp:
- Jan 17, 2011, 9:58:28 AM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/7
v25 v26 1 1 [[PageOutline(1-4,,pullout)]] 2 2 3 == 7. Was ist konkret zu tun? == 4 5 === Arboreal === 3 [wiki:normalization Regularisierung und Normalisierung], 4 I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7] 5 6 7 = 7. Was ist konkret zu tun? = 8 9 == Arboreal == 6 10 7 11 Tippfehler und Programmfehler bei u/v-Regeln korrigieren. (Wer macht das?) 8 12 9 == = XML-Texte ===13 == XML-Texte == 10 14 11 15 Benedetti: … … 16 20 Info in den Metadaten: Für diesen Text wird ein Font für medievalist characters, Extension B, Hieroglyphen etc. benötigt. Oder: Dieser Text enthält Zeichen aus den Unicode-Blöcken ... (Skript schreiben!) (Insbesondere bei PUA-Zeichen, denn offizielle Codepoints kann man immerhin bei Unicode oder oft auch bei der (englischen) Wikipedia oder Wiktionary nachschauen.) 17 21 18 == = Workflow ===22 == Workflow == 19 23 20 24 Textkorrektur: Akut statt Tonos … … 31 35 * ersetze `<reg norm="exem" type="context">exẽ</reg> <lb/>plo` durch `<reg norm="exem- plo" type="context">exẽ-<lb/>plo</reg>` (soft hyphen!) 32 36 33 == = DESpecs ===37 == DESpecs == 34 38 35 39 * chinesische DESpecs: bei Varianten eine ''IDS-Sequenz'' angeben lassen 36 40 * uͤ versus ü markieren lassen? 37 41 38 == = Schema ===42 == Schema == 39 43 40 44 <reg> mit type="unverified" (spätestens wenn die automatisierte Textverbesserung beginnt) 41 45 42 == = Frontend ===46 == Frontend == 43 47 44 48 Checkbox "faithful" als Unterpunkt von Original. (Jochen: zwar einfach zu machen, aber nicht dringend) … … 48 52 Der Benutzer soll für einen Text die Normalisierungen von verschiedenen Sprachschichten einstellen können. Also in den extended-Optionen für jede Sprache die Wahl zwischen allen vorhandenen Normalisierungen. Wenn das Backend die Information liefert, ob ein Text <place> enthält, könnte man vielleicht auch herausfinden, welche Sprachen er laut den xml:lang-Attributen im Text enthält, und in den Optionen nur diese Sprachen auflisten? 49 53 50 == = Backend ===54 == Backend == 51 55 52 56 Modulare Architektur: … … 81 85 Durchgehen: was genau sind die spezifischen Anforderungen der von uns verwendeten Wörterbücher? 82 86 83 == = sprachspezifische Normalisierungen ===87 == sprachspezifische Normalisierungen == 84 88 85 89 alle Sprachen: … … 95 99 * Es gibt kein sprachunabhängiges Normalisierungsmodul mit allgemeinen Regeln wie "ſ wird zu s", denn es wird immer irgendwelche Ausnahmen geben. Stattdessen wird "ſ wird zu s" bei jeder auf dem lateinischen Alphabet beruhenden Sprache wiederholt. 96 100 97 == = Latein ===101 == Latein == 98 102 99 103 * ſ wird zu s … … 169 173 Wir sollten uns mal zusammensetzen, um zu gucken, wie die technisch bedingte Normalisierung aussehen soll. Es ist klar, dass Zeichen wie ẽ oder û nicht an Pollux geschickt werden sollten, weil Pollux nicht mit Unicode umgehen kann. Vermutlich läuft es darauf hinaus, dass die Diakritika nicht wie bei Malcolm einfach entfernt werden, sondern dass solche Wörter gar nicht erst an Pollux geschickt werden. Für die Index-Erstellung sollte es aber okay sein, die Wörter zu schicken. Dann sind eben Wörter wie Praeterquàmquod im Index. (Original ist Pręterquàmquòd, und ich gehe von einer Regel -òd aus; wird P im Index zu p, also praeterquàmquod? Wenn ja, macht Lucene das selbst?) 170 174 171 == = Italienisch ===175 == Italienisch == 172 176 173 177 * ſ wird zu s 174 178 * u/v-Regeln 175 179 176 == = Englisch ===177 178 * ſ wird zu s 179 180 == = Französisch ===180 == Englisch == 181 182 * ſ wird zu s 183 184 == Französisch == 181 185 182 186 * ſ wird zu s 183 187 * u/v-Regeln? 184 188 185 == = Deutsch ===189 == Deutsch == 186 190 187 191 * ſ wird zu s … … 189 193 * Umlaute 190 194 191 == = Chinesisch ===195 == Chinesisch == 192 196 193 197 * Wortliste mit Einträgen der Form "Standard: Variante1 Variante2 etc." Beispiel: "歷: 歴" 194 198 * entferne ''ZWS'' 195 199 196 == = Griechisch ===200 == Griechisch == 197 201 198 202 * nur Wörterbuch, sprachimmanent: