Changes between Version 14 and Version 15 of normalization/7
- Timestamp:
- Dec 18, 2010, 5:40:41 PM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/7
v14 v15 14 14 * class="sc" zu style="sc" 15 15 16 Info in den Metadaten: Für diesen Text wird ein Font für medievalist characters, Extension B, Hieroglyphen etc. benötigt. Oder: Dieser Text enthält Zeichen aus den Unicode-Blöcken ... (Skript schreiben!) (Insbesondere bei PUA-Zeichen, denn offizielle Codepoints kann man immerhin bei Unicode oder oft auch bei der (englischen) Wikipedia oder Wiktionary nachschauen.) 17 16 18 === Workflow === 17 19 18 20 Textkorrektur: Akut statt Tonos 21 22 <reg>: es soll einfach sein, Regularisierungen für unterschiedliche Sprachschichten auszuprobieren 19 23 20 24 Prüfmodul für <reg>: … … 38 42 === Frontend === 39 43 40 Checkbox "faithful" als Unterpunkt von Original. 44 Checkbox "faithful" als Unterpunkt von Original. (Jochen: zwar einfach zu machen, aber nicht dringend) 41 45 42 Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen ''MUFI-Font'' wie Andron, Junicode oder Palemonas. 46 Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen ''MUFI-Font'' wie Andron, Junicode oder Palemonas. Entweder eine allgemeine Warnung, oder die Information wird einem Eintrag in den Metadaten entnommen. 43 47 44 48 Der Benutzer soll für einen Text die Normalisierungen von verschiedenen Sprachschichten einstellen können. Also in den extended-Optionen für jede Sprache die Wahl zwischen allen vorhandenen Normalisierungen. Wenn das Backend die Information liefert, ob ein Text <place> enthält, könnte man vielleicht auch herausfinden, welche Sprachen er laut den xml:lang-Attributen im Text enthält, und in den Optionen nur diese Sprachen auflisten? … … 55 59 * Die Umwandlung von Käse in Kaese für ein bestimmtes Wörterbuch ist ein Beispiel eine technisch bedingte Normalisierung, die schon für das nächste Wörterbuch in der gleichen Sprache nicht zutrifft. 56 60 * Aus Performance-Gründen könnte man dann die Normalisierungen eventuell automatisiert zusammenfassen. Dieser Vorgang müsste bei jeder Änderung an den Original-Modulen wiederholt werden. 61 * Ziel ist eine Kaskade: 62 1. Normalisierung der Textanzeige, dann 63 2. sprachimmanente Normalisierung für Wörterbücher, dann 64 3. technisch bedingte Normalisierungen, dann 65 4. Grundformbildung. 66 Auf dem Weg sollte die Wortform-Disambiguierung von zum Beispiel hîc aufbewahrt werden. 57 67 58 68 Zentrales repository ("authority file") für die {}-Sequenzen aus dem faithful-Attribut: {πρ}, {q3-it-a}, {⿴口或} etc., mit Angaben, wie diese Sequenzen dargestellt werden. Eventuell auch für escape sequences wie `&x1F70D;`. (Wenn es zu einer Sequenz keine Angabe oder Dateinamen gibt, wird sie unverändert angezeigt.) … … 69 79 * Normalized: comprehensione (wie bisher) 70 80 81 Durchgehen: was genau sind die spezifischen Anforderungen der von uns verwendeten Wörterbücher? 82 71 83 === sprachspezifische Normalisierungen === 72 84 73 alle Sprachen: 74 * ſ wird zu s 85 alle Sprachen: 75 86 * Umgang mit Zeilenumbrüchen (siehe auch Tickets [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/62 #62] und [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/82 #82]) 87 * Allgemeine Definition von Wortgrenzen, oder muss das sprachspezifisch gemacht werden? Problem der Bindestriche im Deutschen? Grundstock an Zeichen, das von einzelnen Sprachen noch ergänzt werden kann? (Und wo notfalls auch Zeichen gestrichen werden können?) 88 * Apostroph im Wort oder als Wortendezeichen: unterscheide ' (0027) und ’ (2019). 89 * Niederländisch: 't Gravenhage, auto's 90 * Englisch: don't 91 * Allgemeine Vokal- und Konsonantenklassen zum Beispiel für die u/v-Regeln, auf Basis der Arboreal-Definitionen, ergänzt um die Vokale mit Diakritika, die bei uns normalisiert werden (und nur um diese Zeichen?). Oder gibt es einen Grund, die Vokalklassen für die Sprachen einzeln zu definieren? 92 * Vokale: A E I O U Æ Œ in groß/klein, zusätzlich Ę ÀÈÌÒÙ ÀÈÌÒÙ ÄËÏÖÜ in groß/klein 93 * Konsonanten: B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß 94 * weder noch: J und Y 95 * Es gibt kein sprachunabhängiges Normalisierungsmodul mit allgemeinen Regeln wie "ſ wird zu s", denn es wird immer irgendwelche Ausnahmen geben. Stattdessen wird "ſ wird zu s" bei jeder auf dem lateinischen Alphabet beruhenden Sprache wiederholt. 76 96 77 97 Latein: 98 * ſ wird zu s 78 99 * ß zu ss 79 100 * æ und ę zu ae … … 89 110 90 111 Italienisch: 112 * ſ wird zu s 91 113 * u/v-Regeln 92 114 93 115 Englisch: 94 * nichts?116 * ſ wird zu s 95 117 96 118 Französisch: 97 * nichts? 119 * ſ wird zu s 120 * u/v-Regeln? 98 121 99 Deutsch (modern): 122 Deutsch: 123 * ſ wird zu s 100 124 * nur Wörterbuch, technisch bedingt (Celex): 101 125 * Umlaute