Changes between Version 14 and Version 15 of normalization/7


Ignore:
Timestamp:
Dec 18, 2010, 5:40:41 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/7

    v14 v15  
    1414 * class="sc" zu style="sc"
    1515 
     16Info in den Metadaten: Für diesen Text wird ein Font für medievalist characters, Extension B, Hieroglyphen etc. benötigt. Oder: Dieser Text enthält Zeichen aus den Unicode-Blöcken ... (Skript schreiben!) (Insbesondere bei PUA-Zeichen, denn offizielle Codepoints kann man immerhin bei Unicode oder oft auch bei der (englischen) Wikipedia oder Wiktionary nachschauen.)
     17
    1618=== Workflow ===
    1719
    1820Textkorrektur: Akut statt Tonos
     21
     22<reg>: es soll einfach sein, Regularisierungen für unterschiedliche Sprachschichten auszuprobieren
    1923
    2024Prüfmodul für <reg>:
     
    3842=== Frontend ===
    3943
    40 Checkbox "faithful" als Unterpunkt von Original.
     44Checkbox "faithful" als Unterpunkt von Original. (Jochen: zwar einfach zu machen, aber nicht dringend)
    4145
    42 Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen ''MUFI-Font'' wie Andron, Junicode oder Palemonas.
     46Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen ''MUFI-Font'' wie Andron, Junicode oder Palemonas. Entweder eine allgemeine Warnung, oder die Information wird einem Eintrag in den Metadaten entnommen.
    4347
    4448Der Benutzer soll für einen Text die Normalisierungen von verschiedenen Sprachschichten einstellen können. Also in den extended-Optionen für jede Sprache die Wahl zwischen allen vorhandenen Normalisierungen. Wenn das Backend die Information liefert, ob ein Text <place> enthält, könnte man vielleicht auch herausfinden, welche Sprachen er laut den xml:lang-Attributen im Text enthält, und in den Optionen nur diese Sprachen auflisten?
     
    5559  * Die Umwandlung von Käse in Kaese für ein bestimmtes Wörterbuch ist ein Beispiel eine technisch bedingte Normalisierung, die schon für das nächste Wörterbuch in der gleichen Sprache nicht zutrifft.
    5660  * Aus Performance-Gründen könnte man dann die Normalisierungen eventuell automatisiert zusammenfassen. Dieser Vorgang müsste bei jeder Änderung an den Original-Modulen wiederholt werden.
     61 * Ziel ist eine Kaskade:
     62   1. Normalisierung der Textanzeige, dann
     63   2. sprachimmanente Normalisierung für Wörterbücher, dann
     64   3. technisch bedingte Normalisierungen, dann
     65   4. Grundformbildung.
     66 Auf dem Weg sollte die Wortform-Disambiguierung von zum Beispiel hîc aufbewahrt werden.
    5767 
    5868Zentrales repository ("authority file") für die {}-Sequenzen aus dem faithful-Attribut: {πρ}, {q3-it-a}, {⿴口或} etc., mit Angaben, wie diese Sequenzen dargestellt werden. Eventuell auch für escape sequences wie `&x1F70D;`. (Wenn es zu einer Sequenz keine Angabe oder Dateinamen gibt, wird sie unverändert angezeigt.)
     
    6979 * Normalized: comprehensione (wie bisher)
    7080
     81Durchgehen: was genau sind die spezifischen Anforderungen der von uns verwendeten Wörterbücher?
     82
    7183=== sprachspezifische Normalisierungen ===
    7284
    73 alle Sprachen:
    74  * ſ wird zu s
     85alle Sprachen:
    7586 * Umgang mit Zeilenumbrüchen (siehe auch Tickets [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/62 #62] und [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/82 #82])
     87 * Allgemeine Definition von Wortgrenzen, oder muss das sprachspezifisch gemacht werden? Problem der Bindestriche im Deutschen? Grundstock an Zeichen, das von einzelnen Sprachen noch ergänzt werden kann? (Und wo notfalls auch Zeichen gestrichen werden können?)
     88 * Apostroph im Wort oder als Wortendezeichen: unterscheide ' (0027) und ’ (2019).
     89  * Niederländisch: 't Gravenhage, auto's
     90  * Englisch: don't
     91 * Allgemeine Vokal- und Konsonantenklassen zum Beispiel für die u/v-Regeln, auf Basis der Arboreal-Definitionen, ergänzt um die Vokale mit Diakritika, die bei uns normalisiert werden (und nur um diese Zeichen?). Oder gibt es einen Grund, die Vokalklassen für die Sprachen einzeln zu definieren?
     92  * Vokale: A E I O U Æ Œ in groß/klein, zusätzlich Ę ÀÈÌÒÙ ÀÈÌÒÙ ÄËÏÖÜ in groß/klein
     93  * Konsonanten: B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß
     94  * weder noch: J und Y
     95 * Es gibt kein sprachunabhängiges Normalisierungsmodul mit allgemeinen Regeln wie "ſ wird zu s", denn es wird immer irgendwelche Ausnahmen geben. Stattdessen wird "ſ wird zu s" bei jeder auf dem lateinischen Alphabet beruhenden Sprache wiederholt.
    7696 
    7797Latein:
     98 * ſ wird zu s
    7899 * ß zu ss
    79100 * æ und ę zu ae
     
    89110
    90111Italienisch:
     112 * ſ wird zu s
    91113 * u/v-Regeln
    92114
    93115Englisch:
    94  * nichts?
     116 * ſ wird zu s
    95117
    96118Französisch:
    97  * nichts?
     119 * ſ wird zu s
     120 * u/v-Regeln?
    98121
    99 Deutsch (modern):
     122Deutsch:
     123 * ſ wird zu s
    100124 * nur Wörterbuch, technisch bedingt (Celex):
    101125  * Umlaute