Context Navigation

Changes between Version 14 and Version 15 of normalization/7

Timestamp:: Dec 18, 2010, 5:40:41 PM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/7

-                      v14
+                      v15
  * class="sc" zu style="sc"
+Info in den Metadaten: Für diesen Text wird ein Font für medievalist characters, Extension B, Hieroglyphen etc. benötigt. Oder: Dieser Text enthält Zeichen aus den Unicode-Blöcken ... (Skript schreiben!) (Insbesondere bei PUA-Zeichen, denn offizielle Codepoints kann man immerhin bei Unicode oder oft auch bei der (englischen) Wikipedia oder Wiktionary nachschauen.)
 === Workflow ===
 Textkorrektur: Akut statt Tonos
+<reg>: es soll einfach sein, Regularisierungen für unterschiedliche Sprachschichten auszuprobieren
 Prüfmodul für <reg>:
 …
 === Frontend ===
 Checkbox "faithful" als Unterpunkt von Original.
+Checkbox "faithful" als Unterpunkt von Original. (Jochen: zwar einfach zu machen, aber nicht dringend)
 Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen ''MUFI-Font'' wie Andron, Junicode oder Palemonas.
+Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen ''MUFI-Font'' wie Andron, Junicode oder Palemonas. Entweder eine allgemeine Warnung, oder die Information wird einem Eintrag in den Metadaten entnommen.
 Der Benutzer soll für einen Text die Normalisierungen von verschiedenen Sprachschichten einstellen können. Also in den extended-Optionen für jede Sprache die Wahl zwischen allen vorhandenen Normalisierungen. Wenn das Backend die Information liefert, ob ein Text <place> enthält, könnte man vielleicht auch herausfinden, welche Sprachen er laut den xml:lang-Attributen im Text enthält, und in den Optionen nur diese Sprachen auflisten?
 …
   * Die Umwandlung von Käse in Kaese für ein bestimmtes Wörterbuch ist ein Beispiel eine technisch bedingte Normalisierung, die schon für das nächste Wörterbuch in der gleichen Sprache nicht zutrifft.
   * Aus Performance-Gründen könnte man dann die Normalisierungen eventuell automatisiert zusammenfassen. Dieser Vorgang müsste bei jeder Änderung an den Original-Modulen wiederholt werden.
+ * Ziel ist eine Kaskade:
+. Normalisierung der Textanzeige, dann
+. sprachimmanente Normalisierung für Wörterbücher, dann
+. technisch bedingte Normalisierungen, dann
+. Grundformbildung.
+ Auf dem Weg sollte die Wortform-Disambiguierung von zum Beispiel hîc aufbewahrt werden.
 Zentrales repository ("authority file") für die {}-Sequenzen aus dem faithful-Attribut: {πρ}, {q3-it-a}, {⿴口或} etc., mit Angaben, wie diese Sequenzen dargestellt werden. Eventuell auch für escape sequences wie `&x1F70D;`. (Wenn es zu einer Sequenz keine Angabe oder Dateinamen gibt, wird sie unverändert angezeigt.)
 …
  * Normalized: comprehensione (wie bisher)
+Durchgehen: was genau sind die spezifischen Anforderungen der von uns verwendeten Wörterbücher?
 === sprachspezifische Normalisierungen ===
+alle Sprachen:
+ * ſ wird zu s
+alle Sprachen:
  * Umgang mit Zeilenumbrüchen (siehe auch Tickets [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/62 #62] und [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/82 #82])
+ * Allgemeine Definition von Wortgrenzen, oder muss das sprachspezifisch gemacht werden? Problem der Bindestriche im Deutschen? Grundstock an Zeichen, das von einzelnen Sprachen noch ergänzt werden kann? (Und wo notfalls auch Zeichen gestrichen werden können?)
+ * Apostroph im Wort oder als Wortendezeichen: unterscheide ' (0027) und ’ (2019).
+  * Niederländisch: 't Gravenhage, auto's
+  * Englisch: don't
+ * Allgemeine Vokal- und Konsonantenklassen zum Beispiel für die u/v-Regeln, auf Basis der Arboreal-Definitionen, ergänzt um die Vokale mit Diakritika, die bei uns normalisiert werden (und nur um diese Zeichen?). Oder gibt es einen Grund, die Vokalklassen für die Sprachen einzeln zu definieren?
+  * Vokale: A E I O U Æ Œ in groß/klein, zusätzlich Ę ÀÈÌÒÙ ÀÈÌÒÙ ÄËÏÖÜ in groß/klein
+  * Konsonanten: B C D F G H K L M N P Q R S T V W X Z in groß/klein sowie ſ ß
+  * weder noch: J und Y
+ * Es gibt kein sprachunabhängiges Normalisierungsmodul mit allgemeinen Regeln wie "ſ wird zu s", denn es wird immer irgendwelche Ausnahmen geben. Stattdessen wird "ſ wird zu s" bei jeder auf dem lateinischen Alphabet beruhenden Sprache wiederholt.
 Latein:
+ * ſ wird zu s
  * ß zu ss
  * æ und ę zu ae
 …
 Italienisch:
+ * ſ wird zu s
  * u/v-Regeln
 Englisch:
  * nichts?
+ * ſ wird zu s
 Französisch:
+ * nichts?
+ * ſ wird zu s
+ * u/v-Regeln?
+Deutsch (modern):
+Deutsch:
+ * ſ wird zu s
  * nur Wörterbuch, technisch bedingt (Celex):
   * Umlaute