Changes between Version 4 and Version 5 of regularisierung


Ignore:
Timestamp:
May 19, 2010, 3:01:42 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • regularisierung

    v4 v5  
    11== Regularisierung ==
     2
     3Wir verändern <reg>: Statt zum Beispiel
     4{{{
     5<reg orig="aũt" type="wordlist">autem</reg>
     6}}}
     7heißt es jetzt:
     8{{{
     9<reg norm="autem" type="wordlist">aũt</reg>
     10}}}
     11
     12
     13  * der Text sieht authentischer aus
     14  * wir müssen die Originalgestalt des Textes nicht verändern, sondern annotieren den Text
     15  * man kann die Annotation leichter in eine overlay-Ebene schieben
     16  * systematischer: die anderen tags machen es auch so
     17  * Fälle wie "aſymptot<_>o</_>s": Bisher ist es ein Problem, dass man in Attributen keine tags verwenden kann, das heißt {{{<reg orig="aſymptot<_>o</_>s" type="emendation">aſymptotos</reg>}}} geht nicht, sodass man das Wort stillschweigend hätte normalisieren müssen, aber {{{<reg norm="aſymptotos" type="emendation">aſymptot<_>o</_>s</reg>}}} geht. (Zumindest theoretisch kann man dieses Argument allerdings auch umdrehen: Falls man tags in der Normalisierung braucht, zum Beispiel weil ein mathematischer Index nicht tiefergestellt wurde. Ist das ein realistischer Fall? Das mit dem Index ist mir zwar schon untergekommen, aber es geht nicht um ein echtes Wort, und man würde daher sowieso nicht <reg> verwenden, sondern die Formel mit MathML ausdrücken. Gibt es Beispiele mit echten Wörtern?)
     18  * Allerdings können 98 von 100 Wissenschaftlern das Original z.B. bei Alvarus nicht fließend lesen.
     19
     20=== Unicode-Beschränkungen ===
     21
     22Problem der Zeichen, die es gar nicht in Unicode gibt: Bisher ist das nicht so sehr aufgefallen, weil die Probleme in einem Attribut von <reg> versteckt waren. Was ist dann überhaupt die Originalgestalt eines Textes?
     23
     24Insbesondere im Griechischen und im Chinesischen gibt es viele nicht-Unicode-Zeichen. Beim Griechischen könnte man eine Ersatzanzeige machen, zum Beispiel {ος} für die entsprechende Ligatur. Aber zum Beispiel für και gibt es diverse Ligaturen. Werden die alle mit {και} wiedergegeben? Also die Frage: Gehen wir nach Aussehen oder Semantik? Wenn wir nach Semantik gehen, normalisieren wir bereits. Oder {και (1)}, {και (2)} , etc.? Dann brauchen wir ein internes authority file. Und unterscheiden wir Ligaturen und Abbreviaturen (eine alte Frage)? Was machen andere Leute?
     25
     26Im Chinesischen: Viele Zeichenvarianten haben keinen eigenen Codepoint. Wenn also zum Beispiel das Zeichen 国 nicht in Unicode wäre, könnte man es mit der Folge von Unicode-Zeichen ⿴口玉 umschreiben: Das erste Zeichen ⿴ gibt das Verhältnis der beiden folgenden Zeichen an, nämlich 口 ist außen und 玉 ist innen. (Von diesen Verhältnis-Beschreibungszeichen gibt es zwölf Stück: U+2FF0 bis U+2FFB. Auch längere Folgen kommen vor, siehe Unicode 5.2, ch. 12, p.398.) Aber ist "⿴口玉" die Originalgestalt des Textes? Und diese Beschreibung ist nicht immer eindeutig. Wieder ein authority file? Die Archimedes-Methode mit "&apos;" usw. ist auch nicht wirklich zufriedenstellend.
     27
     28Es gibt veraltetete mathematische Zeichen, die wir bisher stillschweigend normalisieren. Was ist mit alten Alchemie-Symbolen? Mathematische Formeln in moderner Schreibweise als Normalisierung des Textes? Wo ziehen wir die Grenze: Wie genau wollen wir Interpunktion und spaces wiedergeben? Vorstellung vom Text als Folge von Zeichen, oder wollen wir die Seiten möglichst genau wiedergeben? Trennung von semantisch relevant versus semantisch irrelevant (Beispiel Zeilenumbrüche)?
    229
    330