Context Navigation

Changes between Version 4 and Version 5 of regularisierung

Timestamp:: May 19, 2010, 3:01:42 PM (15 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

regularisierung

-                      v4
+                      v5
 == Regularisierung ==
+Wir verändern <reg>: Statt zum Beispiel
+{{{
+<reg orig="aũt" type="wordlist">autem</reg>
+}}}
+heißt es jetzt:
+{{{
+<reg norm="autem" type="wordlist">aũt</reg>
+}}}
+  * der Text sieht authentischer aus
+  * wir müssen die Originalgestalt des Textes nicht verändern, sondern annotieren den Text
+  * man kann die Annotation leichter in eine overlay-Ebene schieben
+  * systematischer: die anderen tags machen es auch so
+  * Fälle wie "aſymptot<_>o</_>s": Bisher ist es ein Problem, dass man in Attributen keine tags verwenden kann, das heißt {{{<reg orig="aſymptot<_>o</_>s" type="emendation">aſymptotos</reg>}}} geht nicht, sodass man das Wort stillschweigend hätte normalisieren müssen, aber {{{<reg norm="aſymptotos" type="emendation">aſymptot<_>o</_>s</reg>}}} geht. (Zumindest theoretisch kann man dieses Argument allerdings auch umdrehen: Falls man tags in der Normalisierung braucht, zum Beispiel weil ein mathematischer Index nicht tiefergestellt wurde. Ist das ein realistischer Fall? Das mit dem Index ist mir zwar schon untergekommen, aber es geht nicht um ein echtes Wort, und man würde daher sowieso nicht <reg> verwenden, sondern die Formel mit MathML ausdrücken. Gibt es Beispiele mit echten Wörtern?)
+  * Allerdings können 98 von 100 Wissenschaftlern das Original z.B. bei Alvarus nicht fließend lesen.
+=== Unicode-Beschränkungen ===
+Problem der Zeichen, die es gar nicht in Unicode gibt: Bisher ist das nicht so sehr aufgefallen, weil die Probleme in einem Attribut von <reg> versteckt waren. Was ist dann überhaupt die Originalgestalt eines Textes?
+Insbesondere im Griechischen und im Chinesischen gibt es viele nicht-Unicode-Zeichen. Beim Griechischen könnte man eine Ersatzanzeige machen, zum Beispiel {ος} für die entsprechende Ligatur. Aber zum Beispiel für και gibt es diverse Ligaturen. Werden die alle mit {και} wiedergegeben? Also die Frage: Gehen wir nach Aussehen oder Semantik? Wenn wir nach Semantik gehen, normalisieren wir bereits. Oder {και (1)}, {και (2)} , etc.? Dann brauchen wir ein internes authority file. Und unterscheiden wir Ligaturen und Abbreviaturen (eine alte Frage)? Was machen andere Leute?
+Im Chinesischen: Viele Zeichenvarianten haben keinen eigenen Codepoint. Wenn also zum Beispiel das Zeichen 国 nicht in Unicode wäre, könnte man es mit der Folge von Unicode-Zeichen ⿴口玉 umschreiben: Das erste Zeichen ⿴ gibt das Verhältnis der beiden folgenden Zeichen an, nämlich 口 ist außen und 玉 ist innen. (Von diesen Verhältnis-Beschreibungszeichen gibt es zwölf Stück: U+2FF0 bis U+2FFB. Auch längere Folgen kommen vor, siehe Unicode 5.2, ch. 12, p.398.) Aber ist "⿴口玉" die Originalgestalt des Textes? Und diese Beschreibung ist nicht immer eindeutig. Wieder ein authority file? Die Archimedes-Methode mit "&apos;" usw. ist auch nicht wirklich zufriedenstellend.
+Es gibt veraltetete mathematische Zeichen, die wir bisher stillschweigend normalisieren. Was ist mit alten Alchemie-Symbolen? Mathematische Formeln in moderner Schreibweise als Normalisierung des Textes? Wo ziehen wir die Grenze: Wie genau wollen wir Interpunktion und spaces wiedergeben? Vorstellung vom Text als Folge von Zeichen, oder wollen wir die Seiten möglichst genau wiedergeben? Trennung von semantisch relevant versus semantisch irrelevant (Beispiel Zeilenumbrüche)?