Context Navigation

Changes between Version 5 and Version 6 of regularisierung

Timestamp:: May 19, 2010, 3:02:38 PM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

regularisierung

v5	v6
24	24	Insbesondere im Griechischen und im Chinesischen gibt es viele nicht-Unicode-Zeichen. Beim Griechischen könnte man eine Ersatzanzeige machen, zum Beispiel {ος} für die entsprechende Ligatur. Aber zum Beispiel für και gibt es diverse Ligaturen. Werden die alle mit {και} wiedergegeben? Also die Frage: Gehen wir nach Aussehen oder Semantik? Wenn wir nach Semantik gehen, normalisieren wir bereits. Oder {και (1)}, {και (2)} , etc.? Dann brauchen wir ein internes authority file. Und unterscheiden wir Ligaturen und Abbreviaturen (eine alte Frage)? Was machen andere Leute?
25	25
26		Im Chinesischen: Viele Zeichenvarianten haben keinen eigenen Codepoint. Wenn also zum Beispiel das Zeichen 国 nicht in Unicode wäre, könnte man es mit der Folge von Unicode-Zeichen ⿴口玉 umschreiben: Das erste Zeichen ⿴ gibt das Verhältnis der beiden folgenden Zeichen an, nämlich 口 ist außen und 玉 ist innen. (Von diesen Verhältnis-Beschreibungszeichen gibt es zwölf Stück: U+2FF0 bis U+2FFB. Auch längere Folgen kommen vor, siehe ~~Unicode 5.2, ch. 12~~, p.398.) Aber ist "⿴口玉" die Originalgestalt des Textes? Und diese Beschreibung ist nicht immer eindeutig. Wieder ein authority file? Die Archimedes-Methode mit "'" usw. ist auch nicht wirklich zufriedenstellend.
	26	Im Chinesischen: Viele Zeichenvarianten haben keinen eigenen Codepoint. Wenn also zum Beispiel das Zeichen 国 nicht in Unicode wäre, könnte man es mit der Folge von Unicode-Zeichen ⿴口玉 umschreiben: Das erste Zeichen ⿴ gibt das Verhältnis der beiden folgenden Zeichen an, nämlich 口 ist außen und 玉 ist innen. (Von diesen Verhältnis-Beschreibungszeichen gibt es zwölf Stück: U+2FF0 bis U+2FFB. Auch längere Folgen kommen vor, siehe [http://www.unicode.org/versions/Unicode5.2.0/ch12.pdf Unicode 5.2, ch. 12], p.398.) Aber ist "⿴口玉" die Originalgestalt des Textes? Und diese Beschreibung ist nicht immer eindeutig. Wieder ein authority file? Die Archimedes-Methode mit "'" usw. ist auch nicht wirklich zufriedenstellend.
27	27
28	28	Es gibt veraltetete mathematische Zeichen, die wir bisher stillschweigend normalisieren. Was ist mit alten Alchemie-Symbolen? Mathematische Formeln in moderner Schreibweise als Normalisierung des Textes? Wo ziehen wir die Grenze: Wie genau wollen wir Interpunktion und spaces wiedergeben? Vorstellung vom Text als Folge von Zeichen, oder wollen wir die Seiten möglichst genau wiedergeben? Trennung von semantisch relevant versus semantisch irrelevant (Beispiel Zeilenumbrüche)?