Changes between Version 5 and Version 6 of regularisierung


Ignore:
Timestamp:
May 19, 2010, 3:02:38 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • regularisierung

    v5 v6  
    2424Insbesondere im Griechischen und im Chinesischen gibt es viele nicht-Unicode-Zeichen. Beim Griechischen könnte man eine Ersatzanzeige machen, zum Beispiel {ος} für die entsprechende Ligatur. Aber zum Beispiel für και gibt es diverse Ligaturen. Werden die alle mit {και} wiedergegeben? Also die Frage: Gehen wir nach Aussehen oder Semantik? Wenn wir nach Semantik gehen, normalisieren wir bereits. Oder {και (1)}, {και (2)} , etc.? Dann brauchen wir ein internes authority file. Und unterscheiden wir Ligaturen und Abbreviaturen (eine alte Frage)? Was machen andere Leute?
    2525
    26 Im Chinesischen: Viele Zeichenvarianten haben keinen eigenen Codepoint. Wenn also zum Beispiel das Zeichen 国 nicht in Unicode wäre, könnte man es mit der Folge von Unicode-Zeichen ⿴口玉 umschreiben: Das erste Zeichen ⿴ gibt das Verhältnis der beiden folgenden Zeichen an, nämlich 口 ist außen und 玉 ist innen. (Von diesen Verhältnis-Beschreibungszeichen gibt es zwölf Stück: U+2FF0 bis U+2FFB. Auch längere Folgen kommen vor, siehe Unicode 5.2, ch. 12, p.398.) Aber ist "⿴口玉" die Originalgestalt des Textes? Und diese Beschreibung ist nicht immer eindeutig. Wieder ein authority file? Die Archimedes-Methode mit "'" usw. ist auch nicht wirklich zufriedenstellend.
     26Im Chinesischen: Viele Zeichenvarianten haben keinen eigenen Codepoint. Wenn also zum Beispiel das Zeichen 国 nicht in Unicode wäre, könnte man es mit der Folge von Unicode-Zeichen ⿴口玉 umschreiben: Das erste Zeichen ⿴ gibt das Verhältnis der beiden folgenden Zeichen an, nämlich 口 ist außen und 玉 ist innen. (Von diesen Verhältnis-Beschreibungszeichen gibt es zwölf Stück: U+2FF0 bis U+2FFB. Auch längere Folgen kommen vor, siehe [http://www.unicode.org/versions/Unicode5.2.0/ch12.pdf Unicode 5.2, ch. 12], p.398.) Aber ist "⿴口玉" die Originalgestalt des Textes? Und diese Beschreibung ist nicht immer eindeutig. Wieder ein authority file? Die Archimedes-Methode mit "'" usw. ist auch nicht wirklich zufriedenstellend.
    2727
    2828Es gibt veraltetete mathematische Zeichen, die wir bisher stillschweigend normalisieren. Was ist mit alten Alchemie-Symbolen? Mathematische Formeln in moderner Schreibweise als Normalisierung des Textes? Wo ziehen wir die Grenze: Wie genau wollen wir Interpunktion und spaces wiedergeben? Vorstellung vom Text als Folge von Zeichen, oder wollen wir die Seiten möglichst genau wiedergeben? Trennung von semantisch relevant versus semantisch irrelevant (Beispiel Zeilenumbrüche)?