wiki:regularisierung

Version 6 (modified by Wolfgang Schmidle, 15 years ago) (diff)

--

Regularisierung

Wir verändern <reg>: Statt zum Beispiel

<reg orig="aũt" type="wordlist">autem</reg>

heißt es jetzt:

<reg norm="autem" type="wordlist">aũt</reg>
  • der Text sieht authentischer aus
  • wir müssen die Originalgestalt des Textes nicht verändern, sondern annotieren den Text
  • man kann die Annotation leichter in eine overlay-Ebene schieben
  • systematischer: die anderen tags machen es auch so
  • Fälle wie "aſymptot<_>o</_>s": Bisher ist es ein Problem, dass man in Attributen keine tags verwenden kann, das heißt <reg orig="aſymptot<_>o</_>s" type="emendation">aſymptotos</reg> geht nicht, sodass man das Wort stillschweigend hätte normalisieren müssen, aber <reg norm="aſymptotos" type="emendation">aſymptot<_>o</_>s</reg> geht. (Zumindest theoretisch kann man dieses Argument allerdings auch umdrehen: Falls man tags in der Normalisierung braucht, zum Beispiel weil ein mathematischer Index nicht tiefergestellt wurde. Ist das ein realistischer Fall? Das mit dem Index ist mir zwar schon untergekommen, aber es geht nicht um ein echtes Wort, und man würde daher sowieso nicht <reg> verwenden, sondern die Formel mit MathML ausdrücken. Gibt es Beispiele mit echten Wörtern?)
  • Allerdings können 98 von 100 Wissenschaftlern das Original z.B. bei Alvarus nicht fließend lesen.

Unicode-Beschränkungen

Problem der Zeichen, die es gar nicht in Unicode gibt: Bisher ist das nicht so sehr aufgefallen, weil die Probleme in einem Attribut von <reg> versteckt waren. Was ist dann überhaupt die Originalgestalt eines Textes?

Insbesondere im Griechischen und im Chinesischen gibt es viele nicht-Unicode-Zeichen. Beim Griechischen könnte man eine Ersatzanzeige machen, zum Beispiel {ος} für die entsprechende Ligatur. Aber zum Beispiel für και gibt es diverse Ligaturen. Werden die alle mit {και} wiedergegeben? Also die Frage: Gehen wir nach Aussehen oder Semantik? Wenn wir nach Semantik gehen, normalisieren wir bereits. Oder {και (1)}, {και (2)} , etc.? Dann brauchen wir ein internes authority file. Und unterscheiden wir Ligaturen und Abbreviaturen (eine alte Frage)? Was machen andere Leute?

Im Chinesischen: Viele Zeichenvarianten haben keinen eigenen Codepoint. Wenn also zum Beispiel das Zeichen 国 nicht in Unicode wäre, könnte man es mit der Folge von Unicode-Zeichen ⿴口玉 umschreiben: Das erste Zeichen ⿴ gibt das Verhältnis der beiden folgenden Zeichen an, nämlich 口 ist außen und 玉 ist innen. (Von diesen Verhältnis-Beschreibungszeichen gibt es zwölf Stück: U+2FF0 bis U+2FFB. Auch längere Folgen kommen vor, siehe Unicode 5.2, ch. 12, p.398.) Aber ist "⿴口玉" die Originalgestalt des Textes? Und diese Beschreibung ist nicht immer eindeutig. Wieder ein authority file? Die Archimedes-Methode mit "&apos;" usw. ist auch nicht wirklich zufriedenstellend.

Es gibt veraltetete mathematische Zeichen, die wir bisher stillschweigend normalisieren. Was ist mit alten Alchemie-Symbolen? Mathematische Formeln in moderner Schreibweise als Normalisierung des Textes? Wo ziehen wir die Grenze: Wie genau wollen wir Interpunktion und spaces wiedergeben? Vorstellung vom Text als Folge von Zeichen, oder wollen wir die Seiten möglichst genau wiedergeben? Trennung von semantisch relevant versus semantisch irrelevant (Beispiel Zeilenumbrüche)?

Was wird regularisiert?

Die Anzeige-Modi haben eine klare Beschreibung: Die regularisierte Version ist das Original mit den Änderungen durch <reg>, und die normalisierte Version ist die regularisierte Version, wo zusätzlich noch ein sprachspezifischer Normalisierungsservice angewendet wurde.

Und was wird regularisiert? Rein pragmatisch regularisieren wir ę, weil viele Leute sonst nicht wissen, was gemeint ist, aber nicht æ, denn bei æ gibt es dieses Problem nicht. Und wenn wir æ regularisieren würden, müssten wir vielleicht auch ſ (long s) zu s regularisieren. Dann hätte aber jedes zweite Wort ein <reg> tag. (Mit einem ähnlichen Argument verwenden wir bei fehlenden Trennstrichen nicht <reg>, sondern fügen ein "soft hyphen" ein.)

Zurzeit wird also regularisiert, was wir pragmatisch für regularisierenswert halten. Ist es sinnvoll und möglich, hierfür klarere Regeln anzugeben? Offenbar kann man jedenfalls nicht einfach sagen, dass <reg> alle textspezifischen Korrekturen enthält. Denn zum Beispiel ae für ę ist nicht textspezifisch und könnte daher auch erst in der normalisierten Version zu ae aufgelöst werden.

Kann man sagen, dass wir zumindest im Lateinischen eine damals übliche Textgestalt erreichen wollen und dabei Zeichen regularisieren, die damals als reine Abkürzungszeichen empfunden wurden? Zum Beispiel ist ſ Teil der damals üblichen Textgestalt im Lateinischen. Es gibt klare Gebrauchsregeln für ſ, und es ist nicht einfach austauschbar mit s. Das ę ist dagegen ein Abkürzungszeichen, das der Setzer verwendet, wenn ae zuviel Platz wegnimmt. Das æ verhält sich offenbar eher wie ſ als wie ę, zum Beispiel in Formen wie quæ. Muss man dann quę zu quæ statt zu quae regularisieren, genauso wie ſcīa zu ſcientia und nicht zu scientia regularisiert wird? Und ſphęræ zu ſphæræ (diese Form kommt in Benedetti recht oft vor) statt zu ſphaeræ?

weiteres

Latein

  • Ich gehe davon aus, dass ſcīa zu ſcientia regularisiert wird und nicht gleich zu scientia, und entsprechend rñdẽs zu reſpondens und nicht zu respondens.

Griechisch

  • Mit den weiteren Problemen im Griechischen (verschiedene {και}-Ligaturen, Ligaturen versus Abbreviaturen, Akzente auf dem falschen Buchstaben bei Diphthongen, etc.) habe ich mich noch nicht näher beschäftigt.

Symbole

  • Ich nehme an, wenn ein User nach "Saturn" sucht, würde er auch gerne das Symbol ♄ im Text finden. Möglich wäre das durch <reg norm="Saturn" type="symbol">♄</reg>. Können/wollen wir das leisten? Zum Beispiel soll das Symbol ja in der regularisierten Darstellung nicht durch den Text "Saturn" ersetzt werden. Man könnte eventuell ein neues Attribut wie searchValue="Saturn" einführen. Oder wäre das ein gutes Beispiel für eine overlay-Schicht? Vorläufig habe ich jedenfalls bei dem Alchemie-Symbol "Sulfur" im Beispiel hier kein <reg> um das <image> gemacht.

Chinesisch

  • Der reg-Typ "simple" bei dem Beispiel 歴 drückt aus, dass es sich um eine einfache kontextlose Ersetzung handelt. Eventuell könnte man auch den Typ "variant" nehmen, um auszusagen, dass eine Zeichenvariante durch das Standardzeichen ersetzt wurde. Aber nachdem ich das im Lateinischen durchexerziert und wieder verworfen habe, sehe ich keinen wirklich guten Grund, im Chinesischen doch wieder einen "erklärenden" reg-Typ einzuführen.

Regularisierung versus Normalisierung

Griechisch

  • Bei falsch gesetzten Akzenten in Diphthongen ist die Frage, ob der Akzent schon im Text regularisiert wird, oder ob das als Merkwürdigkeit des Buches akzeptiert wird und erst in der normalisierten Version korrigiert wird.

Chinesisch

  • Sobald die Unicode-Datenbank eine stabile Möglichkeit bietet, von einer Variante zum Standardzeichen zu gelangen, kann man statt <reg norm="歷" type="simple">歴</reg> auch einfach 歴 schreiben. Dann wird im Original und in der regularisierten Version die Variante 歴 dargestellt, und in der normalisierten Version findet das Anzeigesystem selbständig das Standardzeichen 歷.
  • Zurzeit ist die normalisierte Version in chinesischen Texten aber noch mit der regularisierten Version identisch. Eine (VR-chinesische) Normalisierungsmöglichkeit wäre die Darstellung von traditional characters als simplified characters. Das wäre zwar recht einfach zu implementieren, aber für uns wohl nicht nötig. Eine weitere Normalisierungsmöglichkeit, die der Idee der Schulschreibweise im Lateinischen nahekommt, wäre die Reduktion auf eine offizielle VR-chinesische Liste von 8000 Zeichen (Liste als PDF, Erklärung auf chinesisch hier). Natürlich gibt es auch eine taiwanesische Version, die insbesondere keine simplified characters enthält. Es ist allerdings nicht ganz klar, wie die Reduktion automatisiert erfolgen soll. Daher ist auch diese Normalisierung vorläufig unrealistisch.