wiki:regularisierung

Version 4 (modified by Wolfgang Schmidle, 15 years ago) (diff)

--

Regularisierung

Was wird regularisiert?

Die Anzeige-Modi haben eine klare Beschreibung: Die regularisierte Version ist das Original mit den Änderungen durch <reg>, und die normalisierte Version ist die regularisierte Version, wo zusätzlich noch ein sprachspezifischer Normalisierungsservice angewendet wurde.

Und was wird regularisiert? Rein pragmatisch regularisieren wir ę, weil viele Leute sonst nicht wissen, was gemeint ist, aber nicht æ, denn bei æ gibt es dieses Problem nicht. Und wenn wir æ regularisieren würden, müssten wir vielleicht auch ſ (long s) zu s regularisieren. Dann hätte aber jedes zweite Wort ein <reg> tag. (Mit einem ähnlichen Argument verwenden wir bei fehlenden Trennstrichen nicht <reg>, sondern fügen ein "soft hyphen" ein.)

Zurzeit wird also regularisiert, was wir pragmatisch für regularisierenswert halten. Ist es sinnvoll und möglich, hierfür klarere Regeln anzugeben? Offenbar kann man jedenfalls nicht einfach sagen, dass <reg> alle textspezifischen Korrekturen enthält. Denn zum Beispiel ae für ę ist nicht textspezifisch und könnte daher auch erst in der normalisierten Version zu ae aufgelöst werden.

Kann man sagen, dass wir zumindest im Lateinischen eine damals übliche Textgestalt erreichen wollen und dabei Zeichen regularisieren, die damals als reine Abkürzungszeichen empfunden wurden? Zum Beispiel ist ſ Teil der damals üblichen Textgestalt im Lateinischen. Es gibt klare Gebrauchsregeln für ſ, und es ist nicht einfach austauschbar mit s. Das ę ist dagegen ein Abkürzungszeichen, das der Setzer verwendet, wenn ae zuviel Platz wegnimmt. Das æ verhält sich offenbar eher wie ſ als wie ę, zum Beispiel in Formen wie quæ. Muss man dann quę zu quæ statt zu quae regularisieren, genauso wie ſcīa zu ſcientia und nicht zu scientia regularisiert wird? Und ſphęræ zu ſphæræ (diese Form kommt in Benedetti recht oft vor) statt zu ſphaeræ?

weiteres

Latein

  • Ich gehe davon aus, dass ſcīa zu ſcientia regularisiert wird und nicht gleich zu scientia, und entsprechend rñdẽs zu reſpondens und nicht zu respondens.

Griechisch

  • Mit den weiteren Problemen im Griechischen (verschiedene {και}-Ligaturen, Ligaturen versus Abbreviaturen, Akzente auf dem falschen Buchstaben bei Diphthongen, etc.) habe ich mich noch nicht näher beschäftigt.

Symbole

  • Ich nehme an, wenn ein User nach "Saturn" sucht, würde er auch gerne das Symbol ♄ im Text finden. Möglich wäre das durch <reg norm="Saturn" type="symbol">♄</reg>. Können/wollen wir das leisten? Zum Beispiel soll das Symbol ja in der regularisierten Darstellung nicht durch den Text "Saturn" ersetzt werden. Man könnte eventuell ein neues Attribut wie searchValue="Saturn" einführen. Oder wäre das ein gutes Beispiel für eine overlay-Schicht? Vorläufig habe ich jedenfalls bei dem Alchemie-Symbol "Sulfur" im Beispiel hier kein <reg> um das <image> gemacht.

Chinesisch

  • Der reg-Typ "simple" bei dem Beispiel 歴 drückt aus, dass es sich um eine einfache kontextlose Ersetzung handelt. Eventuell könnte man auch den Typ "variant" nehmen, um auszusagen, dass eine Zeichenvariante durch das Standardzeichen ersetzt wurde. Aber nachdem ich das im Lateinischen durchexerziert und wieder verworfen habe, sehe ich keinen wirklich guten Grund, im Chinesischen doch wieder einen "erklärenden" reg-Typ einzuführen.

Regularisierung versus Normalisierung

Griechisch

  • Bei falsch gesetzten Akzenten in Diphthongen ist die Frage, ob der Akzent schon im Text regularisiert wird, oder ob das als Merkwürdigkeit des Buches akzeptiert wird und erst in der normalisierten Version korrigiert wird.

Chinesisch

  • Sobald die Unicode-Datenbank eine stabile Möglichkeit bietet, von einer Variante zum Standardzeichen zu gelangen, kann man statt <reg norm="歷" type="simple">歴</reg> auch einfach 歴 schreiben. Dann wird im Original und in der regularisierten Version die Variante 歴 dargestellt, und in der normalisierten Version findet das Anzeigesystem selbständig das Standardzeichen 歷.
  • Zurzeit ist die normalisierte Version in chinesischen Texten aber noch mit der regularisierten Version identisch. Eine (VR-chinesische) Normalisierungsmöglichkeit wäre die Darstellung von traditional characters als simplified characters. Das wäre zwar recht einfach zu implementieren, aber für uns wohl nicht nötig. Eine weitere Normalisierungsmöglichkeit, die der Idee der Schulschreibweise im Lateinischen nahekommt, wäre die Reduktion auf eine offizielle VR-chinesische Liste von 8000 Zeichen (Liste als PDF, Erklärung auf chinesisch hier). Natürlich gibt es auch eine taiwanesische Version, die insbesondere keine simplified characters enthält. Es ist allerdings nicht ganz klar, wie die Reduktion automatisiert erfolgen soll. Daher ist auch diese Normalisierung vorläufig unrealistisch.