wiki:normalization

Version 7 (modified by Wolfgang Schmidle, 13 years ago) (diff)

--

Normalisierung

Für die Anzeige unserer XML-Volltexte haben wir mehrere Anzeige-Modi, nämlich

  • Original
  • Regularized
  • Normalized

Grob gesprochen meint Original die größtmögliche Annäherung der Vorlage mit Unicode-Mitteln. Regularized meint die Ansicht mit buchspezifischen Korrekturen. Normalized meint die Ansicht mit einer sprachspezifische Normalisierung des Textes. In diesem Text geht es darum, wie die Normalisierung funktioniert:

  1. Wie werden Wörter zurzeit normalisiert?
  2. Was bedeutet das?
  3. Wann wird zurzeit normalisiert?
  4. Wie soll normalisiert werden?
  5. Was ist zu tun?

Abschnitt 1 beschreibt die bisherigen Normalisierungsregeln in Arboreal und im Backend im Detail. In Abschnitt 2 werden diese Regeln diskutiert. Abschnitt 3 beschreibt, in welchen Situationen diese Regeln angewendet werden. In Abschnitt 4 beschreibe ich, wie bei uns normalisiert werden soll. Abschnitt 5 listet auf, was dafür konkret zu tun ist.

Insbesondere Abschnitt 1 ist recht technisch. Am einfachsten ist es wohl, mit Abschnitt 4 anzufangen.