Context Navigation

Changes between Version 16 and Version 17 of normalization/6

Timestamp:: Dec 8, 2010, 2:12:23 PM (13 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/6

-                      v16
+                      v17
 Außerdem:
  * Die Normalisierungsregeln sollten einfach formulierbar sein.
+ * Die Normalisierungsregeln sollten einfach und eindeutig formuliert sein
  * die Normalisierungsschicht sollte so einfach wie möglich sein, aber nicht einfacher:
    * muss mit einfachen Algorithmen wie bei u/v umgehen können (Latein)
 …
 ||= =|| tert{ij} || tertij ||||  =  ||||  tertii  || einfache Ligatur ||
 ||= =||||  cœlum  ||||  =  || coelum || caelum || Mittellatein 9) ||
+||= =|| || ve-<lb/>ritate ||||  =  || || veritate || Zeilenumbruch ||
 |||||||||||||||| ||
 ||= '''Deutsch''' =||||  Wasserstraße  ||||  =  ||||  =  || ß im Deutschen wird nicht normalisiert ||
 …
 ||= =|| τ{ὴν} || τ{ὴν} (τὴν) || τὴν || ||  || τήν || schwierige Ligatur ||
 ||= =|| {τῶν} || {τῶν} (τῶν) || {τῶν} || ||||  =  || Abbreviatur ||
+|||||||||||||||| ||
+||=  '''Symbole'''  =|| <001> || ♉ ||||  =  ||||  =  || einfaches Symbol ||
+||= =|| <002> || ♁ ||||  =  ||||  =  || Symbol mit zwei Formen 10) ||
+||= =|| <al> || &x1F70D; ||||  =  ||||  =  || Alchemie-Symbol Sulfur ||
 ||= =|||| |||| |||| || ||
 …
 . Beachte die Klammern in der Original-Spalte. Zur Erläuterung siehe [wiki:regularization#Latein hier].
 . Siehe die Diskussion im Abschnitt [#Latein Latein].
+. Das Symbol ist semantisch beschrieben: "Earth". Offenbar gibt es zwei verschiedene übliche Formen. Wie es dargestellt wird, hängt vom jeweiligen Font ab.
 === Standard-Normalisierungen in allen Sprachen ===
  * ſ wird zu s
+ * Es gibt keine Normalisierungsregeln für Satzzeichen.
+ * Es gibt (zumindet für die Textanzeige) keine Normalisierungsregeln für Satzzeichen.
+ * Bindestriche werden in der Textanzeige nicht normalisert. Für das Wörterbuch werden Bindestrich am Ende der Zeile entfernt und das Wort zusammengesetzt.
  * Als normalisierenswerte Diakritika kommen nur ó ò ô ö õ ō ŏ in Frage, alle anderen Diakritika sind Fehler und werden nicht normalisiert.
  * Umgang mit hyphen und soft hyphen, <lb/> etc.
 …
 Wäre es sinnvoll, im sprachunabhängigen Modul eine Regel wie "ß wird zu ss" zu haben, und das Modul für Deutsch überschreibt diese Regel? Wahrscheinlich würde das Ändern der Regeln dadurch schwieriger.
+Sind die Normalisierungen für die Anzeige und das Wörterbuch in einer Sprache unabhängig voneinander, oder besteht die Normalisierung für das Wörterbuch aus der Normaliserung für die Textanzeige und weiteren Normalisierungen? Bei den überflüssigen Diakritika wäre das nicht möglich, ansonsten ginge es wohl.
 === Latein ===
 …
 Umlaute und ß werden nicht normalisiert, im Gegensatz zum Lateinischen.
+Bindestriche werden für die Anzeige nicht normalisiert. Für das Wörterbuch: Bindestriche innerhalb eines Wortes werden nicht normalisiert. Probleme wie "Vor- und Rücksicht" (mit space nach dem Bindestrich) können wir wohl nicht lösen. Am Ende der Zeile wird das Wort ohne Bindestrich zusammengesetzt, außer der zweite Teil beginnt mit einem Großbuchstaben. Alles, was trotzdem nicht korrekt erkannt wird, können wir nicht ändern. (Eventuell ist das Wörterbuch clever genug, das Bindestrich-Problem selber zu lösen.)
 Darüber hinaus ist eine orthographische Normalisierung deutscher Texte schwierig. Eventuell wird es mehrere verschiedene Normalierungsregeln in Abhängigkeit vom Alter des Textes geben.
 …
 Im Chinesischen gibt es eine Schwelle, unter der eine Zeichenvariante nicht mehr sinnvoll vom Standardzeichen unterschieden werden kann. Diese Entscheidung ist aber im Text bereits getroffen worden. Die Normalisierung ist nur noch rein technischer Akt: Ersetze das Unicode-Zeichen 歴 durch das-Unicode-Zeichen 歷, etc.
 Es liegt in der Natur der Sache, dass die Zeichenliste eine offene Klasse ist. Die Liste wird regelmäßig ergänzt werden. Im Idealfall sollte dies möglich sein, ohne dass Programmcode angepasst werden muss. Insbesondere sollten der Mechanismus und die Liste selbst in getrennten Dateien stehen.
+Es liegt in der Natur der Sache, dass die Zeichenliste eine offene Klasse ist. Die Liste wird regelmäßig ergänzt werden. Wir brauchen eine Architektur, die damit umgehen kann. Im Idealfall sollte dies möglich sein, ohne dass Programmcode angepasst werden muss. Insbesondere sollten der Mechanismus und die Liste selbst in getrennten Dateien stehen.
 Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
 …
 Arboreal: hochgestellte 1 bis 5 werden erstmal nicht normalisiert. (aber Teil der Wortende-Markierung??)
+Einen Service zur Umwandlung von Lang- in Kurzzeichen könnte man zwar auch anbieten, aber wirklich sinnvoll wäre das für klassisches Chinesisch wohl nicht.
 === Arabisch ===