Changes between Version 16 and Version 17 of normalization/6
- Timestamp:
- Dec 8, 2010, 2:12:23 PM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/6
v16 v17 8 8 9 9 Außerdem: 10 * Die Normalisierungsregeln sollten einfach formulierbar sein.10 * Die Normalisierungsregeln sollten einfach und eindeutig formuliert sein 11 11 * die Normalisierungsschicht sollte so einfach wie möglich sein, aber nicht einfacher: 12 12 * muss mit einfachen Algorithmen wie bei u/v umgehen können (Latein) … … 82 82 ||= =|| tert{ij} || tertij |||| = |||| tertii || einfache Ligatur || 83 83 ||= =|||| cœlum |||| = || coelum || caelum || Mittellatein 9) || 84 ||= =|| || ve-<lb/>ritate |||| = || || veritate || Zeilenumbruch || 84 85 |||||||||||||||| || 85 86 ||= '''Deutsch''' =|||| Wasserstraße |||| = |||| = || ß im Deutschen wird nicht normalisiert || … … 98 99 ||= =|| τ{ὴν} || τ{ὴν} (τὴν) || τὴν || || || τήν || schwierige Ligatur || 99 100 ||= =|| {τῶν} || {τῶν} (τῶν) || {τῶν} || |||| = || Abbreviatur || 101 |||||||||||||||| || 102 ||= '''Symbole''' =|| <001> || ♉ |||| = |||| = || einfaches Symbol || 103 ||= =|| <002> || ♁ |||| = |||| = || Symbol mit zwei Formen 10) || 104 ||= =|| <al> || &x1F70D; |||| = |||| = || Alchemie-Symbol Sulfur || 100 105 ||= =|||| |||| |||| || || 101 106 … … 109 114 1. Beachte die Klammern in der Original-Spalte. Zur Erläuterung siehe [wiki:regularization#Latein hier]. 110 115 1. Siehe die Diskussion im Abschnitt [#Latein Latein]. 111 116 1. Das Symbol ist semantisch beschrieben: "Earth". Offenbar gibt es zwei verschiedene übliche Formen. Wie es dargestellt wird, hängt vom jeweiligen Font ab. 117 112 118 === Standard-Normalisierungen in allen Sprachen === 113 119 114 120 * ſ wird zu s 115 * Es gibt keine Normalisierungsregeln für Satzzeichen. 121 * Es gibt (zumindet für die Textanzeige) keine Normalisierungsregeln für Satzzeichen. 122 * Bindestriche werden in der Textanzeige nicht normalisert. Für das Wörterbuch werden Bindestrich am Ende der Zeile entfernt und das Wort zusammengesetzt. 116 123 * Als normalisierenswerte Diakritika kommen nur ó ò ô ö õ ō ŏ in Frage, alle anderen Diakritika sind Fehler und werden nicht normalisiert. 117 124 * Umgang mit hyphen und soft hyphen, <lb/> etc. … … 124 131 125 132 Wäre es sinnvoll, im sprachunabhängigen Modul eine Regel wie "ß wird zu ss" zu haben, und das Modul für Deutsch überschreibt diese Regel? Wahrscheinlich würde das Ändern der Regeln dadurch schwieriger. 133 134 Sind die Normalisierungen für die Anzeige und das Wörterbuch in einer Sprache unabhängig voneinander, oder besteht die Normalisierung für das Wörterbuch aus der Normaliserung für die Textanzeige und weiteren Normalisierungen? Bei den überflüssigen Diakritika wäre das nicht möglich, ansonsten ginge es wohl. 126 135 127 136 === Latein === … … 184 193 Umlaute und ß werden nicht normalisiert, im Gegensatz zum Lateinischen. 185 194 195 Bindestriche werden für die Anzeige nicht normalisiert. Für das Wörterbuch: Bindestriche innerhalb eines Wortes werden nicht normalisiert. Probleme wie "Vor- und Rücksicht" (mit space nach dem Bindestrich) können wir wohl nicht lösen. Am Ende der Zeile wird das Wort ohne Bindestrich zusammengesetzt, außer der zweite Teil beginnt mit einem Großbuchstaben. Alles, was trotzdem nicht korrekt erkannt wird, können wir nicht ändern. (Eventuell ist das Wörterbuch clever genug, das Bindestrich-Problem selber zu lösen.) 196 186 197 Darüber hinaus ist eine orthographische Normalisierung deutscher Texte schwierig. Eventuell wird es mehrere verschiedene Normalierungsregeln in Abhängigkeit vom Alter des Textes geben. 187 198 … … 200 211 Im Chinesischen gibt es eine Schwelle, unter der eine Zeichenvariante nicht mehr sinnvoll vom Standardzeichen unterschieden werden kann. Diese Entscheidung ist aber im Text bereits getroffen worden. Die Normalisierung ist nur noch rein technischer Akt: Ersetze das Unicode-Zeichen 歴 durch das-Unicode-Zeichen 歷, etc. 201 212 202 Es liegt in der Natur der Sache, dass die Zeichenliste eine offene Klasse ist. Die Liste wird regelmäßig ergänzt werden. Im Idealfall sollte dies möglich sein, ohne dass Programmcode angepasst werden muss. Insbesondere sollten der Mechanismus und die Liste selbst in getrennten Dateien stehen.213 Es liegt in der Natur der Sache, dass die Zeichenliste eine offene Klasse ist. Die Liste wird regelmäßig ergänzt werden. Wir brauchen eine Architektur, die damit umgehen kann. Im Idealfall sollte dies möglich sein, ohne dass Programmcode angepasst werden muss. Insbesondere sollten der Mechanismus und die Liste selbst in getrennten Dateien stehen. 203 214 204 215 Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden. … … 207 218 208 219 Arboreal: hochgestellte 1 bis 5 werden erstmal nicht normalisiert. (aber Teil der Wortende-Markierung??) 220 221 Einen Service zur Umwandlung von Lang- in Kurzzeichen könnte man zwar auch anbieten, aber wirklich sinnvoll wäre das für klassisches Chinesisch wohl nicht. 209 222 210 223 === Arabisch ===