| 162 | === Technisch bedingte Normalisierung im Lateinischen === |
| 163 | |
| 164 | Erstmal ist es okay, für Pollux die alte Normalisierung zu verwenden. Grundsätzlich gilt die neue Normalisierung aber auch für die Wörterbücher. Dabei werden mehrere Module hinteinandergeschaltet: |
| 165 | 1. Erst wird das Normalisierungsmodul für die Textanzeige ausgeführt, |
| 166 | 2. auf das Ergebnis wird ein weiteres Modul für sprachimmanente Normalisierungen (z.B. Gravis zu Akut im Griechischen; im Lateinischen gibt es möglicherweise gar keine) angewendet, |
| 167 | 3. dann technisch bedingte Normalisierungen für einzelne Wörterbücher. |
| 168 | |
| 169 | Wir sollten uns mal zusammensetzen, um zu gucken, wie die technisch bedingte Normalisierung aussehen soll. Es ist klar, dass Zeichen wie ẽ oder û nicht an Pollux geschickt werden sollten, weil Pollux nicht mit Unicode umgehen kann. Vermutlich läuft es darauf hinaus, dass die Diakritika nicht wie bei Malcolm einfach entfernt werden, sondern dass solche Wörter gar nicht erst an Pollux geschickt werden. Für die Index-Erstellung sollte es aber okay sein, die Wörter zu schicken. Dann sind eben Wörter wie Praeterquàmquod im Index. (Original ist Pręterquàmquòd, und ich gehe von einer Regel -òd aus; wird P im Index zu p, also praeterquàmquod? Wenn ja, macht Lucene das selbst?) |
| 170 | |