Changes between Version 24 and Version 25 of normalization/7


Ignore:
Timestamp:
Jan 17, 2011, 8:43:02 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/7

    v24 v25  
    160160  * Die Disambiguierung von hîc kann man in der kurzfristigen Version weglassen.
    161161
     162=== Technisch bedingte Normalisierung im Lateinischen ===
     163
     164Erstmal ist es okay, für Pollux die alte Normalisierung zu verwenden. Grundsätzlich gilt die neue Normalisierung aber auch für die Wörterbücher. Dabei werden mehrere Module hinteinandergeschaltet:
     165 1. Erst wird das Normalisierungsmodul für die Textanzeige ausgeführt,
     166 2. auf das Ergebnis wird ein weiteres Modul für sprachimmanente Normalisierungen (z.B. Gravis zu Akut im Griechischen; im Lateinischen gibt es möglicherweise gar keine) angewendet,
     167 3. dann technisch bedingte Normalisierungen für einzelne Wörterbücher.
     168
     169Wir sollten uns mal zusammensetzen, um zu gucken, wie die technisch bedingte Normalisierung aussehen soll. Es ist klar, dass Zeichen wie ẽ oder û nicht an Pollux geschickt werden sollten, weil Pollux nicht mit Unicode umgehen kann. Vermutlich läuft es darauf hinaus, dass die Diakritika nicht wie bei Malcolm einfach entfernt werden, sondern dass solche Wörter gar nicht erst an Pollux geschickt werden. Für die Index-Erstellung sollte es aber okay sein, die Wörter zu schicken. Dann sind eben Wörter wie Praeterquàmquod im Index. (Original ist Pręterquàmquòd, und ich gehe von einer Regel -òd aus; wird P im Index zu p, also praeterquàmquod? Wenn ja, macht Lucene das selbst?)
     170
    162171=== Italienisch ===
    163172