Changes between Version 3 and Version 4 of donatus-unicode
- Timestamp:
- Jul 30, 2011, 3:14:30 PM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
donatus-unicode
v3 v4 6 6 7 7 8 == 1. Problembeschreibung bei A rboreal8 == 1. Problembeschreibung bei Alvarus 9 9 10 10 Das Problem ist offenbar der gleiche Fehler wie damals beim Benedetti. Zur ursprünglichen Problembeschreibung für Benedetti siehe Abschnitt 5. Ich habe diesmal nur den Donatus-Webservice ausprobiert und es nicht in Arboreal nachvollzogen. Und zwar habe ich eine [source:trunk/texts/Alvarus_1509/xml/Alvarus_1509_YHKVZ7B4-fuer-Donatus.xml angepasste Version] … … 32 32 33 33 34 == 2. Arboreal versus Donatus-Webservice34 == 2. Was schickt Arboreal an Donatus? 35 35 36 36 Soweit ich weiß, fügt Arboreal um jedes Wort ein <w> ein. Das macht aber wohl keinen großen Unterschied für Donatus. Arboreal ersetzt außerdem jedes Wort durch eine normalisierte Form. Beim früheren <reg>, also zum Beispiel … … 46 46 * v --> u 47 47 * q; --> que 48 Das Wort "ut" kommt im Alvarus zum Beispiel als vt und Ut vor, aber nicht als ut. D onatuskann es aber auch ohne Normalisierung korrekt analysieren:48 Das Wort "ut" kommt im Alvarus zum Beispiel als vt und Ut vor, aber nicht als ut. Der Donatus-Webservice kann es aber auch ohne Normalisierung korrekt analysieren: 49 49 {{{ 50 50 <lemma form="ut" lang="la"> … … 56 56 57 57 58 == 3. Was willman an Donatus schicken?58 == 3. Was sollte man an Donatus schicken? 59 59 60 Was man wirklich schicken möchte, ist die DICT-normalisierte Form, mit dem DICT-State vom60 Was man wirklich schicken sollte, ist die DICT-normalisierte Form, mit dem DICT-State vom 61 61 [source:trunk/schema/scripts/MpdlNormalizerLex/MpdlNormalizerLexLA.lex Lex für Latein]. (Oder sogar einen State, der genauer an Texte dieser Zeit angepasst ist, vergleichbar mit RENAISSANCE_DICT für Benedetti. Das kann man aber erst genauer sagen, wenn Alvarus alle nötigen <reg> enthält und das Backend korrekt mit <reg> umgeht.) 62 62 … … 83 83 == 5. Ursprüngliche Problembeschreibung 84 84 85 [meine Email vom 9.6.2010; nur noch für die Diskussion von ISO 8859-1 relevant] 86 85 87 Zur Fehlermeldung (in etwa) "invalid XML character 173a64 was found in the comment (line 74)" in Arboreal beim Benedetti mit der neuen reg-Struktur: Es ist ein wohl ein Zeichenkodierungsproblem mit dem "Cruncher backend", das Donatus für Latein verwendet. 86 88