Changes between Version 3 and Version 4 of donatus-unicode


Ignore:
Timestamp:
Jul 30, 2011, 3:14:30 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • donatus-unicode

    v3 v4  
    66
    77
    8 == 1. Problembeschreibung bei Arboreal
     8== 1. Problembeschreibung bei Alvarus
    99
    1010Das Problem ist offenbar der gleiche Fehler wie damals beim Benedetti. Zur ursprünglichen Problembeschreibung für Benedetti siehe Abschnitt 5. Ich habe diesmal nur den Donatus-Webservice ausprobiert und es nicht in Arboreal nachvollzogen. Und zwar habe ich eine [source:trunk/texts/Alvarus_1509/xml/Alvarus_1509_YHKVZ7B4-fuer-Donatus.xml angepasste Version]
     
    3232
    3333
    34 == 2. Arboreal versus Donatus-Webservice
     34== 2. Was schickt Arboreal an Donatus?
    3535
    3636Soweit ich weiß, fügt Arboreal um jedes Wort ein <w> ein. Das macht aber wohl keinen großen Unterschied für Donatus. Arboreal ersetzt außerdem jedes Wort durch eine normalisierte Form. Beim früheren <reg>, also zum Beispiel
     
    4646 * v  -->  u
    4747 * q;  --> que
    48 Das Wort "ut" kommt im Alvarus zum Beispiel als vt und Ut vor, aber nicht als ut. Donatus kann es aber auch ohne Normalisierung korrekt analysieren:
     48Das Wort "ut" kommt im Alvarus zum Beispiel als vt und Ut vor, aber nicht als ut. Der Donatus-Webservice kann es aber auch ohne Normalisierung korrekt analysieren:
    4949{{{
    5050<lemma form="ut" lang="la">
     
    5656
    5757
    58 == 3. Was will man an Donatus schicken?
     58== 3. Was sollte man an Donatus schicken?
    5959
    60 Was man wirklich schicken möchte, ist die DICT-normalisierte Form, mit dem DICT-State vom
     60Was man wirklich schicken sollte, ist die DICT-normalisierte Form, mit dem DICT-State vom
    6161[source:trunk/schema/scripts/MpdlNormalizerLex/MpdlNormalizerLexLA.lex Lex für Latein]. (Oder sogar einen State, der genauer an Texte dieser Zeit angepasst ist, vergleichbar mit RENAISSANCE_DICT für Benedetti. Das kann man aber erst genauer sagen, wenn Alvarus alle nötigen <reg> enthält und das Backend korrekt mit <reg> umgeht.)
    6262
     
    8383== 5. Ursprüngliche Problembeschreibung
    8484
     85[meine Email vom 9.6.2010; nur noch für die Diskussion von ISO 8859-1 relevant]
     86
    8587Zur Fehlermeldung (in etwa) "invalid XML character 173a64 was found in the comment (line 74)" in Arboreal beim Benedetti mit der neuen reg-Struktur: Es ist ein wohl ein Zeichenkodierungsproblem mit dem "Cruncher backend", das Donatus für Latein verwendet.
    8688