Changes between Version 1 and Version 2 of donatus-unicode


Ignore:
Timestamp:
Jul 30, 2011, 2:16:13 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • donatus-unicode

    v1 v2  
    11[[PageOutline(1-4,,pullout)]]
    22
    3 = Donatus
     3= Donatus und Unicode
    44
    55Das Problem mit Arboreal, Alvarus und Donatus kann durch einen Service gelöst werden, der bei einem XML-Text die Wörter im Text durch die normalisierten Formen ersetzt. Diese Textversion kann Arboreal dann zu Donatus schicken.
     
    1313geschickt. Einzige Änderung am Alvarus war, dass ich für Donatus <text xml:lang="la"> zu <text lang="la"> gemacht habe.
    1414
    15 Donatus liefert dann zwei XML-Dateien (Alvarus_1509_YHKVZ7B4.morph.xml und Alvarus_1509_YHKVZ7B4.unparsed.xml) und auf der Ergebnisseite selbst einen kurzen Überblick, was es getan hat:
     15Donatus liefert dann zwei XML-Dateien ([attachment:Alvarus_1509_YHKVZ7B4.morph.xml] und [attachment:Alvarus_1509_YHKVZ7B4.unparsed.xml]) und auf der Ergebnisseite selbst einen kurzen Überblick, was es getan hat:
    1616{{{
    1717donatus (2.9) running on archimedes.fas.harvard.edu at Sat Jul 30 07:57:07 2011
     
    2525Als Originalwort kommt nur alṫatiõis = alterationis in Frage.
    2626
    27 Alvarus_1509_YHKVZ7B4.morph.xml enthält denselben Text als Kommentar. Wenn man diese Datei zum Beispiel mit BBEdit öffnet, kommt eine Fehlermeldung "kein korrektes UTF-8", weil dieser Teil mit ISO 8859-1 statt UTF-8 kodiert ist (siehe Abschnitt 5), und die Zeile von oben wird angezeigt als
     27[attachment:Alvarus_1509_YHKVZ7B4.morph.xml] enthält denselben Text als Kommentar. Wenn man diese Datei zum Beispiel mit BBEdit öffnet, kommt eine Fehlermeldung "kein korrektes UTF-8", weil dieser Teil mit ISO 8859-1 statt UTF-8 kodiert ist (siehe Abschnitt 5), und die Zeile von oben wird angezeigt als
    2828{{{
    29291000 0 0.00 al?ati�is 0
     
    7878Die Versatzstücke für diesen Service existieren bereits im Backend: Worterkennung, Regularisierung, Lex anwenden, zusammenfügen zu einer Textseite.
    7979
    80 Vielleicht sollte DICT dann bei problematischen Wörtern nicht einen leeren String, sondern besser ein Sternchen * zurückliefern, oder das Originalwort in eckigen Klammern, also zum Beipsiel [alṫatiõis]. Das müsste dann aber vom Backend abgefangen werden, so dass es nicht an Donatus geschickt wird. Und zurzeit tilgt DICT Zeilenumbrüche, d.h. aus "di- uerſa" wird nicht "di- versa", sondern "diversa". Aber für eine so entstandene Textversion wäre eine Verschiebung des Zeilenumbruchs hinter das Wort wohl gut genug. Alternative wäre ein neuer State DONATUS, der einfach zu erstellen wäre.
     80Vielleicht sollte DICT dann bei problematischen Wörtern nicht einen leeren String, sondern besser ein Sternchen * zurückliefern, oder das Originalwort in eckigen Klammern, also zum Beipsiel [alṫatiõis]. Das müsste dann aber vom Backend abgefangen werden, so dass es nicht an Donatus geschickt wird. Und zurzeit tilgt DICT Zeilenumbrüche, d.h. aus "di- uerſa" wird nicht "di- versa", sondern "diversa". Aber für eine so entstandene Textversion wäre eine Verschiebung des Zeilenumbruchs hinter das Wort wohl gut genug. Alternative wäre ein neuer State DONATUS, der recht einfach zu erstellen wäre.
    8181
    8282
    83 == 5. Ursprüngliche Problembeschreibung bei Benedetti
     83== 5. Ursprüngliche Problembeschreibung
    8484
    8585Zur Fehlermeldung (in etwa) "invalid XML character 173a64 was found in the comment (line 74)" in Arboreal beim Benedetti mit der neuen reg-Struktur: Es ist ein wohl ein Zeichenkodierungsproblem mit dem "Cruncher backend", das Donatus für Latein verwendet.