Context Navigation

Changes between Version 1 and Version 2 of donatus-unicode

Timestamp:: Jul 30, 2011, 2:16:13 PM (13 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

donatus-unicode

-                      v1
+                      v2
 [[PageOutline(1-4,,pullout)]]
 = Donatus
+= Donatus und Unicode
 Das Problem mit Arboreal, Alvarus und Donatus kann durch einen Service gelöst werden, der bei einem XML-Text die Wörter im Text durch die normalisierten Formen ersetzt. Diese Textversion kann Arboreal dann zu Donatus schicken.
 …
 geschickt. Einzige Änderung am Alvarus war, dass ich für Donatus <text xml:lang="la"> zu <text lang="la"> gemacht habe.
 Donatus liefert dann zwei XML-Dateien (Alvarus_1509_YHKVZ7B4.morph.xml und Alvarus_1509_YHKVZ7B4.unparsed.xml) und auf der Ergebnisseite selbst einen kurzen Überblick, was es getan hat:
+Donatus liefert dann zwei XML-Dateien ([attachment:Alvarus_1509_YHKVZ7B4.morph.xml] und [attachment:Alvarus_1509_YHKVZ7B4.unparsed.xml]) und auf der Ergebnisseite selbst einen kurzen Überblick, was es getan hat:
 {{{
 donatus (2.9) running on archimedes.fas.harvard.edu at Sat Jul 30 07:57:07 2011
 …
 Als Originalwort kommt nur alṫatiõis = alterationis in Frage.
 Alvarus_1509_YHKVZ7B4.morph.xml enthält denselben Text als Kommentar. Wenn man diese Datei zum Beispiel mit BBEdit öffnet, kommt eine Fehlermeldung "kein korrektes UTF-8", weil dieser Teil mit ISO 8859-1 statt UTF-8 kodiert ist (siehe Abschnitt 5), und die Zeile von oben wird angezeigt als
+[attachment:Alvarus_1509_YHKVZ7B4.morph.xml] enthält denselben Text als Kommentar. Wenn man diese Datei zum Beispiel mit BBEdit öffnet, kommt eine Fehlermeldung "kein korrektes UTF-8", weil dieser Teil mit ISO 8859-1 statt UTF-8 kodiert ist (siehe Abschnitt 5), und die Zeile von oben wird angezeigt als
 {{{
 0 0.00 al?ati�is 0
 …
 Die Versatzstücke für diesen Service existieren bereits im Backend: Worterkennung, Regularisierung, Lex anwenden, zusammenfügen zu einer Textseite.
 Vielleicht sollte DICT dann bei problematischen Wörtern nicht einen leeren String, sondern besser ein Sternchen * zurückliefern, oder das Originalwort in eckigen Klammern, also zum Beipsiel [alṫatiõis]. Das müsste dann aber vom Backend abgefangen werden, so dass es nicht an Donatus geschickt wird. Und zurzeit tilgt DICT Zeilenumbrüche, d.h. aus "di- uerſa" wird nicht "di- versa", sondern "diversa". Aber für eine so entstandene Textversion wäre eine Verschiebung des Zeilenumbruchs hinter das Wort wohl gut genug. Alternative wäre ein neuer State DONATUS, der einfach zu erstellen wäre.
+Vielleicht sollte DICT dann bei problematischen Wörtern nicht einen leeren String, sondern besser ein Sternchen * zurückliefern, oder das Originalwort in eckigen Klammern, also zum Beipsiel [alṫatiõis]. Das müsste dann aber vom Backend abgefangen werden, so dass es nicht an Donatus geschickt wird. Und zurzeit tilgt DICT Zeilenumbrüche, d.h. aus "di- uerſa" wird nicht "di- versa", sondern "diversa". Aber für eine so entstandene Textversion wäre eine Verschiebung des Zeilenumbruchs hinter das Wort wohl gut genug. Alternative wäre ein neuer State DONATUS, der recht einfach zu erstellen wäre.
 == 5. Ursprüngliche Problembeschreibung bei Benedetti
+== 5. Ursprüngliche Problembeschreibung
 Zur Fehlermeldung (in etwa) "invalid XML character 173a64 was found in the comment (line 74)" in Arboreal beim Benedetti mit der neuen reg-Struktur: Es ist ein wohl ein Zeichenkodierungsproblem mit dem "Cruncher backend", das Donatus für Latein verwendet.