Changes between Version 1 and Version 2 of donatus-unicode
- Timestamp:
- Jul 30, 2011, 2:16:13 PM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
donatus-unicode
v1 v2 1 1 [[PageOutline(1-4,,pullout)]] 2 2 3 = Donatus 3 = Donatus und Unicode 4 4 5 5 Das Problem mit Arboreal, Alvarus und Donatus kann durch einen Service gelöst werden, der bei einem XML-Text die Wörter im Text durch die normalisierten Formen ersetzt. Diese Textversion kann Arboreal dann zu Donatus schicken. … … 13 13 geschickt. Einzige Änderung am Alvarus war, dass ich für Donatus <text xml:lang="la"> zu <text lang="la"> gemacht habe. 14 14 15 Donatus liefert dann zwei XML-Dateien ( Alvarus_1509_YHKVZ7B4.morph.xml und Alvarus_1509_YHKVZ7B4.unparsed.xml) und auf der Ergebnisseite selbst einen kurzen Überblick, was es getan hat:15 Donatus liefert dann zwei XML-Dateien ([attachment:Alvarus_1509_YHKVZ7B4.morph.xml] und [attachment:Alvarus_1509_YHKVZ7B4.unparsed.xml]) und auf der Ergebnisseite selbst einen kurzen Überblick, was es getan hat: 16 16 {{{ 17 17 donatus (2.9) running on archimedes.fas.harvard.edu at Sat Jul 30 07:57:07 2011 … … 25 25 Als Originalwort kommt nur alṫatiõis = alterationis in Frage. 26 26 27 Alvarus_1509_YHKVZ7B4.morph.xmlenthält denselben Text als Kommentar. Wenn man diese Datei zum Beispiel mit BBEdit öffnet, kommt eine Fehlermeldung "kein korrektes UTF-8", weil dieser Teil mit ISO 8859-1 statt UTF-8 kodiert ist (siehe Abschnitt 5), und die Zeile von oben wird angezeigt als27 [attachment:Alvarus_1509_YHKVZ7B4.morph.xml] enthält denselben Text als Kommentar. Wenn man diese Datei zum Beispiel mit BBEdit öffnet, kommt eine Fehlermeldung "kein korrektes UTF-8", weil dieser Teil mit ISO 8859-1 statt UTF-8 kodiert ist (siehe Abschnitt 5), und die Zeile von oben wird angezeigt als 28 28 {{{ 29 29 1000 0 0.00 al?ati�is 0 … … 78 78 Die Versatzstücke für diesen Service existieren bereits im Backend: Worterkennung, Regularisierung, Lex anwenden, zusammenfügen zu einer Textseite. 79 79 80 Vielleicht sollte DICT dann bei problematischen Wörtern nicht einen leeren String, sondern besser ein Sternchen * zurückliefern, oder das Originalwort in eckigen Klammern, also zum Beipsiel [alṫatiõis]. Das müsste dann aber vom Backend abgefangen werden, so dass es nicht an Donatus geschickt wird. Und zurzeit tilgt DICT Zeilenumbrüche, d.h. aus "di- uerſa" wird nicht "di- versa", sondern "diversa". Aber für eine so entstandene Textversion wäre eine Verschiebung des Zeilenumbruchs hinter das Wort wohl gut genug. Alternative wäre ein neuer State DONATUS, der einfach zu erstellen wäre.80 Vielleicht sollte DICT dann bei problematischen Wörtern nicht einen leeren String, sondern besser ein Sternchen * zurückliefern, oder das Originalwort in eckigen Klammern, also zum Beipsiel [alṫatiõis]. Das müsste dann aber vom Backend abgefangen werden, so dass es nicht an Donatus geschickt wird. Und zurzeit tilgt DICT Zeilenumbrüche, d.h. aus "di- uerſa" wird nicht "di- versa", sondern "diversa". Aber für eine so entstandene Textversion wäre eine Verschiebung des Zeilenumbruchs hinter das Wort wohl gut genug. Alternative wäre ein neuer State DONATUS, der recht einfach zu erstellen wäre. 81 81 82 82 83 == 5. Ursprüngliche Problembeschreibung bei Benedetti83 == 5. Ursprüngliche Problembeschreibung 84 84 85 85 Zur Fehlermeldung (in etwa) "invalid XML character 173a64 was found in the comment (line 74)" in Arboreal beim Benedetti mit der neuen reg-Struktur: Es ist ein wohl ein Zeichenkodierungsproblem mit dem "Cruncher backend", das Donatus für Latein verwendet.