Changes between Version 10 and Version 11 of donatus-unicode
- Timestamp:
- Aug 1, 2011, 6:36:06 AM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
donatus-unicode
v10 v11 4 4 5 5 Das Problem mit Arboreal, Alvarus und Donatus kann durch einen Service gelöst werden, der bei einem XML-Text die Wörter im Text durch die normalisierten Formen ersetzt. Diese Textversion kann Arboreal dann zu Donatus schicken. 6 7 Ein kurzfristiger Workaround ist, den 8 [attachment:Alvarus_1509_YHKVZ7B4-fuer-Donatus.xml minimal veränderten Text] 9 an den 10 [http://archimedes.fas.harvard.edu/cgi-bin/donatus Donatus-Webservice] 11 zu schicken (siehe Abschnitt 1), dann einen Kommentar in der 12 [attachment:Alvarus_1509_YHKVZ7B4.morph.xml zurückgeschickten Morphologie-Datei] 13 zu löschen und in Arboreal den 14 [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-content/browser/trunk/texts/Alvarus_1509/xml/Alvarus_1509_YHKVZ7B4.xml unveränderten Text] 15 (d.h ohne die Änderung für Donatus) und die 16 [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-content/attachment/wiki/donatus-unicode/Alvarus_1509_YHKVZ7B4_neu.morph.xml Morphologie-Datei ohne den Kommentar] 17 zu verwenden. Dabei verliert man alle Wortformen im Text, die regularisiert werden müssen, unabhängig davon, ob sie bereits regularisiert wurden oder nicht. In Texten wie dem Alvarus ist das ein beträchtlicher Anteil. 6 18 7 19 … … 29 41 1000 0 0.00 al?ati�is 0 30 42 }}} 31 wobei � das Zeichen U+FFFD ist. Arboreal wird wohl über die gleiche Stelle stolpern, löst das Problem aber nicht so nonchalant wie BBEdit. 43 wobei � das Zeichen U+FFFD ist. (Da der Rest der Datei ASCII und damit auch ISO-8859 und UTF-8 ist, kann man auch sagen, dass Donatus eine ISO-8859-1-Datei zurückliefert, trotz der expliziten Angabe `<?xml version="1.0" encoding="UTF-8"?>` in der Datei.) 44 45 Arboreal wird wohl über die gleiche Stelle stolpern, löst das Problem aber nicht so nonchalant wie BBEdit. 32 46 33 47