Changes between Version 10 and Version 11 of donatus-unicode


Ignore:
Timestamp:
Aug 1, 2011, 6:36:06 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • donatus-unicode

    v10 v11  
    44
    55Das Problem mit Arboreal, Alvarus und Donatus kann durch einen Service gelöst werden, der bei einem XML-Text die Wörter im Text durch die normalisierten Formen ersetzt. Diese Textversion kann Arboreal dann zu Donatus schicken.
     6
     7Ein kurzfristiger Workaround ist, den
     8[attachment:Alvarus_1509_YHKVZ7B4-fuer-Donatus.xml minimal veränderten Text]
     9an den
     10[http://archimedes.fas.harvard.edu/cgi-bin/donatus Donatus-Webservice]
     11zu schicken (siehe Abschnitt 1), dann einen Kommentar in der
     12[attachment:Alvarus_1509_YHKVZ7B4.morph.xml zurückgeschickten Morphologie-Datei]
     13zu löschen und in Arboreal den
     14[https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-content/browser/trunk/texts/Alvarus_1509/xml/Alvarus_1509_YHKVZ7B4.xml unveränderten Text]
     15(d.h ohne die Änderung für Donatus) und die
     16[https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-content/attachment/wiki/donatus-unicode/Alvarus_1509_YHKVZ7B4_neu.morph.xml Morphologie-Datei ohne den Kommentar]
     17zu verwenden. Dabei verliert man alle Wortformen im Text, die regularisiert werden müssen, unabhängig davon, ob sie bereits regularisiert wurden oder nicht. In Texten wie dem Alvarus ist das ein beträchtlicher Anteil.
    618
    719
     
    29411000 0 0.00 al?ati�is 0
    3042}}}
    31 wobei � das Zeichen U+FFFD ist. Arboreal wird wohl über die gleiche Stelle stolpern, löst das Problem aber nicht so nonchalant wie BBEdit.
     43wobei � das Zeichen U+FFFD ist. (Da der Rest der Datei ASCII und damit auch ISO-8859 und UTF-8 ist, kann man auch sagen, dass Donatus eine ISO-8859-1-Datei zurückliefert, trotz der expliziten Angabe `<?xml version="1.0" encoding="UTF-8"?>` in der Datei.)
     44
     45Arboreal wird wohl über die gleiche Stelle stolpern, löst das Problem aber nicht so nonchalant wie BBEdit.
    3246
    3347