Changes between Version 16 and Version 17 of donatus-unicode


Ignore:
Timestamp:
Aug 2, 2011, 9:32:43 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • donatus-unicode

    v16 v17  
    1919Mittelfristig kann das Problem durch einen Service gelöst werden, der bei einem XML-Text die Wörter im Text durch die normalisierten Formen ersetzt. Diese Textversion kann Arboreal dann zu Donatus schicken. Dann sind auch die (normalisierten) Wortformen der regularisierungsbedürftigen Wortformen in der Morphologie-Datei enthalten. Damit Arboreal solche Wortformen dann auch tatsächlich richtig zuordnen kann, muss ein zweiter Service diese Wortformen in der Morphologie-Datei ergänzen.
    2020
    21 Die langfristig beste Lösung wäre, dass Arboreal neben der <reg>-Struktur in Archimedes auch die neue <reg>-Struktur versteht, und Arboreal sollte bei Echo-Schema-konformen Texten die neue Normalisierung verwenden. Für diese Lösung muss allerdings der Sourcecode von Arboreal geändert werden.
     21Die langfristig beste Lösung wäre, dass Arboreal neben der <expan>-Struktur in Archimedes auch die neue <reg>-Struktur versteht, und Arboreal sollte bei Echo-Schema-konformen Texten die neue Normalisierung verwenden. Für diese Lösung muss allerdings der Sourcecode von Arboreal geändert werden.
    2222
    2323
     
    5252== 2. Was schickt Arboreal an Donatus?
    5353
    54 Soweit ich weiß, fügt Arboreal um jedes Wort ein <w> ein. Das macht aber wohl keinen großen Unterschied für Donatus. Arboreal ersetzt außerdem jedes Wort durch eine normalisierte Form. Beim früheren <reg>, also zum Beispiel
    55  <reg orig="alṫatiõis">alterationis</reg>,
    56 hätte Arboreal alterationis genommen, wo die Normalisierung keinen Unterschied macht, und es so an Donatus geschickt. Beim jetzigen <reg>, also
     54Soweit ich weiß, fügt Arboreal um jedes Wort ein <w> ein. Das macht aber wohl keinen großen Unterschied für Donatus. Arboreal ersetzt außerdem jedes Wort durch eine normalisierte Form. Beim früheren <expan>, also zum Beispiel
     55 <expan abbr="alṫatiõis">alterationis</expan>,
     56hätte Arboreal alterationis genommen, wo die Normalisierung keinen Unterschied macht, und es so an Donatus geschickt. Beim jetzigen <reg> (siehe [wiki:normalization/5 normalization/5]), also
    5757 <reg norm="alterationis" type="simple context">alṫatiõis</reg>,
    5858nimmt Arboreal alṫatiõis und normalisiert und schickt es. Da es keine Normalisierungsregeln für ṫ und õ gibt (siehe
     
    8888== 4. Lösungsvorschlag
    8989
    90 Eigentlich müsste man Arboreal unter anderem beibringen, dass sich die Struktur von <reg> geändert hat. Genauer gesagt muss man Arboreal zum Beispiel über die docspecs.xml mitteilen können, welche Form es verwenden soll, denn in Archimedes soll ja weiterhin die alte Struktur von <reg> verwendet werden. Aber zurzeit traut sich niemand, etwas im Arboreal-Quellcode zu ändern. Im folgenden beschreibe ich eine Lösung, bei der das nicht nötig ist.
     90Ein kurzfristiger Workaround ist ganz oben beschrieben.
     91
     92=== langfristig
     93
     94Eigentlich müsste man Arboreal unter anderem beibringen, dass <reg> eine andere Struktur als das <expan> von Archimedes hat. Man muss Arboreal zum Beispiel über die docspecs.xml mitteilen können, was es verwenden soll: bei <expan> den Element-Inhalt, bei <reg> das @norm-Attribut (falls vorhanden; sonst auch den Element-Inhalt).
     95
     96Arboreal sollte außerdem zumindest bei Echo-Schema-konformen Texten die neue Normalisierung verwenden.
     97
     98Aber zurzeit traut sich niemand, etwas im Arboreal-Quellcode zu ändern. Im folgenden beschreibe ich eine Lösung, bei der das nicht nötig ist.
     99
     100=== mittelfristig
    91101
    92102Vorschlag, Teil 1: Ein Service, der bei einem XML-Text den Text auf Knopfdruck durch die DICT-normalisierte Form ersetzt. Diesen Text kann Arboreal dann zu Donatus schicken, und danach kann man diese Textversion entsorgen.