Context Navigation

Changes between Version 15 and Version 16 of donatus-unicode

Timestamp:: Aug 1, 2011, 11:49:35 AM (13 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

donatus-unicode

-                      v15
+                      v16
 Vielleicht sollte DICT dann bei problematischen Wörtern nicht einen leeren String, sondern besser ein Sternchen * zurückliefern, oder das Originalwort in eckigen Klammern, also zum Beipsiel [alṫatiõis]. Das müsste dann aber vom Backend abgefangen werden, so dass es nicht an Donatus geschickt wird. Und zurzeit tilgt DICT Zeilenumbrüche, d.h. aus "di- uerſa" wird nicht "di- versa", sondern "diversa". Aber für eine so entstandene Textversion wäre eine Verschiebung des Zeilenumbruchs hinter das Wort wohl gut genug. Alternative wäre ein neuer State DONATUS, der recht einfach zu erstellen wäre.
+(Alternativ könnte man
+(1) Arboreal die Wörter des Textes extrahieren lassen, ohne dass dabei die schon vorhandenen Regularisierungen berücksichtigt werden;
+(2) das entstandene XML mit dem Regularisierungsskript neu regularisieren, beachte dabei die Schreibweise quã-titate ohne Leerzeichen für Zeilenumbrüche;
+(3) die <reg>-tags durch den Inhalt des @norm-Attributs ersetzen und
+(4) es dann mit Hilfe eines simplen Java-Wrappers mit dem Lex normalisieren.
+Die nicht-automatisierbaren Regularisierungen, zum Beispiel Tippfehlerkorrekturen, werden allerdings auch mit dieser Methode nicht übernommen.)
 Die so erhaltene Morphologie-Datei enthält auch die (normalisierten) Wortformen der regularisierungsbedürftigen Wortformen. Hypothetisches Beispiel: Falls es im Text zum Lemma "alteratio" nur die Wortform "alṫatiõis" gäbe, wäre das Lemma trotzdem enthalten. (In Wirklichkeit enthält Alvarus aber auch unverkürzte Formen wie alterationis oder alteratione.) Allerdings würde Arboreal von "alṫatiõis" nicht zum Lemma-Eintrag kommen, siehe diese Wortform in <s xml:id="N2CAEE">.