Changes between Version 15 and Version 16 of donatus-unicode


Ignore:
Timestamp:
Aug 1, 2011, 11:49:35 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • donatus-unicode

    v15 v16  
    9898Vielleicht sollte DICT dann bei problematischen Wörtern nicht einen leeren String, sondern besser ein Sternchen * zurückliefern, oder das Originalwort in eckigen Klammern, also zum Beipsiel [alṫatiõis]. Das müsste dann aber vom Backend abgefangen werden, so dass es nicht an Donatus geschickt wird. Und zurzeit tilgt DICT Zeilenumbrüche, d.h. aus "di- uerſa" wird nicht "di- versa", sondern "diversa". Aber für eine so entstandene Textversion wäre eine Verschiebung des Zeilenumbruchs hinter das Wort wohl gut genug. Alternative wäre ein neuer State DONATUS, der recht einfach zu erstellen wäre.
    9999
     100(Alternativ könnte man
     101(1) Arboreal die Wörter des Textes extrahieren lassen, ohne dass dabei die schon vorhandenen Regularisierungen berücksichtigt werden;
     102(2) das entstandene XML mit dem Regularisierungsskript neu regularisieren, beachte dabei die Schreibweise quã-titate ohne Leerzeichen für Zeilenumbrüche;
     103(3) die <reg>-tags durch den Inhalt des @norm-Attributs ersetzen und
     104(4) es dann mit Hilfe eines simplen Java-Wrappers mit dem Lex normalisieren.
     105Die nicht-automatisierbaren Regularisierungen, zum Beispiel Tippfehlerkorrekturen, werden allerdings auch mit dieser Methode nicht übernommen.)
     106
    100107Die so erhaltene Morphologie-Datei enthält auch die (normalisierten) Wortformen der regularisierungsbedürftigen Wortformen. Hypothetisches Beispiel: Falls es im Text zum Lemma "alteratio" nur die Wortform "alṫatiõis" gäbe, wäre das Lemma trotzdem enthalten. (In Wirklichkeit enthält Alvarus aber auch unverkürzte Formen wie alterationis oder alteratione.) Allerdings würde Arboreal von "alṫatiõis" nicht zum Lemma-Eintrag kommen, siehe diese Wortform in <s xml:id="N2CAEE">.
    101108