wiki:tmp/mpdl2.0-robert

Architektur Volltext Morphologie Tools

  • APIs
    • morphologie
      • ganzer text
        • nicht zu analysierende bereiche
        • reg/norm
      • wortliste(?)
      • einzelnes wort
    • dictionary
      • einzelnes wort
        • input
          • form wie im text
            • sprache angeben
            • sonst ergebnisse aus allen sprachen
          • lemma
            • sprache angeben
          • auswahl des wörterbuchs
            • sonst alle wörterbücher
        • output
          • link
          • html seite
          • xml format
            • welches?
            • eventuell zwischenseite mit ergebnissen
    • suche
      • typ
        • morphologisch
        • reg/norm
        • exakt
      • input?
      • output?
    • indexierung
    • normalisierung(?)
  • pipeline
    • wort im text
    • tokenising
    • reg
      • zusätzliche form
    • norm
      • zusätzliche form
    • morphologie
      • zusätzlicher link
      • zusätzliches lemma(?)
    • indexierung
    • zerlegung in seiten
    • rendering in html
  • probleme
    • word tokenising
      • zeilenumbrüche
        • erkennen
        • zusammensetzen
        • wieder trennen
    • regularisierung/normalisierung
      • wort wird zu mehreren worten
Last modified 13 years ago Last modified on Sep 5, 2011, 9:41:27 AM