Changes between Version 11 and Version 12 of normalization/1


Ignore:
Timestamp:
Jul 22, 2011, 9:32:00 AM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/1

    v11 v12  
    11[[PageOutline(1-4,,pullout)]]
    22
    3 [wiki:normalization Regularisierung und Normalisierung],
    4 I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7]
     3[.. Regularisierung und Normalisierung], I: [../1] [../2] [../3], II: [../4] [../5] [../6] [../7]
    54
    65= 1. Wie werden Wörter zurzeit normalisiert? =
     
    7877|| loquuti || loquuti ||
    7978|| QVI || Qvi (!) ||
     79
     80(beachte: korrekt wäre parvus)
    8081
    8182Programmfehler bei "v" (falsch, richtig):
     
    272273== Weiteres ==
    273274
    274 In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wasserstrassé und Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße.
     275In der Backend-Version gibt es zusätzlich eine Methode "deNormalizeToRegExpr". Diese Methode erstellt Teile von regexes, die für Latein, Deutsch und Englisch wohl aus einer normalisierten Form alle Wortformen finden soll, die zu dieser Wortform normalisiert werden. Die Implementation scheint allerdings fehlerhaft zu sein. Ein Beispiel: Wasserstraße wird normalisiert zu Wasserstrasse, daraus wird in "deNormalizeToRegExpr" wiederum "Waßerstraße|Wass[eé]rstrass[eé]". Es werden also die Wortformen Waßerstraße, Wasserstrasse, Wassérstrasse, Wasserstrassé und Wassérstrassé gefunden, aber nicht die originale Form Wasserstraße.
     276(Siehe auch die Word-information-Seite von
     277[http://mpdl-dev.mpiwg-berlin.mpg.de/ECHOdocuViewfull/template/fulltextclient/head_main_voc?language=de&word=wasserstrasse&output=html wasserstrasse],
     278wo an das DWDS die Form
     279[http://www.dwds.de/search/?qu=waßerstraße waßerstraße]
     280geschickt und deshalb nicht gefunden wird.)