Changes between Version 27 and Version 28 of normalization/6


Ignore:
Timestamp:
Dec 13, 2010, 2:35:57 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/6

    v27 v28  
    5656    * Es kommt gar keine echte Wortform heraus. Dann ist man nicht weiter als mit der originalen Form. Beispiele: eiuſdẽ wird zu eiusde und ſcīa wird zu scia.
    5757    * Es kommt das falsche Lemma heraus, d.h. der Fehler wird kaschiert. Beispiel: itẽ wird zu ite. (Es gibt allerdings wohl nur wenige reale Beispiele.)
    58     * Es kommt die falsche Wortform im richtigen Lemma heraus: zum Beispiel reſiduũ wird zu residuu. Spätestens bei einer automatisierten linguistischen Analyse des Satzes wird sich die falsche Wortform als Problem erweisen.
     58    * Es kommt die falsche Wortform im richtigen Lemma heraus: zum Beispiel reſiduũ wird zu residuu. Spätestens bei der morphologischen Analyse erweist sich das als Problem.
    5959 1. Diakritika, die in der entsprechenden Sprache gar nicht vorkommen sollten, werden nicht normalisiert. Zeichen mit Kombinationen von mehreren Diakritika werden ebenfalls nicht normalisiert. Es ist nicht die Aufgabe der Normalisierung, die Textqualität stillschweigend zu verbessern.
    6060
     
    7272
    7373Ein Beispiel im Lateinischen: Im Benedetti gibt es zum Beispiel sowohl cęlum/cælum (wird zur korrekten Schreibweise caelum normalisiert) als auch cœlum (mittellateinische Schreibweise; die normalisierte Schreibweise coelum wird in einem modernen Wörterbuch vermutlich nicht gefunden).
    74  * Möglicherweise brauchen wir eine Sprachschicht "Mittellatein". Als Alternative zum Standard-Latein oder als vor- oder nachgeschaltetes Modul?
     74 * Möglicherweise brauchen wir eine Sprachschicht "Mittellatein".
     75 * Als Alternative zum Standard-Latein oder als vor- oder nachgeschaltetes Modul? Beachte dabei, dass Benedetti Wortformen aus beiden Sprachschichten hat.
    7576 * Eine Wortliste, oder Ersetzungsregeln?
    7677 * Wird die Schreibweise in der Textanzeige normalisiert, oder nur für das Wörterbuch? (Wäre das eine Aufgabe der Normalisierung? Gegen Regularisierung spricht: es ist kein Textfehler und auch nicht buchspezifisch.)
    77  * Oder als buchspezifisches Normalisierung, eventuell als overlay? Wäre auch bei Alvarus eine buchspezifische Normalisierung sinnvoll, um sich einen großen Teil der Regularisierungen im Text zu sparen? Oder wird unser System damit zu zersplittert? Unsere Texte könnten dann praktisch nur noch bei uns korrekt angezeigt werden.
    78 
    79 Jedem Text ist eine Sprachschicht zugeordnet, entweder durch eine explizite Angabe in den Metadaten oder durch eine implizite Folgerung aus der Sprache des Textes und seinem Erscheinungsjahr.
     78 * Oder als buchspezifisches Normalisierung, eventuell als overlay? Wäre auch bei Alvarus eine buchspezifische Normalisierung sinnvoll, um sich einen großen Teil der Regularisierungen im Text zu sparen? Eine buchspezifische Normalisierung ist quasi eine hochspezialisierte Sprachstufe. Oder wird unser System damit zu zersplittert? Unsere Texte könnten dann praktisch nur noch bei uns korrekt angezeigt werden. Wir könnten aber einen Service anbieten, dass sich Benutzer das XML mit dem entsprechend normalisierten Text herunterladen können.
     79 * Alvarus hat ein anderes Set von bedeutungstragenden Diakritika als Benedetti (zum Beispiel enthält Benedetti kein ſcīa). Es könnte also durchaus passieren, dass zum Beispiel ë im Alvarus bedeutungstragend ist. Ob die beiden Sets tatsächlich inkompatibel oder lediglich nicht identisch sind, weiß ich nicht. Es ist im Alvarus auch oft nicht klar, ob ein Diakritikum optisch bzw. semantisch eher ein Makron, eine Tilde oder "Umlaut-Punkte" ist. Das Beispiel ë ist jedenfalls frei ausgedacht, und im regularisierten Text sollten bedeutungstragende Diakritika gar nicht mehr vorkommen.
     80
     81Jedem Text ist eine Sprachschicht zugeordnet, entweder durch eine explizite Angabe in den Metadaten oder durch eine implizite Folgerung aus der Sprache des Textes und seinem Erscheinungsjahr.
    8082 * Jochen: Der Benutzer soll aber auch die Möglichkeit haben, den Text mit den Normalisierungen für andere Sprachschichten auszuprobieren.
    8183 * Sollte man einen französischen Text auch probehalber mit den italienischen Normalisierungsregeln anzeigen lassen können, oder nur mit unterschiedlichen Sprachschichten der gleichen Sprache?
     
    8789 * Es gibt (zumindest für die Textanzeige) keine Normalisierungsregeln für Satzzeichen.
    8890 * Bindestriche werden in der Textanzeige nicht normalisiert. Für das Wörterbuch und für die Suche im normalisierten Text wird ein Bindestrich am Ende der Zeile entfernt und das Wort zusammengesetzt.
    89  * Als normalisierenswerte Diakritika kommen in der Regel nur ó ò ô ö õ ō ŏ in Frage, alle anderen Diakritika werden nicht normalisiert.
     91 * Als normalisierenswerte Diakritika kommen in der Regel nur ó ò ô ö õ ō ŏ in Frage, alle anderen Diakritika werden nicht normalisiert. Andere Diakritika wie ḫ in der Transliterierung eines Keilschrifttextes oder ǘ in Pinyin gelten von vornherein als Absicht. Und auch bei den Diakritika ó ò ô ö õ ō ŏ müssen bei jeder Sprache die Diakritika, die normalisiert werden sollen, jeweils explizit angegeben werden.
    9092 * Umgang mit hyphen und soft hyphen, <lb/> etc.
    9193 * Umgang mit ''combining characters'' versus ''precomposed characters''
     
    106108 * Im Gegensatz zum Deutschen wird ß wie in eße oder serenißimi normalisiert.
    107109 * æ wird zu ae
    108  * ę wird zu ae
     110 * ę wird ebenfalls zu ae
    109111 * œ wird zu oe
    110112 * ij wird zu ii
     
    118120 * u/v: Malcolms Algorithmus für das Italienische kann (mit korrigiertem und angepasstem Umgang mit getrennten Wörtern) für das Lateinische übernommen werden. Sinnvoll ist allerdings wohl eine Neu-Implementierung in ''Lex''.
    119121 
    120 Überflüssige Diakritika können zur Lemma- und-Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden:
     122Überflüssige Diakritika können zur Lemma- und Wortform-Disambiguierung verwendet werden. Details müssen noch geklärt werden:
    121123 * ò ist wohl eine reine Lesehilfe
    122124 * ô ist wohl ein Längezeichen
     
    124126
    125127Beachte: Eine Jahreszahl wie MDLXXXV (Benedetti p.5: <emph class="sc">mdlxxxv</emph>) darf nicht normalisiert werden. Mit den neuen Regeln für u/v würde das nicht mehr passieren. Da V immer rechts von X, L, C, D, M ist und rechts neben V nur I sein kann, gibt es wohl keine römische Zahl, die normalisiert werden würde. (Eigentlich sollte die Zahl auch wie der Inhalt von <var> vor der morphologischen Analyse versteckt werden. Deshalb besser: <num value="1585" style="sc">mdlxxxv</num>, und <num> wird wie <var> ausgenommen.)
    126 
    127 Beachte: Alvarus hat ein anderes Set von bedeutungstragenden Diakritika als Benedetti (zum Beispiel enthält Benedetti kein ſcīa). Es könnte also durchaus passieren, dass zum Beispiel ë im Alvarus bedeutungstragend ist. (Ob die beiden Sets tatsächlich inkompatibel oder lediglich nicht identisch sind, weiß ich nicht. Das Beispiel ist frei ausgedacht, und im regularisierten Text sollten bedeutungstragende Diakritika wie gesagt gar nicht mehr vorkommen.)
    128128
    129129Beachte das Kodierungsproblem bei der Kommunikation mit Donatus: Wahrscheinlich wird ISO 8859-1 verwendet.
     
    180180Es liegt in der Natur der Sache, dass die Zeichenliste eine offene Klasse ist. Die Liste wird regelmäßig ergänzt werden. Wir brauchen eine Architektur, die damit umgehen kann. Im Idealfall sollte dies möglich sein, ohne dass Programmcode angepasst werden muss. Insbesondere sollten der Mechanismus und die Liste selbst in getrennten Dateien stehen.
    181181
    182 Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
     182Die Normalisierung für das Wörterbuch ist wie immer unabhängig vom Textanzeigemodus: Auch im Original-Modus soll das Standardzeichen an das Wörterbuch geschickt werden.
    183183
    184184Die ''ZWS'' werden zumindest in der Normalisierung für das Wörterbuch entfernt.
     
    199199 * Im griechischen Text sollten alle Ligaturen regularisiert sein, d.h. in das faithful-Attribut verschoben. Noch im Text vorhandene Ligaturen werden nicht normalisiert.
    200200 * Im Text können middle dots enthalten sein, die ebenfalls nicht normalisiert werden.
    201  *Beachte bei der Kommunikation mit Pollux das Problem mit dem Sigma (Ticket [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/64 #64]):
     201 * Beachte bei der Kommunikation mit Pollux das Problem mit dem Sigma (Ticket [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/64 #64]):
    202202  * Anzeige im Text sollte richtig sein
    203203  * link sollte richtig sein