Changes between Version 10 and Version 11 of normalization/7


Ignore:
Timestamp:
Dec 13, 2010, 2:53:08 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/7

    v10 v11  
    2020interaktives Skript für den scholarly workflow:
    2121 * ersetze `<reg faithful="{πρ}ός">πρός</reg>` durch πρός
    22  * ersetze `<reg norm="exem" type="context">exẽ</reg> <lb/>plo` durch `<reg norm="exem- plo" type="context">exẽ-<lb/>plo</reg>`
     22 * ersetze `<reg norm="exem" type="context">exẽ</reg> <lb/>plo` durch `<reg norm="exem- plo" type="context">exẽ-<lb/>plo</reg>` (soft hyphen!)
    2323
    2424=== DESpecs ===
     
    3535Checkbox "faithful" als Unterpunkt von Original.
    3636
    37 Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen ''MUFI''-kompatiblen Font wie Andron, Junicode oder Palemonas.
     37Der Benutzer muss gewarnt werden, dass er für Original (auch ohne faithful) eventuell bestimmte Fonts installieren muss, zum Beispiel einen ''MUFI-Font'' wie Andron, Junicode oder Palemonas.
    3838
    3939Der Benutzer soll für einen Text die Normalisierungen von verschiedenen Sprachschichten einstellen können. Also in den extended-Optionen für jede Sprache die Wahl zwischen allen vorhandenen Normalisierungen. Wenn das Backend die Information liefert, ob ein Text <place> enthält, könnte man vielleicht auch herausfinden, welche Sprachen er laut den xml:lang-Attributen im Text enthält, und in den Optionen nur diese Sprachen auflisten?
     
    4747 * Die Architektur muss mit offenen Klassen wie der chinesischen Zeichenliste umgehen können, wo gelegentlich Zeichen von studentischen Hilfskräften nachgetragen werden.
    4848 * Trennung von sprachimmanenter Normalisierung (Beispiel "Gravis wird zu Akut") und technisch bedingter Normalisierung (Beispiel "Unicode wird zu Betacode"). Die technisch bedingte Normalisierung ist der sprachimmanenten Normalisierung nachgeschaltet.
    49   * Intern verwenden wir reines Unicode. Ein wichtiges Ziel ist, auch die Wörterbücher auf Unicode umzustellen. Falls aber zum Beispiel bei Griechisch weiterhin Betacode verwendet werden muss, brauchen wir eine modulare Architektur mit einer Unicode-Schnittstelle und kleinen Konvertierungsmodulen für die Wörterbücher, die leicht angepasst werden können.
     49  * Intern verwenden wir reines Unicode. Ein wichtiges Ziel ist, auch die Wörterbücher auf Unicode umzustellen. Falls das nicht möglich ist und zum Beispiel bei Griechisch weiterhin Betacode verwendet werden muss, brauchen wir eine modulare Architektur mit einer Unicode-Schnittstelle und kleinen Konvertierungsmodulen für die Wörterbücher, die leicht angepasst werden können.
    5050  * Die Umwandlung von Käse in Kaese für ein bestimmtes Wörterbuch ist ein Beispiel eine technisch bedingte Normalisierung, die schon für das nächste Wörterbuch in der gleichen Sprache nicht zutrifft.
    51   * Aus Performance-Gründen kann man dann die Normalisierungen eventuell automatisiert zusammenfassen. Dieser Vorgang müsste bei jeder Änderung an den Original-Modulen wiederholt werden.
     51  * Aus Performance-Gründen könnte man dann die Normalisierungen eventuell automatisiert zusammenfassen. Dieser Vorgang müsste bei jeder Änderung an den Original-Modulen wiederholt werden.
    5252 
    5353Zentrales repository ("authority file") für die {}-Sequenzen aus dem faithful-Attribut: {πρ}, {q3-it-a}, {⿴口或} etc., mit Angaben, wie diese Sequenzen dargestellt werden. Eventuell auch für escape sequences wie `&x1F70D;`. (Wenn es zu einer Sequenz keine Angabe oder Dateinamen gibt, wird sie unverändert angezeigt.)
    5454
    55 Die Informationen im faithful-Attribut sollen sinnvoll suchbar sein.
     55Die Informationen im faithful-Attribut sollen sinnvoll suchbar sein. (Für die entsprechende XQuery sollte es wohl eine Checkbox in den Suchoptionen geben: "Suche in faithful".)
    5656
    5757Langfristig sollen zumindest die ''IDS-'' und ''IVS-Sequenzen'' als jeweils ein einziges Zeichen anzeigbar sein, siehe Ticket [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/40 #40].
     
    7373 * nur Anzeige:
    7474  * ò ô ö werden zu o, entsprechend für alle Vokale
    75  * nur Wörterbuch:
     75 * nur Wörterbuch, sprachimmanent:
    7676  * ò wird zu o; entsprechend für alle Vokale
    7777  * ô wird zu o; Wortform-Disambiguierung; entsprechend für alle Vokale
     
    8888
    8989Deutsch (modern):
    90  * nur Wörterbuch (Celex):
     90 * nur Wörterbuch, technisch bedingt (Celex):
    9191  * Umlaute
    92   * é zu e?
    9392
    9493Chinesisch:
     
    9796
    9897Griechisch:
    99  * nur Wörterbuch:
     98 * nur Wörterbuch, sprachimmanent:
    10099  * Gravis wird zu Akut
    101   * Sigma: siehe [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/64 #64]
     100 * Sigma: siehe [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-software/ticket/64 #64]
     101  * korrektes Sigma im XML-Text verwenden
     102  * keine Normalisierung in der Textanzeige
     103  * keine sprachimmanente Wörterbuch-Normalisierung
     104  * Falls nötig, technisch bedingte Normalisierung. Überschneidet sich eventuell mit der Umwandlung in Betacode, wo beide Sigma gleich dargestellt werden.
     105
    102106