Changes between Version 2 and Version 3 of anzeige-modi


Ignore:
Timestamp:
May 17, 2010, 4:17:22 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • anzeige-modi

    v2 v3  
    11== Anzeige-Modi für Text ==
    22
    3 im Team Meeting 2010-05-12 haben wir besprochen, dass wir die Struktur von <reg> tatsächlich ändern, also zum Beispiel <reg norm="sphaeræ">sphęræ</reg> statt <reg orig="sphęræ">sphaeræ</reg>. Als default wird bei uns weiterhin die normalisierte Schreibweise sphaeræ angezeigt, nur steht sie jetzt im norm-Attribut.
     3im Team Meeting 2010-05-12 haben wir besprochen, dass wir die Struktur von <reg> tatsächlich ändern, also zum Beispiel <reg norm="sphaeræ">sphęræ</reg> statt <reg orig="sphęræ">sphaeræ</reg>. Als default wird bei uns weiterhin die regularisierte Schreibweise sphaeræ angezeigt, nur steht sie jetzt im norm-Attribut.
    44
    5 Wenn man unsere xml-Texte zum Beispiel in einem Browser anschaut, sieht man jetzt den Originaltext und nicht wie vorher die normalisierte Textversion. Da der Originaltext jetzt also an deutlich prominenterer Stelle steht und nicht mehr wie vorher im orig-Attribut verschwindet, halte ich es für dringend, dass unser Anzeigesystem -- als Referenzsystem für unsere xml-Texte -- den Originaltext korrekt anzeigen kann.
     5Wenn man unsere xml-Texte zum Beispiel in einem Browser anschaut, sieht man jetzt den Originaltext und nicht wie vorher die regularisierte Textversion. Da der Originaltext jetzt also an deutlich prominenterer Stelle steht und nicht mehr wie vorher im orig-Attribut verschwindet, halte ich es für dringend, dass unser Anzeigesystem -- als Referenzsystem für unsere xml-Texte -- den Originaltext korrekt anzeigen kann.
    66
    77Wir brauchen daher bei der Text-Anzeige drei Anzeige-Modi:
    88
    9   1. Original
    10   1. Normalisiert
    11   1. Schulschreibweise
     9  1. original
     10  1. regularisiert
     11  1. normalisiert
    1212
    13 Original meint die größtmögliche Annäherung an die Buch-Vorlage mit Unicode-Mitteln. Default-Anzeige ist, wie gesagt, die normalisierte Version. Die Schulschreibweise entsteht aus der normalisierten Version, wenn man zusätzlich einen sprachspezifischen Normalisierungs-Service darauf anwendet. Für Latein sind das mindestens u/v, i/j, ſ/s, ß/ss, æ/ae, œ/oe. Zur Frage, ob ë/e, ò/o etc. dazugehören, siehe weiter unten.
     13Original meint die größtmögliche Annäherung an die Buch-Vorlage mit Unicode-Mitteln. Default-Anzeige ist, wie gesagt, die regularisierte Version, also original plus <reg>. Die normalisierte Version entsteht aus der regularisierten Version, wenn man zusätzlich einen sprachspezifischen Normalisierungs-Service darauf anwendet. Für Latein sind das mindestens u/v, i/j, ſ/s, ß/ss, æ/ae, œ/oe. Zur Frage, ob ë/e, ò/o etc. dazugehören, siehe weiter unten.
    1414
    1515=== Beispiel ===
     
    4141}}}
    4242
    43 2. Normalisiert:
     432. regularisiert:
    4444{{{
    4545vnum peritißimo aër verò reſiduum sphaeræ idemque ſcientia aequa-
     
    4747}}}
    4848
    49 3. Schulschreibweise:
     493. normalisiert:
    5050{{{
    5151unum peritissimo aer vero residuum sphaerae idemque scientia aequa-
     
    6262
    6363Latein:
    64   * Wenn man für die Schulschreibweise den sprachspezifischen Normalisierungs-Service für Donatus/Pollux verwendet, wenn man also in der Schulschreibweise genau die Vereinheitlichungen macht, die man auch für Donatus/Pollux macht, muss man im Lateinischen aër und verò zu aer und vero vereinheitlichen. Will man das? (Noch problematischer ist es im Griechischen, siehe unten.)
    65   * Ich gehe davon aus, dass ſcīa zu ſcientia normalisiert wird und nicht gleich zu scientia, und entsprechend rñdẽs zu reſpondens und nicht zu respondens.
    66   * Wir normalisieren ę, aber nicht æ, denn ę muss normalisiert werden, weil viele Leute sonst nicht wissen, was gemeint ist. Bei æ gibt es dieses Problem nicht. Und wenn wir es zu ae normalisieren würden, müssten wir konsequenterweise auch jedes ſ (long s) zu s normalisieren. Dann hätte aber jedes zweite Wort ein <reg> tag. (Mit einem ähnlichen Argument verwenden wir bei fehlenden Trennstrichen nicht <reg>, sondern fügen ein "soft hyphen" ein.)
     64  * Wenn man für die normalisierte Version den sprachspezifischen Normalisierungs-Service für Donatus/Pollux verwendet, wenn man also in der normalisierten Version genau die Vereinheitlichungen macht, die man auch für Donatus/Pollux macht, muss man im Lateinischen aër und verò zu aer und vero vereinheitlichen. Will man das? (Noch problematischer ist es im Griechischen, siehe unten.)
     65  * Ich gehe davon aus, dass ſcīa zu ſcientia regularisiert wird und nicht gleich zu scientia, und entsprechend rñdẽs zu reſpondens und nicht zu respondens.
     66  * Wir regularisieren ę, aber nicht æ, denn ę muss regularisiert werden, weil viele Leute sonst nicht wissen, was gemeint ist. Bei æ gibt es dieses Problem nicht. Und wenn wir es zu ae regularisieren würden, müssten wir konsequenterweise auch jedes ſ (long s) zu s regularisieren. Dann hätte aber jedes zweite Wort ein <reg> tag. (Mit einem ähnlichen Argument verwenden wir bei fehlenden Trennstrichen nicht <reg>, sondern fügen ein "soft hyphen" ein.)
    6767  * Wir versuchen die Private Use Area in Unicode nach Möglichkeit zu vermeiden, aber zum Beispiel bei der "que"-Ligatur geht das nicht gut. Daher wird idem́ nur mit dem richtigen Font korrekt angezeigt. Brauchen wir noch einen vierten Anzeigemodus, wo ́ durch ein Bild ersetzt ist, oder kann man erwarten, dass jemand, der das Original korrekt angezeigt haben will, sich die Mühe macht, einen Font herunterzuladen und zu installieren?
    6868
    6969Symbole:
    70   * Ich nehme an, wenn ein User nach "Saturn" sucht, würde er auch gerne das Symbol ♄ im Text finden. Möglich wäre das durch <reg norm="Saturn" type="symbol">♄</reg>. Können/wollen wir das leisten? Zum Beispiel soll das Symbol ja in der normalisierten Darstellung nicht durch den Text "Saturn" ersetzt werden. Man könnte eventuell ein neues Attribut wie searchValue="Saturn" einführen. Oder wäre das ein gutes Beispiel für eine overlay-Schicht? Vorläufig habe ich jedenfalls bei dem Alchemie-Symbol "Sulfur" kein <reg> um das <image> gemacht.
     70  * Ich nehme an, wenn ein User nach "Saturn" sucht, würde er auch gerne das Symbol ♄ im Text finden. Möglich wäre das durch <reg norm="Saturn" type="symbol">♄</reg>. Können/wollen wir das leisten? Zum Beispiel soll das Symbol ja in der regularisierten Darstellung nicht durch den Text "Saturn" ersetzt werden. Man könnte eventuell ein neues Attribut wie searchValue="Saturn" einführen. Oder wäre das ein gutes Beispiel für eine overlay-Schicht? Vorläufig habe ich jedenfalls bei dem Alchemie-Symbol "Sulfur" kein <reg> um das <image> gemacht.
    7171  * Es gibt übrigens inzwischen ein Proposal, Alchemie-Zeichen in Unicode aufzunehmen: [http://std.dkuug.dk/jtc1/sc2/wg2/docs/n3584.pdf n3584.pdf]
    7272
     
    7474  * Beachte, dass der Unterschied zwischen der Variante 歴 und dem Standardzeichen 歷 nicht leicht zu erkennen ist.
    7575  * Der reg-Typ "simple" bei dem Beispiel 歴 drückt aus, dass es sich um eine einfache kontextlose Ersetzung handelt. Eventuell könnte man auch den Typ "variant" nehmen, um auszusagen, dass eine Zeichenvariante durch das Standardzeichen ersetzt wurde. Aber nachdem ich das im Lateinischen durchexerziert und wieder verworfen habe, sehe ich keinen wirklich guten Grund, im Chinesischen doch wieder einen "erklärenden" reg-Typ einzuführen.
    76   * Sobald die Unicode-Datenbank eine stabile Möglichkeit bietet, von einer Variante zum Standardzeichen zu gelangen, kann man statt <reg norm="歷" type="simple">歴</reg> auch einfach 歴 schreiben. Dann wird im Original die Variante 歴 dargestellt, und in der normalisierten Version findet das Anzeigesystem selbständig das Standardzeichen 歷.
     76  * Sobald die Unicode-Datenbank eine stabile Möglichkeit bietet, von einer Variante zum Standardzeichen zu gelangen, kann man statt <reg norm="歷" type="simple">歴</reg> auch einfach 歴 schreiben. Dann wird im Original und in der regularisierten Version die Variante 歴 dargestellt, und in der normalisierten Version findet das Anzeigesystem selbständig das Standardzeichen 歷.
     77  * Zurzeit ist die normalisierte Version in chinesischen Texten aber noch mit der regularisierten Version identisch. Eine (VR-chinesische) Normalisierungsmöglichkeit wäre die Darstellung von traditional characters als simplified characters. Das wäre zwar recht einfach zu implementieren, aber für uns wohl nicht nötig.
    7778  * Auf alle Fälle soll die Suche nach 歷 auch 歴 (und andersrum!) finden. Probleme beim Suchen in den verschiedenen Sprachen müssen wir nochmal getrennt besprechen.
    7879  * Das Beispiel "⿴口玉" ist kein echtes Beispiel, weil es das Zeichen 国 in Unicode gibt. Es echtes Beispiel wäre "⿱井蛙". Weitere Beispiele [http://www.unicode.org/reports/tr45/tr45-sourcedata-2.txt hier].
    79   * Die Schulschreibweise ist in chinesischen Texten mit der normalisierten Version identisch; ein (VR-chinesisches) Äquivalent für die Schulschreibweise im Lateinischen wäre die Darstellung von traditional characters als simplified characters. Das wäre zwar recht einfach zu implementieren, aber für uns wohl nicht nötig.
    8080  * Der Text enthält keine invisible spaces, obwohl wir sie voraussichtlich irgendwann als Worttrenner verwenden werden (zum Beispiel im Wort "中国" für "China": [space]中[kein space]国[space]).
    8181  * Das SVG-Format wie in <image xlink:href="symbols/chinese/⿴口玉.svg"/> wurde mit einem [http://www.wenlin.com/cgi-bin/wenlinSVG.pl Tool] des [http://www.wenlin.com Wenlin Institute] erstellt. Als Nachbearbeitung habe ich in der Datei die Maßangaben von 200x200 auf 20x20 verkleinert und alle Koordinaten entsprechend verkleinert. SVG in html: <embed src="symbols/chinese/⿴口玉.svg" type="image/svg+xml"/>, funktioniert in Firefox 3.6.3 (siehe [https://itgroup.mpiwg-berlin.mpg.de:8080/tracs/mpdl-project-content/browser/trunk/schema/xml-test-files/display/html-test.html html-test.html] und die Bilder ⿴口玉.bmp und ⿴口玉.svg im gleichen Verzeichnis). Wenlin erzeugt alternativ zu SVG auch BMP. Wäre BMP (oder GIF) besser als SVG ?
    8282
    8383Griechisch:
    84   * Spätestens im Griechischen muss man auf alle Fälle unterscheiden zwischen den Standardisierungen für die Schulschreibweise und den Standardisierungen für Donatus/Pollux: Zum Beispiel ein Gravis auf dem letzten Buchstaben von ἀλλὰ in ἀλλὰ ξύλινον sollte auch in der Schulschreibweise ἀλλὰ bleiben, an das Wörterbuch sollte jedoch ἀλλά mit Akut geschickt werden.
     84  * Spätestens im Griechischen muss man auf alle Fälle unterscheiden zwischen dem normalisierten Text und den Normalisierungen für Donatus/Pollux: Zum Beispiel ein Gravis auf dem letzten Buchstaben von ἀλλὰ in ἀλλὰ ξύλινον sollte auch in der normalisierten Textversion ἀλλὰ bleiben, an das Wörterbuch sollte jedoch ἀλλά mit Akut geschickt werden.
    8585  * Mit den weiteren Problemen im Griechischen (verschiedene {και}-Ligaturen, Ligaturen versus Abbreviaturen, Akzente auf dem falschen Buchstaben bei Diphthongen, etc.) habe ich mich noch nicht näher beschäftigt.
    8686