anzeige-modi – MPIWG-MPDL Content Project

Context Navigation

Anzeige-Modi für Text

Beachte: Auf dieser Seite geht es nur darum, wie Text mit <reg> tags dargestellt werden soll. Was genau im Text regularisiert werden soll, wird hier diskutiert. Zu Problemen der sprachspezifischen Suche siehe hier.

Zusammenfassung

im Textmodus im Anzeigesystem soll der User zwischen drei Anzeige-Modi für den Text wählen können:

die Originalgestalt des Textes ("ſphęræ"),
die regularisierte Fassung ("ſphaeræ"), die durch <reg> festgelegt wird, und
die normalisierte Fassung ("sphaerae"), die durch eine zusätzliche sprachspezifische Normalisierung entsteht.

Bei Fraktur-Texten sollte man zusätzlich zwischen Fraktur-Ansicht und Antiqua-Ansicht umschalten können.

Zeichen, die in Unicode nicht verfügbar sind, werden im xml durch links auf Bilder oder SVG-Fragmente ersetzt, die an einer zentralen Stelle abgelegt sind. Zeichen-Bilder müssen genau an der richtigen Stelle angezeigt werden.

Die sprachspezifische Normalisierung ist im Lateinischen und Griechischen nicht identisch mit der Normalisierung für Donatus / Pollux (Beispiel ἀλλὰ versus ἀλλά), sondern wohl eine Teilmenge davon. Die Normalisierung für Sprachen wie Chinesisch muss noch genauer beschrieben werden.

Die drei Anzeige-Modi

im Team Meeting 2010-05-12 haben wir besprochen, dass wir die Struktur von <reg> tatsächlich ändern, also zum Beispiel

<reg norm="ſphaeræ">ſphęræ</reg>

statt

<reg orig="ſphęræ">ſphaeræ</reg>

Als default wird bei uns weiterhin die regularisierte Schreibweise ſphaeræ angezeigt, nur steht sie jetzt im norm-Attribut.

Wenn man unsere xml-Texte zum Beispiel in einem Browser anschaut, sieht man jetzt den Originaltext (ohne jede Formatierung) und nicht wie vorher die regularisierte Textversion. Da der Originaltext jetzt also an deutlich prominenterer Stelle steht und nicht mehr wie vorher im orig-Attribut verschwindet, halte ich es für dringend, dass unser Anzeigesystem -- als Referenzsystem für unsere xml-Texte -- sowohl den Originaltext als auch den regularisierten Text korrekt anzeigen kann.

Wir brauchen daher bei der Text-Anzeige drei Anzeige-Modi:

original
regularisiert
normalisiert

Original meint die größtmögliche Annäherung an die Buch-Vorlage mit Unicode-Mitteln. Default-Anzeige ist, wie gesagt, die regularisierte Version, also original plus <reg>. Die normalisierte Version entsteht aus der regularisierten Version, wenn man zusätzlich einen sprachspezifischen Normalisierungs-Service darauf anwendet. Für Latein sind das mindestens u/v, i/j, ſ/s, ß/ss, æ/ae, œ/oe. Zur Frage, ob ë/e, ò/o etc. dazugehören, siehe weiter unten.

Beispiel

Ein vielleicht etwas gewöhnungsbedürftiges Beispiel, erst als XML und dann in den drei Anzeige-Modi:

XML (mit einigen zusätzlichen Zeilenumbrüchen):

<s xml:lang="la">vnum peritißimo aër verò 
<reg norm="reſiduum" type="context">reſiduũ</reg> 
<reg norm="ſphaeræ" type="simple">ſphęræ</reg> 
<reg norm="idemque" type="simple">idem́</reg> 
<reg norm="ſcientia" type="wordlist">ſcīa</reg> 
<reg norm="aequa- les" type="simple">ęqua-<lb/>les</reg> 
<image xlink:href="symbols/alchemy/sulfur.gif"/>. </s>

<s xml:lang="zh">中国
<reg norm="歷" type="simple">歴</reg>
<reg norm ="中国" type="simple">中<image xlink:href="symbols/chinese/⿴口玉.svg"/></reg>。</s>

<s xml:lang="el">Ἀλλὰ ξύλινον. </s>

Original:

vnum peritißimo aër verò reſiduũ ſphęræ idem́ ſcīa ęqua-
les [sulfur.gif]. 中国歴中[⿴口玉.svg]。Ἀλλὰ ξύλινον.

vnum peritißimo aër verò reſiduũ ſphęræ idem́ ſcīa ęqua-
les . 中国歴中。Ἀλλὰ ξύλινον.

[⿴口玉.svg durch ⿴口玉.bmp ersetzt]

regularisiert:

vnum peritißimo aër verò reſiduum ſphaeræ idemque ſcientia aequa-
les [sulfur.gif]. 中国歷中国。Ἀλλὰ ξύλινον.

vnum peritißimo aër verò reſiduum ſphaeræ idemque ſcientia aequa-
les . 中国歷中国。Ἀλλὰ ξύλινον.

normalisiert:

unum peritissimo aer vero residuum sphaerae idemque scientia aequa-
les [sulfur.gif]. 中国歷中国。Ἀλλὰ ξύλινον.

unum peritissimo aer vero residuum sphaerae idemque scientia aequa-
les . 中国歷中国。Ἀλλὰ ξύλινον.

Anmerkungen

Zeilenumbrüche:

Immer wenn im norm-Attribut ein Leerzeichen steht, bedeutet das einen Zeilenumbruch: partes <reg norm="aequa- les" type="simple">ęqua-<lb/>les</reg> noſce wird zu partes aequa-<lb/>les noſce. Statt eines einfachen <lb/> kann auch im xml-Text zum Beispiel auch <lb/><anchor ... /> stehen.

Ansicht im Browser:

Man sieht in Firefox im wesentlichen die Original-Version. Dabei fehlen Zeichen wie "sulfur", die durch ein <image> dargestellt werden. Auch das <lb/> wird ignoriert. Ob idem́ korrekt angezeigt wird, hängt vom verwendeten Font ab. Man sieht also (siehe Beispiel-Text.xml):
```
vnum peritißimo aër verò reſiduũ ſphęræ idem́ ſcīa ęqua-les . 中国歴中。Ἀλλὰ ξύλινον.
```

Sprachen-Kennzeichnung:

la soll irgendwann durch lat und zh durch zho oder sogar zho-Hant (für chinesisch mit traditional characters) ersetzt werden. Ebenso Altgriechisch grc statt el.

Latein:

Die normalisierte Textversion soll im Lateinischen (und Griechischen) der Schulschreibweise entsprechen.
Wenn man für die normalisierte Version den sprachspezifischen Normalisierungs-Service für Donatus / Pollux verwendet, wenn man also in der normalisierten Version genau die Vereinheitlichungen macht, die man auch für Donatus / Pollux macht, muss man im Lateinischen aër und verò zu aer und vero vereinheitlichen. Will man das? Wie wäre die Schulschreibweise? (Noch problematischer ist es im Griechischen, siehe unten.)
Wir versuchen bei der Originalgestalt des Textes die Private Use Area in Unicode nach Möglichkeit zu vermeiden, aber zum Beispiel bei der "que"-Ligatur geht das nicht gut. Daher wird idem́ nur mit dem richtigen Font korrekt angezeigt. Brauchen wir noch einen vierten Anzeigemodus, wo ́ durch ein Bild ersetzt ist, oder kann man erwarten, dass jemand, der das Original korrekt angezeigt haben will, sich die Mühe macht, einen Font herunterzuladen und zu installieren? (wohl nicht)

Griechisch:

Spätestens im Griechischen muss man auf alle Fälle unterscheiden zwischen dem normalisierten Text und den Normalisierungen für Donatus / Pollux: Zum Beispiel ein Gravis auf dem letzten Buchstaben von ἀλλὰ in ἀλλὰ ξύλινον sollte auch in der normalisierten Textversion ἀλλὰ bleiben, an das Wörterbuch sollte jedoch ἀλλά mit Akut geschickt werden. Wahrscheinlich sind die Textnormalisierungen eine Teilmenge der Normalisierungen für Donatus / Pollux, sodass man den Normalisierungsservice in zwei Teile teilen kann und für die Textnormaliserung nur den ersten Teil aufruft.

Symbole:

Mit <image> eingefügte Zeichen-Bilder müssen genau an der richtigen Stelle angezeigt werden, damit der Text lesbar bleibt. Im Gegensatz zu <image> von Abbildungen gibt es dabei keinerlei Spielraum.
Die Symbole sind eigentlich nicht buchspezifisch. Deshalb sollten sie wohl auch nicht beim jeweiligen Buch-Verzeichnis gespeichert werden, sondern an einer zentralen Stelle. Also in etwa
```
<image xlink:href="http://echo.mpiwg-berlin.mpg.de/symbols/alchemy/sulfur.gif"/>
<image xlink:href="http://echo.mpiwg-berlin.mpg.de/symbols/chinese/⿴口玉.svg"/>
```
Eine absolute URL macht den xml-Text unabhängiger von unserem Anzeigesystem. Trotzdem wäre es vielleicht wünschenswert, das file-Attribut nachmachen zu können, das lediglich den Dateinamen der Abbildung enthält und erst mit dem Pfad des Textes auf Foxridge und dem Unterverzeichnis figures/ eine vollständige URI ergibt. Wie kann man das erreichen, wenn die Symbole zentral gespeichert werden? Zum Beispiel könnte "symbols/" im file-Attribut als Verweis auf diese zentrale Stelle statt als lokales Verzeichnis interpretiert werden. Oder ein neues Attribut? (Eine neuer tag wäre wohl übertrieben.)
Alchemie-Symbole werden in Unicode 6.0 enthalten sein, das September 2010 offiziell werden soll. Eine beta-Version der Codepoints ist hier. Das zugehörige Proposal, Alchemie-Zeichen in Unicode aufzunehmen,ist hier.

Chinesisch:

Beachte, dass der Unterschied zwischen der Variante 歴 (U+6B74) und dem Standardzeichen 歷 (U+6B77) nicht leicht zu erkennen ist.
Das Beispiel "⿴口玉" ist kein echtes Beispiel, weil es das Zeichen 国 in Unicode gibt. Es echtes Beispiel wäre "⿱井蛙". Weitere Beispiele hier.
Der Text enthält keine zero width spaces (U+200B), obwohl wir sie voraussichtlich irgendwann als Worttrenner verwenden werden (zum Beispiel im Wort "中国" für "China": [space]中[kein space]国[space]).
Das SVG-Format wie in <image xlink:href="symbols/chinese/⿴口玉.svg"/> wurde mit einem Tool des Wenlin Institute erstellt. Als Nachbearbeitung habe ich in der Datei die Maßangaben von 200x200 auf 20x20 verkleinert und alle Koordinaten entsprechend verkleinert. SVG in html: <embed src="symbols/chinese/⿴口玉.svg" type="image/svg+xml"/>, funktioniert in Firefox 3.6.3 (siehe html-test.html und die Bilder ⿴口玉.bmp und ⿴口玉.svg im gleichen Verzeichnis). Wenlin erzeugt alternativ zu SVG auch BMP. Wäre BMP (oder GIF) besser als SVG ?

Fraktur:

Im obigen Beispiel fehlt Fraktur, weil Fraktur nicht als eigenständiges Alphabet in Unicode enthalten ist.
Geben wir das alternative r wieder? Wir lassen es bisher als normales r tippen.
Wir haben noch keinen Font, der die Zwangsligaturen (ch, ck, tz) und die weiteren üblichen Ligaturen (ff, fi, fl, ft, ll, ſi, ſſ, ſt, tt) in Unicode-kompatibler Weise darstellen kann. Trotzdem ist es zum jetzigen Zeitpunkt wohl nicht sinnvoll, diese Ligaturen explizit im Text zu markieren (Unicode-Ligaturen U+FB00 bis U+FB06) oder gar Ligatur-Bilder einzufügen. Fraktur-Fonts können bisher zum Beispiel mit ﬅ (U+FB05) nichts anfangen, und mit Ligatur-Bildern würde der halbe Text aus Bildern bestehen. Da die Regeln für Ligaturen ohnehin geradlinig sind, wäre die Markierung von Ligaturen im Text auch redundant, außer der Font im Original verwendet andere als die Standard-Ligaturen. Wir werden wohl warten müssen, bis ein Font die Ligaturen automatisch korrekt darstellt.
Eventuell sollte der User die Möglichkeit haben, bei der Textansicht zwischen Fraktur und nicht-Fraktur umschalten zu können. Wenn er Fraktur wählt, sollte nur der Text selbst in Fraktur erscheinen, aber nicht die zusätzlichen Texte auf der Seite wie den Buchtitel, "elapsed time", etc.

Last modified 15 years ago Last modified on Jun 3, 2010, 7:23:46 AM

Attachments (3)

sulfur.gif (918 bytes) - added by Wolfgang Schmidle 15 years ago.
⿴口玉.svg (1.7 KB) - added by Wolfgang Schmidle 15 years ago.
⿴口玉.bmp (2.1 KB) - added by Wolfgang Schmidle 15 years ago.

Download all attachments as: .zip

Download in other formats:

Plain Text