wiki:display-chinese

Version 1 (modified by Wolfgang Schmidle, 14 years ago) (diff)

--

Die Anzeige von chinesischen Texten

chinesische Satzzeichen

Manche Satzzeichen werden fälschlicherweise durch ihre ASCII-Äquivalente ersetzt:

Satzzeichen " "
Unicode 3002 FF01 FF1F FF0C 3001 FF1A FF1B 3000
angezeigt als . ok ok ok , ok ok " "

Unicode-Namen: 300x: "ideographic ...", FFxx: "fullwidth ..." (i.e. fullwidth-Versionen von ASCII-Zeichen). Beim Punkt gibt es beides (fullwidth-Version ist FF0E), aber verwendet wird 3002. Beim Komma gibt es auch beides, und beide werden mit verschiedenen Bedeutungen verwendet (normales Komma FF0C vs. Aufzählungskomma 3001).

Es werden also die "ideographic"-Zeichen 3000-3002 nicht korrekt dargestellt.

Ein Beipiel für den ideographic space U+3000 ist die Überschrift auf Seite 18.

Ein Beispiel für 。 ist hier. Im Gesamt-XML ist es 。:

<s xml:id="N406244" xml:space="preserve">則​又​非​也。</s>

aber im Seiten-XML und bei der Textanzeige ist es ein ASCII-Punkt:

<s xml:id="N406244" xml:space="preserve">則​又​非​也.</s>

(Am Ende einer Note werden die Punkte korrekt angezeigt, siehe Seite 10A / 21, obwohl im Seiten-XML ein ASCII-Punkt ist, siehe hier!)

Überschriften

Die Überschriften werden zentriert angezeigt. Bei Absätzen mit <lb/> kann es passieren, dass die Überschrift rechts neben dem Text steht, zum Beispiel auf Seite 3. Besser wäre linksbündig, und Einrückung je nach headlevel (falls vorhanden).

figures

Alle Bilder sind Seitenbilder. Die einzige Ausnahme ist eventuell das Bild auf Seite 83B / 168; wir haben es aber auch zum Seitenbild erklärt, weil der Text auf der Seite zum Bild gehört. Die Seitenbilder sind als JPGs (also nicht als TIFFs) im figures-Ordner (Kopien der Seiten aus dem pageimg-Ordner, mit Zusatz "-01".)

  • Die Lösung, Figures in <div float> rechtsbündig anzuzeigen, funktioniert bei Seitenbildern optisch nicht. Vergleiche Figure 12 ohne <div float> und Figure 13 mit <div float>. Vermutlich sollten wir also doch als Standard nehmen, Bilder linksbündig anzuzeigen. (Würde sich die Lage verändern, wenn man in bei den Bildern noch die Position definiert?)
  • <caption> wird über dem Bild gezeigt, alle <description> hintereinander ohne return oder space neben "[Figure: ...]:" ( Beispiel). Aber descriptions sind keine Unter-Überschriften. Die caption sollte dort gezeigt werden, wo jetzt die descriptions sind. Die descriptions dann darunter, jeweils in einer neuen Zeile für jede description. (Problem der mehrzeiligen descriptions: Listenpunkte für die descriptions?)
  • Die Bilder mit <div float> werden nicht korrekt durchnumeriert und auch nicht korrekt angezeigt, siehe z.B. Seite 154. Intern stimmt die Numerierung aber offenbar: Nach viermal 13 kommt 17. (Möglicherweise vergleichbar: Im Benedetti sollen laut TOF die Figures 26 bis 29 auf Seite 26 sein, angezeigt werden aber, korrekterweise, nur zwei figures.)
  • Das Symbol für ein fehlendes Bild wird angezeigt unabhängig davon, ob die Figure ein <image> hat oder nicht. Beispiel: Bilder 1-6 haben kein <image>, aber Bild 7 und 10 haben <image>. (Zumindest für diesen Text hat es sich erledigt, denn die figures haben jetzt <image>.)
  • Aufruf der Table of Figures ergibt eine Fehlermeldung. (Bei Andrey wird daraus eine ECHO-Fehlermeldung.)
  • Insbesondere für die Doppelseitenbilder braucht man die umgekehrte links-rechts-Metapher der Pfeile.

Parallel-Ansichten

  • Eine Option bei Seitenbildern für eine Ansicht mit Bild und Text auf einer Seite statt auf zwei Seiten wäre sinnvoll.
  • Dagmar hat eine Übersetzung des Textes mit IDs. Die Übersetzung sollte parallel zum Originaltext angezeigt werden können. Im Gegensatz zu Arboreal ohne Bearbeitungsmöglichkeit, aber die <s> im Original und in der Übersetzung sollten optisch klar zuordenbar sein. (Letztlich könnte das Anzeigesystem eine web-Version von Arboreal werden.)

small text

  • <emph style="sm"> wird korrekt angezeigt: Beispiel (beide Überschriften auf Seite 74), aber <s style="sm"> nicht: Beispiel. (Die Art, wie <sm> markiert wird, wird sich zwar wohl noch ändern, aber das Problem tritt auch bei kursivem Text etc. auf, siehe unten.)
  • <sm> sollte sich optisch klarer von normal großem Text unterscheiden, d.h. etwas kleinere Schriftgröße in chinesischen Texten (und damit auch in europäischen Texten, wenn man nicht verschiedene CSS-Versionen pflegen will)
  • Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel Bild, Text. Im Text wäre das <lb type="halfline"/> (oder <hb/>), was nicht wie ein normaler <lb/> behandelt werden darf, sondern sich nur auf <sm> bezieht. (Das \\ in table cells wird zu einem normalen <lb/>, weil es hier keine Probleme gibt.) Wäre denn eine Tabellendarstellung on-the-fly mit einer quasi unsichtbaren Tabelle bei cinesischen Texten eine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.?
  • Eine Option, small text ein- und auszublenden, wäre sinnvoll.
  • Beachte: Falls die <sm> aus <p> noch als notes herausgezogen werden, hat die Darstellung von <sm> im Text keine hohe Dringlichkeit mehr, denn dann kommt das nur noch in Überschriften, im TOC, etc. vor.

Table of Contents

Die div's der front matter werden nicht angezeigt: Title, preface, toc. Bei toc sollten die verschachtelten div's nicht angezeigt werden. Ich werde das ändern, sobald ich dazu komme.

Seitenzahlen

Es sollte auch der Name der Halbseite angezeigt werden, also zum Beispiel 168 / 83B und 169 / 84A. Ansonsten ist es mühsam, eine Seite zu finden. Aus dem file-Attribut in <pb> extrahieren, oder neues Attribut? (Das o-Attribut, in dem die originale Seitenzahl steht, passt hier eigentlich nicht, denn zum Beispiel "83B" steht ja nicht auf der Seite, sondern ist eine nachträgliche Zählung. Außerdem gibt es ja echte Seitenzahlen, auch wenn sie noch nicht abgetippt wurden!)

Neuer Stand: Die Seitenzahlen sind eingefügt. Problem ist jetzt, dass die Seitenzahl offenbar nicht in eine Zeile passt um umgebrochen wird, siehe z.B. Seite 154.

xhtml

Seiten 416-417 enthalten eine xhtml-Liste (xhtml:dl). Die seiten werden nicht angezeigt.

Suche

Es kann immer wieder passieren, dass die ZWS (U+200B) durcheinandergeraten.

  • Wie geht die Suche damit um? Suchoption "ignoriere ZWS"?
  • Wie wird der Index bei chinesischen Texten erstellt? Wird ZWS dabei beachtet oder nicht?
  • Und ZWJ (U+200D) als positives Signal, dass die Zeichen Teil eines Wortes sind? Bricht das die Suche bei uns der bei anderen? Ausprobieren?

Zeichen-Varianten

Infrastruktur für die Anzeige von ⿱金尖.svg schaffen. <image> muss anders behandelt werden als bei Figures. Außerdem Infrastruktur für IVS-Sequenzen.

PDF-Darstellung

Sun-ExtA sollte nur für chinesische Zeichen und Interpunktion verwendet werden. Beispiel Text, XML. Beachte Extension B einerseits und lateinische Zeichen andererseits.

Nebenfunde

  • Der URL-Zusatz &sn=... numeriert die Überschriften nicht mit durch, man kann also beispielsweise die Überschriften im Beispiel für <emph style="sm"> nicht explizit markieren. Bug oder feature?
  • Anzeige von Marginalien funktioniert noch nicht. Beispiel Benedetti:
    • Immer noch als Fußnoten
    • und mit dem internen link, den der Benutzer gar nicht sehen soll; statt dessen das Symbol, falls vorhanden, oder 1, 2, 3, etc. Auf jeder Seite neu anfangen zu zählen.
    • Die notes sollten nicht kursiv gemacht werden.
  • Auf der gleichen Seite in der XML-Ansicht nach Marginalie 0398-03:
    <reg norm="quadruplum" type="context">quadruplũ</reg>
    
    wird im Seiten-XML zu
    <reg   norm="quadruplum" type="context">quadruplum</reg>
    
    Auch auf dieser Seite:
    <reg norm="compararetque" type="simple">compararetq;</reg> (ok)
    <reg norm="conſequente" type="context">consequente</reg> (normalisiert statt original)
    
  • <quote> innerhalb von <p> (testweise für <sm> auf Seite 15; nicht zu verwechseln mit <quote> auf der gleichen Ebene wie <p>) wird nicht korrekt angezeigt:
    • nicht kursiv (das war nur zu Textzwecken im CSS)
    • nicht eingerückt
    • nicht in neuer Zeile (wenn es eingerückt sein soll, gibt es ein zusätzliches <set-off>)
    • beachte open/close-Attribute
  • <emph style="it"> wird korrekt angezeigt, aber <s style="it"> nicht. Beispiel siehe hier:
    <emph style="it">vt mala ſcilicet prius ...
    <s style="it">Omnes qui dere-<lb/>bus ...
    
    Bei Andrey wird sogar beides upright dargestellt.
  • options=withoutLBs: Geht noch nicht richtig mit Bindestrichen um, siehe zum Beispiel su-perparticularis. (Verwirrung: Die Datei heißt "alvarus_1509", der alte link mit "Alvarus_1509" funktioniert deshalb nicht. Dateinamen ändern?)