Changes between Initial Version and Version 1 of display-chinese


Ignore:
Timestamp:
Aug 25, 2010, 2:02:28 PM (15 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • display-chinese

    v1 v1  
     1= Die Anzeige von chinesischen Texten =
     2
     3[[PageOutline(1-4,,pullout)]]
     4
     5== chinesische Satzzeichen ==
     6
     7Manche Satzzeichen werden fälschlicherweise durch ihre ASCII-Äquivalente ersetzt:
     8
     9||= Satzzeichen =||  。 || ! || ? || , || 、 || : || ; || " " ||
     10||= Unicode =|| 3002 || FF01 || FF1F || FF0C || 3001 || FF1A || FF1B || 3000 ||
     11||= angezeigt als =|| . || ok || ok || ok || , || ok || ok || " " ||
     12
     13Unicode-Namen: 300x: "ideographic ...", FFxx: "fullwidth ..." (i.e. fullwidth-Versionen von ASCII-Zeichen). Beim Punkt gibt es beides (fullwidth-Version ist FF0E), aber verwendet wird 3002. Beim Komma gibt es auch beides, und beide werden mit verschiedenen Bedeutungen verwendet (normales Komma FF0C vs. Aufzählungskomma 3001).
     14
     15Es werden also die "ideographic"-Zeichen 3000-3002 nicht korrekt dargestellt.
     16
     17Ein Beipiel für den ideographic space U+3000 ist die Überschrift auf [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=18 Seite 18].
     18
     19Ein Beispiel für  。 ist [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=445&sn=1 hier]. Im Gesamt-XML ist es 。:
     20{{{
     21<s xml:id="N406244" xml:space="preserve">則​又​非​也。</s>
     22}}}
     23aber im Seiten-XML und bei der Textanzeige ist es ein ASCII-Punkt:
     24{{{
     25<s xml:id="N406244" xml:space="preserve">則​又​非​也.</s>
     26}}}
     27
     28(Am Ende einer Note werden die Punkte korrekt angezeigt, siehe Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=21 10A / 21], obwohl im Seiten-XML ein ASCII-Punkt ist, siehe [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=xml&pn=23 hier]!)
     29
     30== Überschriften ==
     31
     32Die Überschriften werden zentriert angezeigt. Bei Absätzen mit <lb/> kann es passieren, dass die Überschrift rechts neben dem Text steht, zum Beispiel auf Seite 3. Besser wäre linksbündig, und Einrückung je nach headlevel (falls vorhanden).
     33
     34== figures ==
     35
     36Alle Bilder sind Seitenbilder. Die einzige Ausnahme ist eventuell das Bild auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]; wir haben es aber auch zum Seitenbild erklärt, weil der Text auf der Seite zum Bild gehört. Die Seitenbilder sind als JPGs (also nicht als TIFFs) im figures-Ordner (Kopien der Seiten aus dem pageimg-Ordner, mit Zusatz "-01".)
     37
     38  * Die Lösung, Figures in <div float> rechtsbündig anzuzeigen, funktioniert bei Seitenbildern optisch nicht. Vergleiche [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=37 Figure 12] ohne <div float> und [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=42 Figure 13] mit <div float>. Vermutlich sollten wir also doch als Standard nehmen, Bilder linksbündig anzuzeigen. (Würde sich die Lage verändern, wenn man in bei den Bildern noch die Position definiert?)
     39  * <caption> wird über dem Bild gezeigt, alle <description> hintereinander ohne return oder space neben "[Figure: ...]:" ( [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=385 Beispiel]). Aber descriptions sind keine Unter-Überschriften. Die caption sollte dort gezeigt werden, wo jetzt die descriptions sind. Die descriptions dann darunter, jeweils in einer neuen Zeile für jede description. (Problem der mehrzeiligen descriptions: Listenpunkte für die descriptions?)
     40  * Die Bilder mit <div float> werden nicht korrekt durchnumeriert und auch nicht korrekt angezeigt, siehe z.B. Seite 154. Intern stimmt die Numerierung aber offenbar: Nach viermal 13 kommt 17. (Möglicherweise vergleichbar: Im Benedetti sollen laut [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/Benedetti_1585.xml&pn=26&mode=text&query-type=figures&query-result-pn=1 TOF] die Figures 26 bis 29 auf Seite 26 sein, angezeigt werden aber, korrekterweise, nur zwei figures.)
     41  * Das Symbol für ein fehlendes Bild wird angezeigt unabhängig davon, ob die Figure ein <image> hat oder nicht. Beispiel: Bilder 1-6 haben kein <image>, aber Bild 7 und 10 haben <image>. (Zumindest für diesen Text hat es sich erledigt, denn die figures haben jetzt <image>.)
     42  * Aufruf der [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=%2Fecho%2Fzh%2FSongYingxing_1637.xml&mode=image&pn=1&sn=-1&query-type=figures&query-result-pn=1 Table of Figures] ergibt eine Fehlermeldung. (Bei Andrey wird daraus eine [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=%2Fmpiwg%2Fonline%2Fpermanent%2Fecho%2Fchina%2Fsongy_tiang_zh_1637&tocMode=figures ECHO-Fehlermeldung].)
     43  * Insbesondere für die Doppelseitenbilder braucht man die umgekehrte links-rechts-Metapher der Pfeile.
     44
     45== Parallel-Ansichten ==
     46
     47  * Eine Option bei Seitenbildern für eine Ansicht mit Bild und Text auf einer Seite statt auf zwei Seiten wäre sinnvoll.
     48  * Dagmar hat eine Übersetzung des Textes mit IDs. Die Übersetzung sollte parallel zum Originaltext angezeigt werden können. Im Gegensatz zu Arboreal ohne Bearbeitungsmöglichkeit, aber die <s> im Original und in der Übersetzung sollten optisch klar zuordenbar sein. (Letztlich könnte das Anzeigesystem eine web-Version von Arboreal werden.)
     49
     50== small text ==
     51
     52  * `<emph style="sm">` wird korrekt angezeigt: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=74 Beispiel] (beide Überschriften auf Seite 74), aber `<s  style="sm">` nicht: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=17&sn=25 Beispiel]. (Die Art, wie <sm> markiert wird, wird sich zwar wohl noch ändern, aber das Problem tritt auch bei kursivem Text etc. auf, siehe unten.)
     53  * <sm> sollte sich optisch klarer von normal großem Text unterscheiden, d.h. etwas kleinere Schriftgröße in chinesischen Texten (und damit auch in europäischen Texten, wenn man nicht verschiedene CSS-Versionen pflegen will)
     54  * Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=28 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=28 Text]. Im Text wäre das `<lb type="halfline"/>` (oder `<hb/>`), was nicht wie ein normaler <lb/> behandelt werden darf, sondern sich nur auf <sm> bezieht. (Das `\\` in table cells wird zu einem normalen <lb/>, weil es hier keine Probleme gibt.) Wäre denn eine Tabellendarstellung on-the-fly mit einer quasi unsichtbaren Tabelle bei cinesischen Texten eine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.?
     55  * Eine Option, small text ein- und auszublenden, wäre sinnvoll.
     56  * Beachte: Falls die <sm> aus <p> noch als notes herausgezogen werden, hat die Darstellung von <sm> im Text keine hohe Dringlichkeit mehr, denn dann kommt das nur noch in Überschriften, im TOC, etc. vor.
     57
     58== Table of Contents ==
     59
     60Die div's der front matter werden nicht angezeigt: Title, preface, toc. Bei toc sollten die verschachtelten div's nicht angezeigt werden. Ich werde das ändern, sobald ich dazu komme.
     61
     62== Seitenzahlen ==
     63
     64Es sollte auch der Name der Halbseite angezeigt werden, also zum Beispiel 168 / 83B und 169 / 84A. Ansonsten ist es mühsam, eine Seite zu finden. Aus dem file-Attribut in <pb> extrahieren, oder neues Attribut? (Das o-Attribut, in dem die originale Seitenzahl steht, passt hier eigentlich nicht, denn zum Beispiel "83B" steht ja nicht auf der Seite, sondern ist eine nachträgliche Zählung. Außerdem gibt es ja echte Seitenzahlen, auch wenn sie noch nicht abgetippt wurden!)
     65
     66Neuer Stand: Die Seitenzahlen sind eingefügt. Problem ist jetzt, dass die Seitenzahl offenbar nicht in eine Zeile passt um umgebrochen wird, siehe z.B. Seite 154.
     67
     68== xhtml ==
     69
     70Seiten 416-417 enthalten eine xhtml-Liste (xhtml:dl). Die seiten werden nicht angezeigt.
     71
     72== Suche ==
     73
     74Es kann immer wieder passieren, dass die ZWS (U+200B) durcheinandergeraten.
     75  * Wie geht die Suche damit um? Suchoption "ignoriere ZWS"?
     76  * Wie wird der Index bei chinesischen Texten erstellt? Wird ZWS dabei beachtet oder nicht?
     77  * Und ZWJ (U+200D) als positives Signal, dass die Zeichen Teil eines Wortes sind? Bricht das die Suche bei uns der bei anderen? Ausprobieren?
     78
     79== Zeichen-Varianten ==
     80
     81Infrastruktur für die Anzeige von ⿱金尖.svg schaffen. <image> muss anders behandelt werden als bei Figures. Außerdem Infrastruktur für IVS-Sequenzen.
     82
     83
     84== PDF-Darstellung ==
     85
     86Sun-ExtA sollte nur für chinesische Zeichen und Interpunktion verwendet werden. Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=100&export=pdf Text], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=xml&pn=100&export=pdf XML]. Beachte Extension B einerseits und lateinische Zeichen andererseits.
     87
     88== Nebenfunde ==
     89
     90  * Der URL-Zusatz `&sn=...` numeriert die Überschriften nicht mit durch, man kann also beispielsweise die Überschriften im Beispiel für `<emph style="sm">` nicht explizit markieren. Bug oder feature?
     91
     92  * Anzeige von Marginalien funktioniert noch nicht. Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/Benedetti_1585.xml&mode=text&pn=398 Benedetti]:
     93    * Immer noch als Fußnoten
     94    * und mit dem internen link, den der Benutzer gar nicht sehen soll; statt dessen das Symbol, falls vorhanden, oder 1, 2, 3, etc. Auf jeder Seite neu anfangen zu zählen.
     95    * Die notes sollten nicht kursiv gemacht werden.
     96
     97  * Auf der gleichen Seite in der [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/Benedetti_1585.xml&mode=xml&pn=398 XML-Ansicht] nach Marginalie 0398-03:
     98{{{
     99<reg norm="quadruplum" type="context">quadruplũ</reg>
     100}}}
     101  wird im Seiten-XML zu
     102{{{
     103<reg   norm="quadruplum" type="context">quadruplum</reg>
     104}}}
     105  Auch auf dieser Seite:
     106{{{
     107<reg norm="compararetque" type="simple">compararetq;</reg> (ok)
     108<reg norm="conſequente" type="context">consequente</reg> (normalisiert statt original)
     109}}}
     110
     111  * <quote> innerhalb von <p> (testweise für <sm> auf Seite 15; nicht zu verwechseln mit <quote> auf der gleichen Ebene wie <p>) wird nicht korrekt angezeigt:
     112    * nicht kursiv (das war nur zu Textzwecken im CSS)
     113    * nicht eingerückt
     114    * nicht in neuer Zeile (wenn es eingerückt sein soll, gibt es ein zusätzliches <set-off>)
     115    * beachte open/close-Attribute
     116
     117  * `<emph style="it">` wird korrekt angezeigt, aber `<s  style="it">` nicht. Beispiel siehe [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/Benedetti_1585.xml&mode=text&pn=11 hier]:
     118{{{
     119<emph style="it">vt mala ſcilicet prius ...
     120<s style="it">Omnes qui dere-<lb/>bus ...
     121}}}
     122  Bei Andrey wird sogar beides upright dargestellt.
     123
     124  * options=withoutLBs: Geht noch nicht richtig mit Bindestrichen um, siehe zum Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/alvarus_1509.xml&mode=text&pn=10&options=withoutLBs&sn=0 su-perparticularis]. (Verwirrung: Die Datei heißt "alvarus_1509", der alte link mit "Alvarus_1509" funktioniert deshalb nicht. Dateinamen ändern?)