Changes between Version 39 and Version 40 of SongYingxing


Ignore:
Timestamp:
Aug 10, 2010, 3:03:05 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • SongYingxing

    v39 v40  
    8282  * Text für authority file
    8383  * Änderungen in echo-chinese-text (siehe unten):
    84     * <sm>
     84    * <sm>, <hb/>
    8585    * "variant/auto", "variant?/auto"
    8686    * headlevel (oder nur level)? wenn, dann optional
     
    306306Oder doch <sm>, vergleichbar mit <quote> innerhalb von <p>? Testweise auf Seite 15 (dort als <quote>, weil das Schema <sm> noch nicht erlaubt).
    307307
     308Und will man small text wie im Buch in zwei Zeilen anzeigen? Dafür spricht, dass es dem Seitenbild besser entspricht. Dagegen spricht, dass es dann eventuell nicht mehr gut lesbar ist. Alternativ kann man die normalen Zeichen größer anzeigen anstatt die kleinen kleiner. (Und man kann nicht garantieren, dass ein sm-Zeichen wirklich die gleiche Höhe wie ein normales Zeichen hat; allerdings wird es  bei gedruckten Büchern fast immer so sein.)
     309
     310
    308311== zero width spaces ==
    309312
     
    314317Problem des Skripts zu Eintrage der ZWS: Woher soll man wissen, dass das Fehlen eines ZWS nicht bedeutungstragend ist? Man braucht eigentlich nicht nur den ZWS, sondern auch ein positives Signal, zum Beispiel den zero width joiner (ZWJ). Dann muss das Skript nur zwischen direkt aufeinanderfolgenden Schriftzeichen ein ZWS einfügen. Aber der ZWJ schafft sicher neue Probleme.
    315318
    316 
    317 =  3. Textanzeige =
    318 
    319 === chinesische Satzzeichen ===
    320 
    321 Manche Satzzeichen werden fälschlicherweise durch ihre ASCII-Äquivalente ersetzt:
    322 
    323 ||= Satzzeichen =||  。 || ! || ? || , || 、 || : || ; || " " ||
    324 ||= Unicode =|| 3002 || FF01 || FF1F || FF0C || 3001 || FF1A || FF1B || 3000 ||
    325 ||= angezeigt als =|| . || ok || ok || ok || , || ok || ok || " " ||
    326 
    327 Unicode-Namen: 300x: "ideographic ...", FFxx: "fullwidth ..." (i.e. fullwidth-Versionen von ASCII-Zeichen). Beim Punkt gibt es beides (fullwidth-Version ist FF0E), aber verwendet wird 3002. Beim Komma gibt es auch beides, und beide werden mit verschiedenen Bedeutungen verwendet (normales Komma FF0C vs. Aufzählungskomma 3001).
    328 
    329 Es werden also die "ideographic"-Zeichen 3000-3002 nicht korrekt dargestellt.
    330 
    331 Ein Beipiel für den ideographic space U+3000 ist die Überschrift auf [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=18 Seite 18].
    332 
    333 Ein Beispiel für  。 ist [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=445&sn=1 hier]. Im Gesamt-XML ist es 。:
    334 {{{
    335 <s xml:id="N406244" xml:space="preserve">則​又​非​也。</s>
    336 }}}
    337 aber im Seiten-XML und bei der Textanzeige ist es ein ASCII-Punkt:
    338 {{{
    339 <s xml:id="N406244" xml:space="preserve">則​又​非​也.</s>
    340 }}}
    341 
    342 
    343 === Überschriften ===
    344 
    345 Die Überschriften werden zentriert angezeigt. Bei Absätzen mit <lb/> kann es passieren, dass die Überschrift rechts neben dem Text steht, zum Beispiel auf Seite 3.
    346 
    347 Die unterschiedlichen Verschachtelungstiefen werden durch die Zentrierung verschleiert. Kann man das ändern? Das Problem ist offensichtlicher als bei europäischen Texten, weil es die Verschachtelung durch Einrückung markiert wird und nicht durch Hinweise im Text. Der Zusammenhang mit der Einrückung ist nicht gradlinig, allerdings sollen die Chinesen `<ti>`, `<h 1>`, `<h 2>` etc. tippen.
     319== Überschriften ==
     320
     321Überschriften werden zentriert angezeigt. Die unterschiedlichen Verschachtelungstiefen werden durch die Zentrierung verschleiert. Kann man das ändern? Das Problem ist offensichtlicher als bei europäischen Texten, weil es die Verschachtelung durch Einrückung markiert wird und nicht durch Hinweise im Text. Der Zusammenhang mit der Einrückung ist nicht gradlinig, allerdings sollen die Chinesen `<ti>`, `<h 1>`, `<h 2>` etc. tippen.
    348322  * Ebene 1 (alle `<ti>`, z.B. 天工開物卷上 und 分宜教諭宋應星著 auf Seite 6A) Einrückung entweder 0 oder nahezu rechtsbündig
    349323  * Ebene 2 (`<h 1>`, z.B. 乃​粒​第​一卷) Einrückung 2
     
    354328
    355329Dann kann ich mir auch die verschachtelten div's im toc sparen. Allerdings funktioniert das dann nur bei chinesischen Texten, nicht bei europäischen. (andererseits: wenn man "headlevel" auch für europäische Texte einführt, müsste man es zwar im post-processing per Hand einfügen, aber danach könnte das div-Skript automatisch eine hierarchische div-Struktur einfügen.)
     330
     331
     332=  3. Textanzeige =
     333
     334=== chinesische Satzzeichen ===
     335
     336Manche Satzzeichen werden fälschlicherweise durch ihre ASCII-Äquivalente ersetzt:
     337
     338||= Satzzeichen =||  。 || ! || ? || , || 、 || : || ; || " " ||
     339||= Unicode =|| 3002 || FF01 || FF1F || FF0C || 3001 || FF1A || FF1B || 3000 ||
     340||= angezeigt als =|| . || ok || ok || ok || , || ok || ok || " " ||
     341
     342Unicode-Namen: 300x: "ideographic ...", FFxx: "fullwidth ..." (i.e. fullwidth-Versionen von ASCII-Zeichen). Beim Punkt gibt es beides (fullwidth-Version ist FF0E), aber verwendet wird 3002. Beim Komma gibt es auch beides, und beide werden mit verschiedenen Bedeutungen verwendet (normales Komma FF0C vs. Aufzählungskomma 3001).
     343
     344Es werden also die "ideographic"-Zeichen 3000-3002 nicht korrekt dargestellt.
     345
     346Ein Beipiel für den ideographic space U+3000 ist die Überschrift auf [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=18 Seite 18].
     347
     348Ein Beispiel für  。 ist [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=445&sn=1 hier]. Im Gesamt-XML ist es 。:
     349{{{
     350<s xml:id="N406244" xml:space="preserve">則​又​非​也。</s>
     351}}}
     352aber im Seiten-XML und bei der Textanzeige ist es ein ASCII-Punkt:
     353{{{
     354<s xml:id="N406244" xml:space="preserve">則​又​非​也.</s>
     355}}}
     356
     357=== Überschriften ===
     358
     359Die Überschriften werden zentriert angezeigt. Bei Absätzen mit <lb/> kann es passieren, dass die Überschrift rechts neben dem Text steht, zum Beispiel auf Seite 3. Besser wäre linksbündig, und Einrückung je nach headlevel (falls vorhanden).
    356360
    357361=== figures ===
     
    370374=== small text ===
    371375
    372 Beachte: Falls die <sm> aus <p> noch als notes herausgezogen werden, hat die Darstellung von <sm> im Text keine hohe Dringlichkeit mehr, denn dann kommt das nur noch in Überschriften, im TOC, etc. vor.
    373 
    374   * `<emph style="sm">` wird korrekt angezeigt: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=74 Beispiel] (beide Überschriften auf Seite 74)
    375   * `<s  style="sm">` wird nicht korrekt angezeigt: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=15&sn=1 Beispiel]
     376  * `<emph style="sm">` wird korrekt angezeigt: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=74 Beispiel] (beide Überschriften auf Seite 74), aber `<s  style="sm">` nicht: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=17&sn=25 Beispiel]. (Die Art, wie <sm> markiert wird, wird sich zwar wohl noch ändern, aber das Problem tritt auch bei kursivem Text etc. auf, siehe unten.)
    376377  * <sm> sollte sich optisch klarer von normal großem Text unterscheiden, d.h. etwas kleinere Schriftgröße in chinesischen Texten (und damit auch in europäischen Texten, wenn man nicht verschiedene CSS-Versionen pflegen will)
    377378  * Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=28 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=28 Text]. Im Text wäre das `<lb type="halfline"/>`, was nicht wie ein normaler <lb/> behandelt werden darf, sondern sich nur auf <sm> bezieht. (Das `\\` in table cells wird zu einem normalen <lb/>, weil es hier keine Probleme gibt.) Wäre denn eine Tabellendarstellung on-the-fly mit einer quasi unsichtbaren Tabelle bei cinesischen Texten eine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.?
    378   * Und will man das? Dafür spricht, dass es dem Seitenbild besser entspricht. Dagegen spricht, dass es dann eventuell nicht mehr gut lesbar ist. Alternativ kann man die normalen Zeichen größer anzeigen anstatt die kleinen kleiner. (Und man kann nicht garantieren, dass ein sm-Zeichen wirklich die gleiche Höhe wie ein normales Zeichen hat; allerdings wird es  bei gedruckten Büchern fast immer so sein.)
    379379  * Eine Option, small text ein- und auszublenden, wäre sinnvoll.
    380 
     380  * Beachte: Falls die <sm> aus <p> noch als notes herausgezogen werden, hat die Darstellung von <sm> im Text keine hohe Dringlichkeit mehr, denn dann kommt das nur noch in Überschriften, im TOC, etc. vor.
    381381
    382382=== Table of Contents ===
     
    419419
    420420  * <quote> innerhalb von <p> (testweise für <sm> auf Seite 15; nicht zu verwechseln mit <quote> auf der gleichen Ebene wie <p>) wird nicht korrekt angezeigt: nicht kursiv (das war nur zu Textzwecken im CSS), nicht eingerückt und nicht in neuer Zeile (wenn es eingerückt sein soll, gibt es ein zusätzliches <set-off>), beachte open/close-Attribute
     421
     422  * `<emph style="it">` wird korrekt angezeigt, aber `<s  style="it">` nicht. Beispiel siehe [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/Benedetti_1585.xml&mode=text&pn=11 hier]:
     423{{{
     424<emph style="it">vt mala ſcilicet prius ...
     425<s style="it">Omnes qui dere-<lb/>bus  ...
     426}}}