wiki:SongYingxing

Version 6 (modified by Wolfgang Schmidle, 14 years ago) (diff)

--

Song Yingxing 宋應星 1637, Tian gong kai wu 天工開物

Stand

Die alte Version des Textes wurde erst schemakonform gemacht, dann von Madlen überarbeitet und von mir wieder schemakonform gemacht. Für das Anzeigesystem werden jeweils noch die Floats herausgezogen (Skript) und die div's neu numeriert (Skript). Da der Ausgangspunkt nicht ein Rohtext nach den DESpecs war, ist die Bearbeitung nicht vollständig repräsentativ für den chinesischen Workflow.

Außerdem:

  • TOC neu formatiert (aber siehe unten: Anzeige von <head>)
  • div's eingefügt (Skript plus Nachbearbeitung für die hierarchische Struktur)
  • Einrückungen normalisiert
  • Überschriften markiert

Fragen zum Text

  • Was will mir der geschwärzte Abschnitt am Ende des TOC (Seite 5A) sagen?
  • <sm> in <p> als note herausziehen, oder drinlassen? Bisher war die Idee, es als note herauszuziehen, allerdings wurde es bisher noch nie gemacht. Es gibt, trotz der suggestiven Aufteilung in <s>, keine technischen Gründe dagegen. Testweise beide Versionen erzeugen und dann vergleichen?

Darstellung der Abbildungen

Seitenbilder werden nicht ausgeschnitten.

Problem des Textes auf Seite 83B / 168. Scheint nicht zum Haupttext zu gehören, unterbricht den Haupttext. Deshalb eine Textzeile von Seite 84A auf Seite 83A verschoben.

Problem der Überschriften, die eigentlich captions für Figure-Gruppen sind: zum Beispiel Seite 14A / 29 und 63A / 127. (In beiden Fällen trotzdem ein neues div begonnen.)

Problem der Doppelseitenbilder: Die Bildhälften passen nicht so zusammen, wie sie gedruckt sind (zum Beispiel 016A und 016B, die auf dem gleichen Blatt gedruckt sind), sondern wenn man das gebundene Buch aufschlägt. Ein Beispiel ("--" bedeutet, dass es auf der entsprechenden Seite keine caption gibt):

Buchseiten caption descriptions
14A 汲水圖 (Figure-Gruppen-caption)
015A 014B -- 筒車 橛障 坡水 坡水 牐 規水 規水 岸
016A 015B 人車 -- 蘢骨 --
017A 016B -- -- -- 中柱 牛轉盤外
017B 拔車 --
018A 桔槔 墜石 井

Sollte man auch JPGs der zusammengehörenden Bilder zur Verfügung stellen? Die Bilder wären leichter zu erfassen, aber die Numerierung der Seiten im Anzeigesystem wäre dann (zumindest zurzeit) verwirrender. Man müsste dann auch die Information "014B" etc. anzeigen (das wäre allerdings sowieso sinnvoll!).

JPG bisher nachher
014B 30 30
015A 31 31
015A_014B 32
015B 32 33
016A 33 34
016A_015B 35
016B 34 36
017A 35 37
017A_016B 38
017B 36 39
018A 37 40
018B 38 41

Alternative wäre eine zwei-Seiten-Ansicht. Beachte außerdem die Umkehrung der links-rechts-Metapher.

noch zu tun

von Dagmar

  • div-Struktur prüfen (u.a. preface). Und part statt chapter für 上, 中, 下? Bei europäischen Texten würde eine fortlaufende Abschnitt-Zählung (1-6, 7-13, 14-18) nahelegen, dass es Teile und keine Kapitel sind. Funktioniert diese Logik auch bei chinesischen Texten?
  • neue Textstücke in <s> aufteilen, und interpunktion
  • 108B: die identische caption steht zweimal da (im Bild und deshalb auch im Text). Ich habe sie einmal gelöscht, um den Text schemakonform zu machen. Ist das okay?
  • Wie sollen die Überschriften vereinheitlicht werden? Beispiel 8B, 稻​工 / 耕 耙 磨耙 耘耔 + <sm>

von mir

  • ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
  • Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind.
  • ZWS korrigieren (Skript?)
  • entferne die letzten <image>-tags in den Figures, mit der Ausnahme 83B.
  • ersetze \\ In <description> durch <lb/>, in <sm> noch unklar. (Siehe auch unten: die Frage der Darstellung von <sm>.)
  • fehlende xml:id ergänzen
  • <pb> tiefer in die Hierarchie? Und andersrum: <pb> auf eigene Zeile wie in westlichen Texten? Optisch eigentlich nicht nötig, weil die <s> sehr kurz sind.
  • Title: Sprachkürzel für Pinyin?
  • entferne überflüssige spaces, insbesondere vor </s>
  • Skript für die Rohfassung des Textes sollte mit <sm> umgehen können
  • ersetze <figure/> wieder durch <figure> </figure>, damit kein <image> ergänzt wird

von Student

  • fehlende Zeichenvarianten einfügen, insbesondere aus Extension B. Siehe Madlens Begleittext: DOC, PDF.
  • markiere alle <s> in kleiner Schrift analog zu <s xml:id="N4001B1" style="sm">
  • prüfe alle <s>, die kein Satzzeichen am Ende haben
  • verbotene Zeichen am Anfang von <s>, zum Beispiel ” (kann ich auch schnell selber machen); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun

Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: Bild, Text. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Aber zum Beispiel 麵 kommt nicht vor. (Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?)

Fehlende und überflüssige Zeichen: Gehe die vom Skript b-anzeigen.pl nachträglich erstellte Rohfassung durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript lb-einfuegen.pl die <lb/> einfügen.

  • Zeichen zuviel: Beispiel 214A [N405E93]
  • Zeichen zuwenig: Beispiel 6B N40015A
  • Struktur stimmt, aber trotzdem falsche Zeichen (einzelne falsche Zeichen, oder verschobene Stücke): Beispiel N400814 (letztes Zeichen in Zeile 4 stimmt sicher nicht; um eins verschoben)
  • <sm> nicht markiert
  • Spaces von Aufzählungen nicht eingefügt (aber: will man das denn?)
  • Wenn alle anderen Probleme abgearbeitet sind: Places einfügen, i.e. von den Markierungen auf Papier in den Text eintragen. Vorschlag: Einfach mit ( ) markieren.

mögliche Konsequenzen

für die DESpecs

  • Die Regelung, dass Zeichenvarianten nur beim ersten Mal markiert werden sollen, muss noch überarbeitet werden. Problem ist, dass ein Text sowohl das Standardzeichen als auch mehr als eine Variante enthalten kann. An welcher Ebene setzt man an, beim Abtippen oder bei der Nachbearbeitung?
  • \\ in <desc> erlauben, oder nur einfach damit umgehen können, falls es gemacht wird?

für das Schema

  • ein bisschen (aber nicht völlig) analog zu <pb>: <figure> in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
  • < V> vorläufig als <reg norm="鬵" type="unresolved">鬵</reg>. Explizite Typen einführen, z.B. "variant/auto" (entspricht < V>) und "variant?/auto" (bei Zeichen, die an anderer Stelle als < V> markiert wurden). Siehe Variantenmarkierung in den DESpecs.
  • Attribut von <head>: Verschachtelungstiefe. Siehe unten.
  • aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in <figure> etwas wie Unter-Figures oder <teil-figure> erlauben? Problem ist auch: Nach den bisherigen Erfahrungen wird das bei der Transkription nicht funktionieren, wir sprechen also über etwas, was man im post-processing machen müsste.

Bild mit Beschreibungstext auf Seite 83B / 168 (stimmt das?): Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. Eine Alternative wäre, in <description> das echo.flexible.model zu erlauben: Also

echo.description.attlist = echo.inline.attrib
echo.description.content = echo.inline.model

wird zu

echo.description.attlist = empty
echo.description.content = echo.flexible.model

(und genauso für <cap>, aber nicht für <var>). Die Lösung mit <explanation> kommt mir aber geeigneter vor. Insbesondere weil <description> normalerweise im Bild ist und nicht neben oder unter dem Bild.

für den Workflow

  • Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern.
  • Die Logik, die <pb> so weit wie möglich in der Hierarchie zu verstecken, habe ich bei diesem Text nicht angewendet. Sollte man das nachholen? Dann müsste zum Beispiel eine Seiten-Figure auch den nachfolgenden <pb> enthalten. Keine technische, sondern eine konzeptionelle Frage. Zumindest bei <div> ist aber klar, dass <pb> hineingezogen wird. Und in <s> könnte man <pb> auch problemlos hineinziehen.
  • Ich könnte genauso gut mit der Version arbeiten, wo die Figures bereits aus <p> herausgezogen sind. (Ansonsten: Einen Arbeitsschritt, in dem alle Skripte sind, mit dem aus der Bearbeitungsversion die Anzeigeversion wird? Problem: Dann wäre der Text vorher noch nicht schemakonform, also wahrscheinlich keine gute Idee.)

GIS

Der Text enthält zurzeit nur ein einziges <place>-tag auf Seite 300. Zurzeit wird <gis-table> nicht ausgewertet und ist auch gar nicht in den Metadaten.

Textanzeige

chinesische Satzzeichen

Manche Satzzeichen werden fälschlicherweise durch ihre ASCII-Äquivalente ersetzt:

Satzzeichen
angezeigt als . ok ok ok , ok ok

Beispiele hier. Im Gesamt-XML ist es 。:

<s xml:id="N406244" xml:space="preserve">則​又​非​也。</s>

aber im Seiten-XML und bei der Textanzeige ist es ein ASCII-Punkt:

<s xml:id="N406244" xml:space="preserve">則​又​非​也.</s>

(Ein bisschen verwirrend ist, dass einige wenige ASCII-Punkte und -Kommas tatsächlich noch im Text enthalten sind. Das wird noch korrigiert.)

Überschriften

Die Überschriften werden zentriert angezeigt. Bei Absätzen mit <lb/> kann es passieren, dass die Überschrift rechts neben dem Text steht, zum Beispiel auf Seite 3.

Die unterschiedlichen Verschachtelungstiefen werden durch die Zentrierung verschleiert. Kann man das ändern? Das Problem ist offensichtlicher als bei europäischen Texten, weil es die Verschachtelung durch Einrückung markiert wird und nicht durch Hinweise im Text. Der Zusammenhang mit der Einrückung ist nicht gradlinig, allerdings sollen die Chinesen <ti>, <h 1>, <h 2> etc. tippen.

  • Ebene 1 (alle <ti>, z.B. 天工開物卷上 und 分宜教諭宋應星著 auf Seite 6A) Einrückung entweder 0 oder nahezu rechtsbündig
  • Ebene 2 (<h 1>, z.B. 乃​粒​第​一卷) Einrückung 2
  • Ebene 3 (<h 2>, z.B. 總​名) Einrückung 1
  • (im toc ist es wieder anders)

Lösung wohl einfach, dass <head> (aber wohl nur bei chinesischen Texten) ein Attribut "headlevel" bekommt, siehe oben. Sonst: Eine Überschrift "weiß" von seinem übergeordneten div, wie weit es verschachtelt ist, allerdings fängt die Zählung nicht bei null an.

Dann kann ich mir auch die verschachtelten div's im toc sparen. Allerdings funktioniert das dann nur bei chinesischen Texten, nicht bei europäischen.

figures

Alle Bilder sind Seitenbilder und werden daher nicht ausgeschnitten. Die einzige Ausnahme ist das Bild auf Seite 83B / 168. Eine Besonderheit dieses Textes ist also, dass fast alle Figures kein <image> haben.

  • Die Lösung, Figures in <div float> rechtsbündig anzuzeigen, funktioniert in diesem chinesischen Text optisch nicht. Vergleiche Figure 12 ohne <div float> und Figure 13 mit <div float>. Vermutlich sollten wir also doch als Standard nehmen, Bilder linksbündig anzuzeigen. Würde sich die Lage verändern, wenn man in bei den Bildern noch die Position definiert?
  • <caption> wird über dem Bild gezeigt, alle <description> hintereinander ohne return oder space neben "[Figure: ...]:" ( Beispiel). Aber descriptions sind keine Unter-Überschriften. Die caption sollte dort gezeigt werden, wo jetzt die descriptions sind. Die descriptions darunter, jeweils in einer neuen Zeile für jede description. (Problem der mehrzeiligen descriptions: sogar noch Leerzeilen zwischen die einzelnen descriptions?)
  • Die Bilder mit <div float> werden nicht korrekt durchnumeriert. Intern stimmt die Numerierung aber: Nach viermal 13 kommt 17.
  • Das Symbol für ein fehlendes Bild wird angezeigt unabhängig davon, ob die Figure ein <image> hat oder nicht. Beispiel: Bilder 1-6 haben kein <image>, aber Bild 7 und 10.
  • Aufruf der Table of Figures ergibt eine Fehlermeldung.
  • Insbesondere für die Doppelseitenbilder braucht man die umgekehrte links-rechts-Metapher der Pfeile.

small text

Beachte: Falls die <sm> aus <p> noch als notes herausgezogen werden, hat die Darstellung von <sm> im Text keine hohe Dringlichkeit mehr, denn dann kommt das nur noch in Überschriften, im TOC, etc. vor.

  • <emph style="sm"> wirkt korrekt angezeigt: Beispiel (beide Überschriften auf Seite 74)
  • <s style="sm"> wirkt nicht korrekt angezeigt: Beispiel
  • <sm> sollte sich optisch klarer von normal großem Text unterscheiden, d.h. etwas kleinere Schriftgröße in chinesischen Texten (und damit auch in europäischen Texten, wenn man nicht verschiedene CSS-Versionen pflegen will)
  • Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel Bild, Text. Im Text wäre das <lb type="halfline"/>, was nicht wie ein normaler <lb/> behandelt werden darf, sondern sich nur auf <sm> bezieht. (Das \\ in table cells wird zu einem normalen <lb/>, weil es hier keine Probleme gibt.) Wäre eine Tabellendarstellung on-the-fly mit einer quais unsichtbaren Tabelle bei cinesischen Texten überhaupt eine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.?
  • Und will man das? Dafür spricht, dass es dem Seitenbild besser entspricht. Dagegen spricht, dass es dann eventuell nicht mehr gut lesbar ist. Alternativ kann man die normalen Zeichen größer anzeigen anstatt die kleinen kleiner. (Und man kann nicht garantieren, dass ein sm-Zeichen wirklich die gleiche Höhe wie ein normales Zeichen hat; allerdings wird es bei gedruckten Büchern fast immer so sein.)

Table of Contents

Die div's der front matter werden nicht angezeigt: Title, preface, toc. Bei toc sollten die verschachtelten div's nicht angezeigt werden. Ich werde das ändern, sobald ich dazu komme.

Seitenzahlen

Es sollte auch der Name der Halbseite angezeigt werden, also zum Beispiel 168 / 83B und 189 / 84A. Ansonsten ist es mühsam, eine Seite zu finden. Aus dem file-Attribut in <pb> extrahieren, oder neues Attribut? Das o-Attribut passt hier nicht, denn zum Beispiel "83B" steht ja nicht auf der Seite, sondern ist eine nachträgliche Setzung.

Suche

Es kann immer wieder passieren, dass die ZWS durcheinandergeraten. Wie geht die Suche damit um? Suchoption "ignoriere ZWS"?

Zeichen-Varianten

Infrastruktur für die Anzeige von ⿱金尖.svg schaffen. <image> muss anders behandelt werden als bei Figures.

PDF-Darstellung

Sun-ExtA sollte nur für chinesische Zeichen und Interpunktion verwendet werden. Beachte Extension B einerseits und lateinische Zeichen andererseits.

Nebenfunde

sn=... numeriert die Überschriften nicht mit durch, man kann also beispielsweise die Überschriften im Beispiel für <emph style="sm"> nicht explizit markieren. Bug oder feature?

Dieser Aufruf ergab einmal

(kurz danach funktioniert er wieder): Wird bei jedem neuen Seitenaufruf die index.meta-Datei neu geladen? Kann man die Fehlermeldung benutzerfreundlicher darstellen?