= Song Yingxing 宋應星 1637, Tian gong kai wu 天工開物 = [[PageOutline(2-4,,pullout)]] == Stand == Die alte Version des Textes wurde erst schemakonform gemacht, dann von Madlen überarbeitet und von mir wieder schemakonform gemacht. Für das Anzeigesystem werden jeweils noch die Floats herausgezogen (Skript) und die div's neu numeriert (Skript). Da der Ausgangspunkt nicht ein Rohtext nach den DESpecs war, ist die Bearbeitung nicht vollständig repräsentativ für den chinesischen Workflow. Außerdem: * TOC neu formatiert (aber siehe unten: Anzeige von
) * div's eingefügt (Skript plus Nachbearbeitung für die hierarchische Struktur) * Einrückungen normalisiert * Überschriften markiert. N403115, N404D1B, N404EB2, N4051B4, N405238: zwei als note herausziehen, oder drinlassen? Bisher war die Idee, es als note herauszuziehen, allerdings wurde es bisher noch nie gemacht. Es gibt, trotz der suggestiven Aufteilung in erlauben, damit man nicht herausgezogen sind. (Ansonsten: Einen Arbeitsschritt, in dem alle Skripte sind, mit dem aus der Bearbeitungsversion die Anzeigeversion wird? Problem: Dann wäre der Text vorher noch nicht schemakonform, also wahrscheinlich keine gute Idee.)
== GIS ==
Der Text enthält zurzeit nur ein einziges noch als notes herausgezogen werden, hat die Darstellung von , keine technischen Gründe dagegen. Testweise beide Versionen erzeugen und dann vergleichen?
* 194A: was ist das: eine Aufzählung?
* 25B ff: Aufzählung; spaces im Text plus 一 bedeuten: hier fängt ein neuer Punkt an. Diese spaces in den Text einfügen, weil sie im Text stehen, auch wenn sie durch die praktisch überflüssig geworden sind? Aber dann ein Problem, wenn man die Zeichen prüfen will, siehe unten.
* 118B-122A: was bedeutet das? keine offensichtliche Aufzählung. Mehrere Absätze??
* 207B f: was ist das?附 = Anhang? Jedenfalls: N405BEF zu heading gemacht, Doppelpunkt aber dringelassen
* 226a-227b: zwei Absätze. Ein Nachwort? (das moderne Nachwort kommt dahinter und wurde nicht abgetippt)
== Darstellung der Abbildungen ==
Seitenbilder werden nicht ausgeschnitten.
Problem des Textes auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Scheint nicht zum Haupttext zu gehören, unterbricht den Haupttext. Deshalb eine Textzeile von Seite 84A auf Seite 83A verschoben.
Problem der Überschriften, die eigentlich captions für Figure-Gruppen sind: zum Beispiel Seite 14A / 29 und 63A / 127. (In beiden Fällen trotzdem ein neues div begonnen.)
Problem der Doppelseitenbilder: Die Bildhälften passen nicht so zusammen, wie sie gedruckt sind (zum Beispiel 016A und 016B, die auf dem gleichen Blatt gedruckt sind), sondern wenn man das gebundene Buch aufschlägt. Ein Beispiel ("--" bedeutet, dass es auf der entsprechenden Seite keine caption gibt):
|| Buchseiten |||| caption |||| descriptions ||
||14A |||||||| 汲水圖 (Figure-Gruppen-caption) ||
|| || || || || ||
|| 015A 014B || -- || 筒車 || 橛障 坡水 坡水 牐 || 規水 規水 岸 ||
|| 016A 015B || 人車 || -- || 蘢骨 || -- ||
|| 017A 016B || -- || -- || -- || 中柱 牛轉盤外 ||
|| 017B |||| 拔車 |||| -- ||
|| 018A |||| 桔槔 |||| 墜石 井 ||
Sollte man auch JPGs der zusammengehörenden Bilder zur Verfügung stellen? Die Bilder wären leichter zu erfassen, aber die Numerierung der Seiten im Anzeigesystem wäre dann (zumindest zurzeit) verwirrender. Man müsste dann auch die Information "014B" etc. anzeigen (das wäre allerdings sowieso sinnvoll!).
|| JPG || bisher || nachher ||
|| 014B || 30 || 30 ||
|| 015A || 31 || 31 ||
|| 015A_014B || || 32 ||
|| 015B || 32 || 33 ||
|| 016A || 33 || 34 ||
|| 016A_015B || || 35 ||
|| 016B || 34 || 36 ||
|| 017A || 35 || 37 ||
|| 017A_016B || || 38 ||
|| 017B || 36 || 39 ||
|| 018A || 37 || 40 ||
|| || || ||
|| 018B || 38 || 41 ||
Alternative wäre eine zwei-Seiten-Ansicht. Beachte außerdem die Umkehrung der links-rechts-Metapher.
== noch zu tun ==
=== von Dagmar ===
* div-Struktur prüfen (u.a. preface). Und part statt chapter für 上, 中, 下? Bei europäischen Texten würde eine fortlaufende Abschnitt-Zählung (1-6, 7-13, 14-18) nahelegen, dass es Teile und keine Kapitel sind. Funktioniert diese Logik auch bei chinesischen Texten?
* neue Textstücke in aufteilen, und interpunktion
* 108B: die identische caption steht zweimal da (im Bild und deshalb auch im Text). Ich habe sie einmal gelöscht, um den Text schemakonform zu machen. Ist das okay?
* Überschriften N40032D (zwei ) und N400574 (ein ) vereinheitlichen? Beispiel 8B, 稻工 / 耕 耙 磨耙 耘耔 +
, in sehr kurz sind.
* Title: Sprachkürzel für Pinyin?
* entferne überflüssige spaces, insbesondere vor
* Skript für die Rohfassung des Textes sollte mit und Interpunktion nochmal normalisieren, zum Beispiel beim eingefügten Text 25B / 26A.
=== von Student ===
* fehlende Zeichenvarianten einfügen, insbesondere aus Extension B. Siehe Madlens Begleittext: [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.doc DOC], [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.pdf PDF].
* markiere alle in kleiner Schrift analog zu ``
* prüfe alle , die kein Satzzeichen am Ende haben, zum Beispiel N404EFF, N405E70
* verbotene Zeichen am Anfang von , zum Beispiel ” (kann ich auch schnell selber machen); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
* `< V>` vorläufig als zu tun
* Haben die ASCII-spaces vor irgendeine Bedeutung? Ansonsten entfernen.
Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Aber zum Beispiel 麵 kommt nicht vor. (Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?)
Fehlende und überflüssige Zeichen: Gehe die vom Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-anzeigen.pl b-anzeigen.pl] nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-einfuegen.pl lb-einfuegen.pl] die
einfügen.
* Zeichen zuviel: Beispiel 214A [N405E93]
* Zeichen zuwenig: Beispiel 6B N40015A
* Struktur stimmt, aber trotzdem falsche Zeichen (einzelne falsche Zeichen, oder verschobene Stücke): Beispiel N400814 (letztes Zeichen in Zeile 4 stimmt sicher nicht; um eins verschoben)
* könnte man 則又非也。
}}}
aber im Seiten-XML und bei der Textanzeige ist es ein ASCII-Punkt:
{{{
則又非也.
}}}
(Ein bisschen verwirrend ist, dass einige wenige ASCII-Punkte und -Kommas tatsächlich noch im Text enthalten sind. Das wird noch korrigiert.)
=== Überschriften ===
Die Überschriften werden zentriert angezeigt. Bei Absätzen mit
kann es passieren, dass die Überschrift rechts neben dem Text steht, zum Beispiel auf Seite 3.
Die unterschiedlichen Verschachtelungstiefen werden durch die Zentrierung verschleiert. Kann man das ändern? Das Problem ist offensichtlicher als bei europäischen Texten, weil es die Verschachtelung durch Einrückung markiert wird und nicht durch Hinweise im Text. Der Zusammenhang mit der Einrückung ist nicht gradlinig, allerdings sollen die Chinesen `` wirkt nicht korrekt angezeigt: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=15&sn=1 Beispiel]
*
`, was nicht wie ein normaler
behandelt werden darf, sondern sich nur auf
, weil es hier keine Probleme gibt.) Wäre eine Tabellendarstellung on-the-fly mit einer quais unsichtbaren Tabelle bei cinesischen Texten überhaupt eine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.?
* Und will man das? Dafür spricht, dass es dem Seitenbild besser entspricht. Dagegen spricht, dass es dann eventuell nicht mehr gut lesbar ist. Alternativ kann man die normalen Zeichen größer anzeigen anstatt die kleinen kleiner. (Und man kann nicht garantieren, dass ein sm-Zeichen wirklich die gleiche Höhe wie ein normales Zeichen hat; allerdings wird es bei gedruckten Büchern fast immer so sein.)
=== Table of Contents ===
Die div's der front matter werden nicht angezeigt: Title, preface, toc. Bei toc sollten die verschachtelten div's nicht angezeigt werden. Ich werde das ändern, sobald ich dazu komme.
=== Seitenzahlen ===
Es sollte auch der Name der Halbseite angezeigt werden, also zum Beispiel 168 / 83B und 189 / 84A. Ansonsten ist es mühsam, eine Seite zu finden. Aus dem file-Attribut in