= Song Yingxing 宋應星 1637, Tian gong kai wu 天工開物 =
[[PageOutline(2-4,,pullout)]]
([http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml link] zum Text)
== Stand ==
Die alte Version des Textes wurde erst schemakonform gemacht, dann von Madlen überarbeitet und von mir wieder schemakonform gemacht. Für das Anzeigesystem werden jeweils noch die Floats herausgezogen (Skript) und die div's neu numeriert (Skript). Da der Ausgangspunkt nicht ein Rohtext nach den DESpecs war, ist die Bearbeitung nicht vollständig repräsentativ für den chinesischen Workflow.
Außerdem:
* TOC neu formatiert (aber siehe unten: Anzeige von
)
* div's eingefügt (Skript plus Nachbearbeitung für die hierarchische Struktur)
* Einrückungen normalisiert
* Überschriften markiert. N403115, N404D1B, N404EB2, N4051B4, N405238: jeweils zwei zu einer , inklusive Entfernen einer ID. Erkennbar am Fullwidth-Doppelpunkt in der neuentstandenen heading.
* N404548: typo im Original korrigiert (十三 statt 十一)
* wenige Zeichen verbessert: Kurzzeichen in 天工开物 durch Langzeichen ersetzt, ein paar Zeichen in Überschriften ergänzt, N402CA2: full-width space vor 回 eingefügt
== Fragen zum Text ==
* Was will mir der geschwärzte Abschnitt am Ende des TOC (Seite 5A) sagen?
* in
als note herausziehen, oder drinlassen? Bisher war die Idee, es als note herauszuziehen, allerdings wurde es bisher noch nie gemacht. Es gibt, trotz der suggestiven Aufteilung in , keine technischen Gründe dagegen. Testweise beide Versionen erzeugen und dann vergleichen?
* 194A: was ist das: eine Aufzählung?
* 25B ff: Aufzählung; spaces im Text plus 一 bedeuten: hier fängt ein neuer Punkt an. Diese spaces in den Text einfügen, weil sie im Text stehen, auch wenn sie durch die praktisch überflüssig geworden sind? Denn sonst ein Problem, wenn man die Zeichen prüfen will, siehe unten.
* 118B-122A: was bedeutet das? keine offensichtliche Aufzählung. Mehrere Absätze??
* 207B f: was ist das?附 = Anhang? Jedenfalls: N405BEF zu heading gemacht, Doppelpunkt aber dringelassen
* 226A-227B: zwei Absätze. Ein Nachwort? (das moderne Nachwort kommt dahinter und wurde nicht abgetippt)
* am Ende von 178B / 358 entfernt. Ok?
* 108B: die identische caption steht zweimal da (im Bild und deshalb auch im Text). Ich habe sie einmal gelöscht, um den Text schemakonform zu machen. Ist das okay?
* Überschriften N40032D (Seite 8B): zwei zu einer einzigen Überschrift gemacht: `稻工 耕 耙 磨耙 耘耔具圖`. Spaces in andere Überschriften, zum Beispiel N400574 (ein ), genauso? (Zwei head waren drin, weil ein large space dazwischen ist. Andererseits N4006C6 ein 3-space und noch ein 2-space. Alternative: die spaces genau tippen, anstatt large spaces in Überschriften zu einem einzigen space zu machen? Aber ist dadurch etwas gewonnen, wenn die large spaces nicht ausdrücklich bedeutungstragend sind? Und um wirklich das Buch-Design wiederzugeben, müssten wir dann zusätzlich auch noch bei zum Beispiel der heading N401D3B auf Seite 60B / 122 am Anfang ein Einrückungs-space tippen. In den DESpecs 2.0.1 sollen large spaces in Überschriften ausdrücklich als ein einziger space getippt werden.)
(vergleiche die Version des Textes bei [http://www.gutenberg.org/files/25273/25273-0.txt Gutenberg])
== Darstellung der Abbildungen ==
Problem des Bildbeschreibungstextes auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Gehört nicht zum Haupttext, sondern unterbricht den Haupttext. Deshalb eine Textzeile von Seite 84A auf Seite 83A verschoben. (Kann man zurückändern, wenn man etwas wie einführt, siehe unten.)
Problem der Überschriften, die eigentlich captions für Figure-Gruppen sind: zum Beispiel Seite 14A / 29 und 63A / 127. (In beiden Fällen trotzdem ein neues div begonnen.)
Problem der Doppelseitenbilder: Die Bildhälften passen nicht so zusammen, wie sie gedruckt sind (zum Beispiel 016A und 016B, die auf dem gleichen Blatt gedruckt sind), sondern wenn man das gebundene Buch aufschlägt. Ein Beispiel ("--" bedeutet, dass es auf der entsprechenden Seite keine caption bzw. description gibt):
|| Buchseiten |||| caption |||| descriptions ||
||14A |||||||| 汲水圖 (Figure-Gruppen-caption) ||
|| || || || || ||
|| 015A 014B || -- || 筒車 || 橛障 坡水 坡水 牐 || 規水 規水 岸 ||
|| 016A 015B || 人車 || -- || 蘢骨 || -- ||
|| 017A 016B || -- || -- || -- || 中柱 牛轉盤外 ||
|| 017B |||| 拔車 |||| -- ||
|| 018A |||| 桔槔 |||| 墜石 井 ||
Sollte man auch JPGs der zusammengehörenden Bilder zur Verfügung stellen? Die Bilder wären leichter zu erfassen, aber die Numerierung der Seiten im Anzeigesystem wäre dann (zumindest zurzeit) verwirrender: Unter anderem sieht man der Zahl dann nicht mehr an, ob es eine rechte oder linke Seite ist. Man müsste dann auch die Information "014B" etc. anzeigen (das wäre allerdings sowieso sinnvoll!).
|| JPG || bisher || nachher ||
|| 014B || 30 || 30 ||
|| 015A || 31 || 31 ||
|| 015A_014B || || 32 ||
|| 015B || 32 || 33 ||
|| 016A || 33 || 34 ||
|| 016A_015B || || 35 ||
|| 016B || 34 || 36 ||
|| 017A || 35 || 37 ||
|| 017A_016B || || 38 ||
|| 017B || 36 || 39 ||
|| 018A || 37 || 40 ||
|| || || ||
|| 018B || 38 || 41 ||
Alternative wäre eine zwei-Seiten-Ansicht. Beachte außerdem die Umkehrung der links-rechts-Metapher.
== noch zu tun ==
=== von Dagmar ===
* div-Struktur prüfen (u.a. preface). Ist die unterste Ebene sinnvoll oder störend (ich finde sie sinnvoll)? Und part statt chapter für 上, 中, 下? Bei europäischen Texten würde eine fortlaufende Abschnitt-Zählung (1-6, 7-13, 14-18) nahelegen, dass es Teile und keine Kapitel sind. Funktioniert diese Logik auch bei chinesischen Texten?
* neue Textstücke in aufteilen, und interpunktion (Liste machen? Insbesondere die ohne xml:id)
=== von mir ===
* ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
* Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind.
* ZWS (zero-width space U+200B) korrigieren (Skript?)
* ersetze `\\` in durch , in noch unklar. (Siehe auch unten: die Frage der Darstellung von .)
* tiefer in die Hierarchie? Und andersrum: auf eigene Zeile wie in westlichen Texten? Optisch eigentlich nicht nötig, weil die sehr kurz sind.
* Title: Sprachkürzel für Pinyin?
* entferne überflüssige spaces, insbesondere vor
* Skript für die Rohfassung des Textes sollte mit umgehen können; beachte über Zeilenumbruch hinaus
* nach dem Einfügen von und Interpunktion nochmal normalisieren, zum Beispiel beim eingefügten Text 25B / 26A. Beachte insbesondere längere Stellen wie N405661, N4057D8, N4061DE, N406241, wo die zurzeit als returns drin sind.
* am Ende: fehlende xml:id ergänzen
=== von Student ===
* fehlende Zeichenvarianten einfügen, insbesondere aus Extension B. Siehe Madlens Begleittext: [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.doc DOC], [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.pdf PDF]. Siehe auch @ im Text.
* markiere alle in kleiner Schrift analog zu ``, zum Beispiel N40565E
* prüfe alle , die kein Satzzeichen am Ende haben, zum Beispiel N404EFF, N405E70. Vorsicht bei Stellen, wo Text ergänzt wurde, z.B. nach N402826.
* verbotene Zeichen am Anfang von , zum Beispiel ” (Artefakt des damaligen -Skripts; für ” habe ich es schon gemacht); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges zu tun
* Haben die ASCII-spaces vor irgendeine Bedeutung? Ansonsten entfernen. Auch vor und .
Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Aber zum Beispiel 麵 kommt nicht vor. (Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?)
Fehlende und überflüssige Zeichen: Gehe die vom Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-anzeigen.pl lb-anzeigen.pl] nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-einfuegen.pl lb-einfuegen.pl] die einfügen.
* Zeichen zuviel: Beispiel 214A [N405E93] (eine ID in eckigen Klammern bedeutet, dass der
keine ID hat und statt dessen die ID des ersten verwendet wird)
* Zeichen zuwenig: Beispiel 6B N40015A
* Struktur stimmt, aber trotzdem falsche Zeichen (einzelne falsche Zeichen, oder verschobene Stücke): Beispiel N400814 (letztes Zeichen in Zeile 4 stimmt sicher nicht; um eins verschoben)
* nicht markiert
* Spaces von Aufzählungen nicht eingefügt (aber: will man das denn?)
Haben Leerzeichen in den folgenden Zeilen eine Bedeutung (manchmal stehen ASCII-spaces für full-width spaces, ich habe das nicht einzeln geprüft):
* 41B: 坑 坑
* 43A:
印架 過糊
* N40386D, N403973, N403C49, N403E5B, N403F0E, N404786, N404864, N40487F, N4048AB, etc.
* N401D3B: teilweise full-width spaces (1, 1, 2 spaces); aber siehe oben
* N406113 space Absicht? (rausgenommen)
Einzelne Zufallsfunde (eventuell schon durch den Begleittext geklärt?)
* falsche Zeichen: N401F3F, N403112, N405D72, N405D75
* bei N4060CB steht etwas anderes als auf dem Bild: Text: 用泉近烈軍屬主石, Bild: 及泉近?石,
* N404DCF: müsste es nicht 薑 statt 姜 sein?
* N402820 letztes Zeichen falsch? 88A
* N401335 ein Zeichen zuviel
* 51B: N401727 irgendwas falsch
* N404D1B falsches Zeichen
* N404EB2
Wenn alle anderen Probleme abgearbeitet sind: Places einfügen, i.e. von den Markierungen auf Papier in den Text eintragen. Vorschlag: Einfach mit ( ) markieren, ich wandle es dann anschließend um. Beispiel:
{{{
(北京)有磨法,
}}}
Wie werden Orte wie das Pekinger Münzamt in N403023 (唯北京寶源局黃錢與廣東高州爐青錢) markiert? Wird Peking und/oder das Münzamt markiert? (Ähnliches Problem wie bei im Benedetti.)
== mögliche Konsequenzen ==
=== für die DESpecs ===
* Die Regelung, dass Zeichenvarianten nur beim ersten Mal markiert werden sollen, muss noch überarbeitet werden. Problem ist, dass ein Text sowohl das Standardzeichen als auch mehr als eine Variante enthalten kann. An welcher Ebene setzt man an, beim Abtippen oder bei der Nachbearbeitung?
* `\\` in erlauben, oder nur einfach damit umgehen können, falls es gemacht wird?
=== für das Schema ===
* ein bisschen (aber nicht völlig) analog zu : hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
* `< V>` vorläufig als 鬵. Explizite Typen einführen, z.B. "variant/auto" (für mit `< V>` markierte Zeichen) und "variant?/auto" (für Zeichen, die bereits an anderer Stelle als `< V>` markiert wurden). Siehe Variantenmarkierung in den DESpecs.
* Attribut von
: Verschachtelungstiefe. Siehe unten.
* aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in