wiki:SongYingxing-specific

Version 1 (modified by Wolfgang Schmidle, 14 years ago) (diff)

--

Song Yingxing: zum Text

Song Yingxing (宋應星) 1637, Tian gong kai wu (天工開物): link zum Text im Anzeigesystem; XML-Text in der Version zum Bearbeiten und im Anzeigesystem.

"Übersetzung" bezieht sich auf "Sung Ying-Hsing: Chinese technology in the seventeenth century, T'ien-kung k'ai-wu". (Vergleiche eventuell auch die Version des Textes bei Gutenberg; diese Version erfüllt allerdings keine philologischen Standards; Klassiker-Leseausgabe. Beispiel 稻工 (vgl. 8B): "Unterüberschriften" fehlen.)

Stand

Außerdem:

  • TOC neu formatiert (aber siehe unten: Anzeige von <head>)
  • div's eingefügt (Skript plus Nachbearbeitung für die hierarchische Struktur)
  • Einrückungen normalisiert
  • Überschriften markiert. N403115, N404D1B, N404EB2, N4051B4, N405238: jeweils zwei <s> zu einer <head>, inklusive Entfernen einer ID. Erkennbar am Fullwidth-Doppelpunkt in der neuentstandenen heading.
  • N404548: typo im Original korrigiert (十三 statt 十一)
  • wenige Zeichen verbessert: Kurzzeichen in 天工开物 durch Langzeichen ersetzt, ein paar Zeichen in Überschriften ergänzt, N402CA2: full-width space vor 回 eingefügt

Fragen zum Text

  • div-Struktur: part statt chapter für 上, 中, 下? Bei europäischen Texten würde eine fortlaufende Abschnitt-Zählung (1-6, 7-13, 14-18) nahelegen, dass es Teile und keine Kapitel sind. Funktioniert diese Logik auch bei chinesischen Texten?
    • Tatsächlich eher drei Teile als chapter, z.B. weil die Teile keinen Namen wie die Abschnitte haben. Die sections der oberen Ebene (durchnumeriert, 1-18) werden dann die chapters. Darunter bleibt es section. (ok)
    • 卷 sowohl bei Teil als auch bei Kapitel. Aber formale Kategorie, meint eigentlich nicht Kapitel, sondern "scroll" (Rolle), auch wenn es damit manchmal parallel läuft. (Von der Buchform davor übriggeblieben.)
    • type-free="卷" dazuschreiben! (ok) [auch bei "part"?]
  • 5A / 11: Was will mir der geschwärzte Abschnitt am Ende des TOC sagen?
  • 8B / 18: Überschriften N40032D: zwei <head> zu einer einzigen Überschrift gemacht:
    <head xml:id="N40032D">稻​工 耕 耙 磨​耙 耘​耔<emph style="sm">具圖</emph></head>
    
    Spaces in andere Überschriften, zum Beispiel N400574 (ein <head>), genauso? (Zwei head waren drin, weil ein large space dazwischen ist. Andererseits N4006C6 ein 3-space und noch ein 2-space. Alternative: die spaces genau tippen, anstatt large spaces in Überschriften zu einem einzigen space zu machen? Aber ist dadurch etwas gewonnen, wenn die large spaces nicht ausdrücklich bedeutungstragend sind? Und um wirklich das Buch-Design wiederzugeben, müssten wir dann zusätzlich auch noch bei zum Beispiel der heading N401D3B auf Seite 60B / 122 am Anfang ein Einrückungs-space tippen. In den DESpecs 2.0.1 sollen large spaces in Überschriften ausdrücklich als ein einziger space getippt werden.)
    • Ja, eine einzige Überschrift. Man könnte einen Doppelpunkt hineinmachen. So machen sie es in der Übersetzung p.6. (ok)
    • 19A / 39, N4006C6: genauso, trotz 3-space und dann 2-space (also: 3-space als Doppelpunkt, 2-space ist einfach ein space) --> schwer automatisierbar
    • und ja, die genaue Größe der space in Überschriften interessiert uns nicht, das ist keine über mehrere Bücher konsistente Information
    • Siehe auch 226A.
  • 25B / 52 ff: Aufzählung; spaces im Text plus 一 bedeuten: hier fängt ein neuer Punkt an. Diese spaces in den Text einfügen, weil sie im Text stehen, auch wenn sie durch die <s> praktisch überflüssig geworden sind? Denn sonst ein Problem, wenn man die Zeichen mit Hilfe des Pseudo-Rohtextes prüfen will, siehe unten.
    • Ja, spaces tippen. (und typo auf 26B korrigieren!) (ok)
  • 108B / 218: die identische caption steht zweimal da (im Bild und deshalb auch im Text). Ich habe sie einmal gelöscht, um den Text schemakonform zu machen. Ist das okay?
    • Grund ist unklar. Notfalls 1x caption und 1x description
  • 119B / 240 - 122A / 245: was bedeutet das? keine offensichtliche Aufzählung. Mehrere Absätze?
    • Ja, mehrere Absätze ohne eigene Überschriften. Die Überschrift auf 119B heißt "verschiedene Boote", das kündigt an, dass die weiteren Absätze keine eigene Überschriften bekommen. (ok)
  • 178B / 358: <s xml:id="N40501B"></s> am Ende der Seite entfernt. Ok?
    • Enthielt vorher "再​煉​再 ,". Fehlende Zeichen wurden ergänzt, aber Punkte bei N405018 und N405020 neu setzen. Evtl. die ID N40501B wieder verwenden.
  • 194B / 390: Ist das eine Aufzählung?
    • Ja, Aufzählung ohne Aufzählungspunkte. 二 und 三 sind keine Listenpunkte, sondern gehören zum Text. Die letzten beiden Zeilen auf 194B sind ein Absatz für sich. (ok)
    • Genauso 195A: Ein Absatz mit zwei Zeilen, dann noch einer mit drei Zeilen. N405817: Space vor 二​ einfügen. Zwei <s> daraus machen? (ok)
  • 207B / 416 f: was ist das? 附 = Anhang? Jedenfalls: N405BEF zu heading gemacht, Doppelpunkt aber dringelassen (rausnehmen?).
    • Ja, Anhang. Aufzählung. Eigentlich wie 194B, aber anders gesetzt: Überschrift normal, eigentlicher Text klein (194B: Überschrift und Text normal). In beiden Fällen wohl Überschrift nicht markieren. (ok)
  • 208A: N405C2A und davor: zwei "Absätze" in einer Zeile. Space oder Absatz? (optisch space, semantisch Absatz) (vorläufig zu Absatz gemacht: Semantik wichtiger als Optik)
  • 226A / 453 - 227B / 456: drei Absätze. Ein Nachwort? (das moderne Nachwort kommt dahinter und wurde nicht abgetippt).
    • Kein Nachwort. Das wird in der Überschrift 226A auch so angekündigt.
    • Ähnlich wie 8B, aber Unterschied: Dort keine neuen Absätze, sondern Teile in einem Absatz.

noch zu tun

von Dagmar

  • div-Struktur prüfen (u.a. preface). Ist die unterste Ebene sinnvoll oder störend (vermutlich sinnvoll, siehe auch Übersetzung)?
  • Interpunktion bei neuen Textstücke, ich teile sie dann in <s> auf (Liste für Dagmar machen? Insbesondere die <s> ohne xml:id)
  • prüfe alle <s>, die kein Satzzeichen am Ende haben, zum Beispiel N404EFF, N405E70. Vorsicht bei Stellen, wo Text ergänzt wurde, z.B. nach N402826.
  • Beispiel N4001B7, N405817 ff und N405BF2 ff: umstrukturieren, damit es mit <sm> übereinstimmt?
  • <sm> in <p> als note herausziehen, oder drinlassen? Siehe auch die "small text"-Abschnitte in "1. Workflow" und "2. Textanzeige".
  • GIS: was wird markiert? Und Bildtexte durchgehen, siehe zum Beispiel 43A unten.
  • Seitenzahlen im Buch nachtragen? Zum Beispiel 6A/B ist 一, etc. (getrennt für jeden der drei Teile)

Treffen 2010-08-18

Grundsätzliches:

  • div-Ebenen ok, preface ok
  • Es gibt bereits eine Textversion mit Interpunktion auf Papier; das kann dann ein Student einfügen. (Ich mache dann daraus die <s>.)
  • Dagmar und Grace: small text nicht als notes herausziehen, sondern im Text lassen! Eigentlich nie Fußnoten. In anderen Büchern sogar Hierarchien, d.h. noch kleinerer Text.
  • Ja, Stellen, wo es sich mit <s> beißt, korrigieren.
  • Ja, Seitenzahlen nachtragen. (Und es gibt Faksimile-Seitenzahlen!) (erledigt)
  • 8B: Dagmar will large space in Überschriften vollständig getippt haben, also zum Beispiel ein 3-space als dreimal U+3000. Dann kann man auch den Doppelpunkt entfernen. Die Einrückung der Überschrift muss nicht getippt werden.
  • 25B: spaces in <p> tippen: ok

Einzelnes:

  • 5A: Da war etwas vorgesehen (Astronomie etc.) und wurde dann gelöscht.
  • 108B: nicht weglassen; tippe es als eine caption, mit einem space dazwischen (erledigt)
  • 207B: als Liste markieren, nicht als Absätze; 208A: die beiden Punkte in einer Zeile sind nicht in einer Zeile, weil es optisch zufällig passt, sondern es hat eine Bedeutung. Wiedergeben in einer Zeile. (Bzw. Unterpunkt?) (vorläufig erledigt, siehe unten)

Seitenzahlen

Offsets der drei Teile:

1 5
2 85
3 162, 161

Seitenzahlen:

  • preface:
    • 1-3 ok
    • 4-5 keine Seitenzahlen
  • part 1: 6A = 一a (offset 5)
    • 6-85: 十 falls möglich weglassen
  • part 2: 86A = 一a (offset 85)
    • 86-162: 十 falls möglich weglassen
    • Ausnahmen 111-113 mit 十
  • part 3: 163A = 一a (offset 162)
    • 163-227: 十 falls möglich weglassen
    • Ausnahmen 183, 184, 187 mit 十
    • Ausnahme 185: "二十三 四", danach offset 161
    • 228-230: keine Seitenzahl

Martina zu small text

Es gibt small text, der eindeutig wie eine Fußnote ist: "dieses Zeichen wird ... gelesen", oder die Quelle eines Zitats. Beispiele angucken:

  • 13 kanonische Werke : Die Struktur von Original und Kommentar entspricht Textflows wie in den Conimbricenses. Auch ein zweiter Kommentar als Ausführung zum ersten Kommentar.
  • 本草綱目: Kurzer Originaltext mit eingestreutem small text, dann langer Kommentar als small text --> unterschiedliche Bedeutungen des small text.
  • Enzyklopädien

Frage ist, ob eine Fußnote "dieses Zeichen wird ... gelesen" als Fußnote geschrieben werden sollte, und ob man die verschiedenen Typen von small text im 本草綱目 unterschiedlich markiert, oder ob man trotzdem die Originalstruktur beibehält. Überlegen: Will man eventuell den Text erstmal ohne den small text lesen?

Alle Möglichkeiten im Anzeigesystem anbieten, also im Text, als Fußnote, als Textflow? (Textflows in jeweils eigenen Spalten? Die Lösung sollte auch z.B. für die Conimbricenses funktionieren.) Der Benutzer kann dann wählen, wie er es angezeigt haben will. Das würde unter anderem bedeuten, dass small text im XML noch nicht als note herausgezogen wird, sondern im Text mit einem generischen <sm> bleibt, und den Rest macht das Anzeigesystem.

Genauer: Es kann ein generisches <sm> geben, oder der Bearbeiter eines Textes kann entscheiden, ob small text im Text, als Fußnoten oder als textflows angezeigt wird. Wenn der Bearbeiter das nicht im XML festlegt (wie?), kann der User es im Anzeigesystem wählen. Es geht also um die Frage, ob man mehrere Modi überhaupt erlauben soll.

Für den vorliegenden Text hat die Bearbeiterein jedenfalls die Entscheidung getroffen: Im Text lassen. Diesen Modus muss es also auf alle Fälle geben. Wahrscheinlich ist es auch der default-Modus für <sm>.

von mir

  • ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
    • ja, einfach ersetzen (ok)
  • Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind. (auch <div float>! Helper-script schreiben!)
  • ZWS (zero-width space U+200B) korrigieren (Skript?)
  • ersetze \\ in <description> durch <lb/> (erledigt), in <sm> noch unklar. (Siehe auch unten: die Frage der Darstellung von <sm>.)
  • <pb> tiefer in die Hierarchie? Und andersrum: <pb> auf eigene Zeile wie in westlichen Texten? Optisch eigentlich nicht nötig, weil die <s> sehr kurz sind.
  • Title: Sprachkürzel für Pinyin?
  • entferne überflüssige spaces, insbesondere vor </s>, auch vor <emph style="sm"> und </head>.
    • ja, entfernen vor </s> etc. (ok)
  • Skript für die Rohfassung des Textes sollte mit <sm> umgehen können; beachte <sm> über Zeilenumbruch hinaus
  • nach dem Einfügen von <s> und Interpunktion nochmal normalisieren, zum Beispiel beim eingefügten Text 25B / 26A. Beachte insbesondere längere Stellen wie N405661, N4057D8, N4061DE, N406241, wo die <lb> zurzeit als returns drin sind.
  • am Ende: fehlende xml:id ergänzen

Außerdem:

  • Problem der Zeichenvarianten, aber nur 1x < V>: noch ungeklärt.
  • Text für authority file

von einem Studenten

  • Seitenbilder kopieren: erledigt.
  • fehlende Zeichenvarianten einfügen, insbesondere aus Extension B. Siehe Madlens Begleittext: DOC, PDF. Siehe auch @ im Text.
  • verbotene Zeichen am Anfang von <s>, zum Beispiel ” (Artefakt des damaligen <s>-Skripts; für ” habe ich es schon gemacht); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun
  • Text durchgehen auf Absatzenden (i.e. unvollständige Zeilen), zum Beispiel 194B, 195A.
  • spaces und large spaces in Überschriften mit der korrekten Anzahl von ideographic spaces tippen (die Einrückung der Überschrift muss nicht getippt werden)
  • Large spaces in Absätzen: markieren mit #

Markiere alle <s> in kleiner Schrift, zum Beispiel N40565E, analog zu

<p xml:id="N40019A">
	...
	<s xml:id="N4001AB">米​曰​<pb file="X06.01.007A" n="15"/>糯。</s>
	<sm>
		<s xml:id="N4001B1">南​方​無​粘​黍,</s>
		<s xml:id="N4001B4">酒​<hb/>皆​糯​米​所​為。</s>
	</sm>
	<s xml:id="N4001B7">質​本​粳​而​晚​收​帶​粘​俗​名​婺​源​光​之​類​不​可​為​酒,</s>
	...
</p>
  • Das <hb/> ist hier nur zur Veranschaulichung. Die <hb/> muss man nicht per Hand hineinmachen, das geht im wesentlichen automatisch. (Die Logik ist wohl wie bei <lb/>, also zum Beispiel <s xml:id="N400515">凡​火​未​經​人​間​傳​燈​者,<hb/></s>.) Eigentlich würde mir sogar reichen, wenn die Zeilen mt einem tab eingerückt werden:
    	<s xml:id="N4001AB">米​曰​<pb file="X06.01.007A" n="15"/>糯。</s>
    		<s xml:id="N4001B1">南​方​無​粘​黍,</s>
    		<s xml:id="N4001B4">酒​皆​糯​米​所​為。</s>
    	<s xml:id="N4001B7">質​本​粳​而​晚​收​帶​粘​俗​名​婺​源​光​之​類​不​可​為​酒,</s>
    
  • Mache eine Liste aller Stellen, wo die <s> und <sm> sich beißen würden. Beispiel N405817 ff und N405BF2 ff.

Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: Bild, Text. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Deshalb kann man es nicht blind ersetzen.

  • Aber zum Beispiel 麵 kommt nicht vor.
  • Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?
    • Ja, das könnte die Aneinanderreihung von zwei Fehlern sein. im Buch 左 "links", im XML 後 / 后 "danach", bedeutet (hier) das gleiche. In ursprünglich abgetippten Text könnte auch "danach" gestanden haben.

Fehlende und überflüssige Zeichen: Gehe die vom Skript lb-anzeigen.pl nachträglich erstellte Rohfassung durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript lb-einfuegen.pl die <lb/> einfügen.

  • Zeichen zuviel: Beispiel 214A [N405E93] (eine ID in eckigen Klammern bedeutet, dass der <p> keine ID hat und statt dessen die ID des ersten <s> verwendet wird)
  • Zeichen zuwenig: Beispiel 6B N40015A
  • Struktur stimmt, aber trotzdem falsche Zeichen (einzelne falsche Zeichen, oder verschobene Stücke): Beispiel N400814 (letztes Zeichen in Zeile 4 stimmt sicher nicht; um eins verschoben)
  • <sm> nicht markiert
  • Spaces von Aufzählungen nicht eingefügt

Haben Leerzeichen in den folgenden Zeilen eine Bedeutung (manchmal stehen ASCII-spaces für full-width spaces, ich habe das nicht einzeln geprüft):

  • 41B: <desc>坑 坑</desc>
    • Das ist so nicht richtig. Das Zeichen kommt zweimal vor, also zwei identische descriptions mit je einem Zeichen. Und: Nach den specs dann nur einmal tippen. (Aber: wenn es schon mal da ist, drinlassen?)
  • 43A: <caption>印架 過糊</caption>
    • Zwei Teile, also entweder space, oder zwei descriptions, oder Komma. Das soll Dagmar entscheiden.
  • N40386D, N403973, N403C49, N403E5B, N403F0E, N404786, N404864, N40487F, N4048AB, etc.
    • N40386D: da fehlt nichts, man kann den space einfach wegmachen. (Rest nicht angeschaut.)
  • N401D3B: teilweise full-width spaces (1, 1, 2 spaces); aber siehe oben
  • N406113 space Absicht? (rausgenommen)

Einzelne Zufallsfunde (eventuell schon durch den Begleittext geklärt?)

  • falsche Zeichen: N401F3F, N403112, N405D72, N405D75
  • bei N4060CB steht etwas anderes als auf dem Bild: Text: 用​泉​近​烈軍​屬​主​石, Bild: ​​​​​​及泉​近?石,
  • N404DCF: müsste es nicht 薑 statt 姜 sein?
  • N402820 letztes Zeichen falsch? 88A
  • N401335 ein Zeichen zuviel
  • 51B: N401727 irgendwas falsch
  • N404D1B falsches Zeichen
  • N404EB2, N40360C, N403653, N403695, N400B05

Wenn alle anderen Probleme abgearbeitet sind: Places einfügen, i.e. von den Markierungen auf Papier in den Text eintragen. Vorschlag: Einfach mit ( ) markieren, ich wandle es dann anschließend um. Beispiel:

<s xml:id="N404318">(北京)有​磨​法,</s>

Siehe GIS.