Changes between Version 19 and Version 20 of SongYingxing


Ignore:
Timestamp:
Aug 9, 2010, 7:33:17 AM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • SongYingxing

    v19 v20  
    1919== Fragen zum Text ==
    2020
    21   * Was will mir der geschwärzte Abschnitt am Ende des TOC (Seite 5A) sagen?
    22   * <sm> in <p> als note herausziehen, oder drinlassen? Bisher war die Idee, es als note herauszuziehen, allerdings wurde es bisher noch nie gemacht. Es gibt, trotz der suggestiven Aufteilung in <s>, keine technischen Gründe dagegen. Testweise beide Versionen erzeugen und dann vergleichen?
    23   * 194A: was ist das: eine Aufzählung?
    24   * 25B ff: Aufzählung; spaces im Text plus 一 bedeuten: hier fängt ein neuer Punkt an. Diese spaces in den Text einfügen, weil sie im Text stehen, auch wenn sie durch die <s> praktisch überflüssig geworden sind? Denn sonst ein Problem, wenn man die Zeichen prüfen will, siehe unten.
    25   * 118B-122A: was bedeutet das? keine offensichtliche Aufzählung. Mehrere Absätze??
    26   * 207B f: was ist das?附 = Anhang? Jedenfalls: N405BEF zu heading gemacht, Doppelpunkt aber dringelassen
    27   * 226A-227B: zwei Absätze. Ein Nachwort? (das moderne Nachwort kommt dahinter und wurde nicht abgetippt)
    28   * <s xml:id="N40501B"></s> am Ende von 178B / 358 entfernt. Ok?
    29   * 108B: die identische caption steht zweimal da (im Bild und deshalb auch im Text). Ich habe sie einmal gelöscht, um den Text schemakonform zu machen. Ist das okay?
    30   *  Überschriften N40032D (Seite 8B): zwei <head> zu einer einzigen Überschrift gemacht: `<head xml:id="N40032D">稻​工 耕 耙 磨​耙 耘​耔<emph style="sm">具圖</emph>`. Spaces in andere Überschriften, zum Beispiel N400574 (ein <head>), genauso? (Zwei head waren drin, weil ein large space dazwischen ist. Andererseits N4006C6 ein 3-space und noch ein 2-space. Alternative: die spaces genau tippen, anstatt large spaces in Überschriften zu einem einzigen space zu machen? Aber ist dadurch etwas gewonnen, wenn die large spaces nicht ausdrücklich bedeutungstragend sind? Und um wirklich das Buch-Design wiederzugeben, müssten wir dann zusätzlich auch noch bei zum Beispiel der heading N401D3B auf Seite 60B / 122 am Anfang ein Einrückungs-space tippen. In den DESpecs 2.0.1 sollen large spaces in Überschriften ausdrücklich als ein einziger space getippt werden.)
    31 
    32 (vergleiche eventuell auch die Version des Textes bei [http://www.gutenberg.org/files/25273/25273-0.txt Gutenberg])
     21  * 5A / 11: Was will mir der geschwärzte Abschnitt am Ende des TOC sagen?
     22  * 8B / 18: Überschriften N40032D: zwei <head> zu einer einzigen Überschrift gemacht: `<head xml:id="N40032D">稻​工 耕 耙 磨​耙 耘​耔<emph style="sm">具圖</emph>`. Spaces in andere Überschriften, zum Beispiel N400574 (ein <head>), genauso? (Zwei head waren drin, weil ein large space dazwischen ist. Andererseits N4006C6 ein 3-space und noch ein 2-space. Alternative: die spaces genau tippen, anstatt large spaces in Überschriften zu einem einzigen space zu machen? Aber ist dadurch etwas gewonnen, wenn die large spaces nicht ausdrücklich bedeutungstragend sind? Und um wirklich das Buch-Design wiederzugeben, müssten wir dann zusätzlich auch noch bei zum Beispiel der heading N401D3B auf Seite 60B / 122 am Anfang ein Einrückungs-space tippen. In den DESpecs 2.0.1 sollen large spaces in Überschriften ausdrücklich als ein einziger space getippt werden.)
     23    * Ja, eine einzige Überschrift. Man könnte einen Doppelpunkt hineinmachen. So machen sie es in der Übersetzung p.6.
     24    * 19A / 39, N4006C6: genauso, trotz 3-space und dann 2-space (also: 3-space mit Doppelpunkt, 2-space ist einfach ein space) --> schwer automatisierbar
     25    * und ja, die genaue Größe der space in Überschriften interessiert uns nicht, das ist keine über mehrere Bücher konsistente Information
     26    * Siehe auch 226A.
     27  * 25B / 52 ff: Aufzählung; spaces im Text plus 一 bedeuten: hier fängt ein neuer Punkt an. Diese spaces in den Text einfügen, weil sie im Text stehen, auch wenn sie durch die <s> praktisch überflüssig geworden sind? Denn sonst ein Problem, wenn man die Zeichen prüfen will, siehe unten.
     28    * Ja, spaces tippen. (und typo auf 26B korrigieren!)
     29  * 108B / 218: die identische caption steht zweimal da (im Bild und deshalb auch im Text). Ich habe sie einmal gelöscht, um den Text schemakonform zu machen. Ist das okay?
     30    * Grund ist unklar. Notfalls 1x caption und 1x description
     31  * 119B / 240 - 122A / 245: was bedeutet das? keine offensichtliche Aufzählung. Mehrere Absätze?
     32    *  Ja, mehrere Absätze ohne eigene Überschriften. Die Überschrift auf 119B heißt "verschiedene Boote", das kündigt an, dass die weiteren Absätze keine eigene Überschriften bekommen.
     33  * 178B / 358: <s xml:id="N40501B"></s> am Ende der Seite entfernt. Ok?
     34    * Enthielt vorher "再​煉​再  ,". N40501B: fehlende Zeichen wurden ergänzt, aber Punkte bei N405018 und N405020 neu setzen. Evtl. die ID N40501B wieder verwenden.
     35  * 194B / 390: Ist das eine Aufzählung?
     36    * Ja, Aufzählung ohne Aufzählungspunkte. 二 und 三 sind keine Listenpunkte, sondern gehören zum Text. Die letzten beiden Zeilen auf 194B sind ein Absatz für sich.
     37    * Genauso 195A: Ein Absatz mit zwei Zeilen, dann noch einer mit drei Zeilen. N405817: Space vor 二​ einfügen. Zwei <s> daraus machen?
     38  * 207B / 416 f: was ist das? 附 = Anhang? Jedenfalls: N405BEF zu heading gemacht, Doppelpunkt aber dringelassen.
     39    * Ja, Anhang. Aufzählung. Eigentlich wie 194B, aber anders gesetzt: Überschrift normal, eigentlicher Text klein (194B: Überschrift und Text normal). In beiden Fällen wohl Überschrift nicht markieren.
     40  * 226A / 453 - 227B / 456: drei Absätze. Ein Nachwort? (das moderne Nachwort kommt dahinter und wurde nicht abgetippt).
     41    *  Kein Nachwort. Das wird in der Überschrift 226A auch so angekündigt.
     42    * Ähnlich wie 8B, aber Unterschied: Dort keine neuen Absätze, sondern Teile in einem Absatz.
     43
     44(Vergleiche eventuell auch die Version des Textes bei [http://www.gutenberg.org/files/25273/25273-0.txt Gutenberg]; diese Version erfüllt allerdings keine philologischen Standards; Klassiker-Leseausgabe. Beispiel 稻工 (vgl. 8B): "Unterüberschriften" fehlen.)
     45
     46
     47== noch zu tun ==
     48
     49=== von Dagmar ===
     50
     51  * div-Struktur prüfen (u.a. preface). Ist die unterste Ebene sinnvoll oder störend (ich finde sie sinnvoll)? Und part statt chapter für 上, 中, 下? Bei europäischen Texten würde eine fortlaufende Abschnitt-Zählung (1-6, 7-13, 14-18) nahelegen, dass es Teile und keine Kapitel sind. Funktioniert diese Logik auch bei chinesischen Texten?
     52    * Tatsächlich eher drei Teile als chapter, z.B. weil die Teile kein Namen wie die Abschnitte haben. Die sections der oberen Ebene (durchnumeriert, 1-18) werden dann die chapters. Darunter bleibt es section.
     53    * 卷 sowohl bei Teil als auch bei Kapitel. Aber formale Kategorie, meint eigentlich nicht Kapitel, sondern "scroll" (Rolle), auch wenn es damit manchmal parallel läuft. (Von der Buchform davor übriggeblieben.)
     54    * type-free="卷" dazuschreiben!
     55  * neue Textstücke in <s> aufteilen, und interpunktion (Liste machen? Insbesondere die <s> ohne xml:id)
     56  * <sm> in <p> als note herausziehen, oder drinlassen? Bisher war die Idee, es als note herauszuziehen, allerdings wurde es bisher noch nie gemacht, weil die chinesischen Texte noch nicht umgeandelt wurden. Es gibt, trotz der suggestiven Aufteilung in <s>, keine technischen Gründe dagegen. Testweise beide Versionen erzeugen und dann vergleichen? -- Die Entscheidung bei den <sm> hängt offenbar vom Text ab. Kann auch textflows wie bei den Conimbricenses sein, also Original und Kommentar. Song Yingxing: Probehalber herausziehen? Das Skript dafür muss man sowieso schreiben. Jedenfalls: Fußnoten und nicht Marginalien.
     57
     58=== von mir ===
     59
     60  * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
     61    * ja, einfach ersetzen
     62  * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind.
     63  * ZWS (zero-width space U+200B) korrigieren (Skript?)
     64  * ersetze `\\` in <description> durch <lb/>, in <sm> noch unklar. (Siehe auch unten: die Frage der Darstellung von <sm>.)
     65  * <pb> tiefer in die Hierarchie? Und andersrum: <pb> auf eigene Zeile wie in westlichen Texten? Optisch eigentlich nicht nötig, weil die <s> sehr kurz sind.
     66  * Title: Sprachkürzel für Pinyin?
     67  * entferne überflüssige spaces, insbesondere vor </s>
     68    * ja, entfernen vor </s>
     69  * Skript für die Rohfassung des Textes sollte mit <sm> umgehen können; beachte <sm> über Zeilenumbruch hinaus
     70  * nach dem Einfügen von <s> und Interpunktion nochmal normalisieren, zum Beispiel beim eingefügten Text 25B / 26A. Beachte insbesondere längere Stellen wie N405661, N4057D8, N4061DE, N406241, wo die <lb> zurzeit als returns drin sind.
     71  * am Ende: fehlende xml:id ergänzen
     72
     73=== von einem Studenten ===
     74
     75  * fehlende Zeichenvarianten einfügen, insbesondere aus Extension B. Siehe Madlens Begleittext: [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.doc DOC], [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.pdf PDF]. Siehe auch @ im Text.
     76  * markiere alle <s> in kleiner Schrift analog zu `<s xml:id="N4001B1" style="sm">`, zum Beispiel N40565E
     77  * prüfe alle <s>, die kein Satzzeichen am Ende haben, zum Beispiel N404EFF, N405E70. Vorsicht bei Stellen, wo Text ergänzt wurde, z.B. nach N402826.
     78  * verbotene Zeichen am Anfang von <s>, zum Beispiel ” (Artefakt des damaligen <s>-Skripts; für ” habe ich es schon gemacht); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun
     79  * Haben die ASCII-spaces vor </s> irgendeine Bedeutung? Ansonsten entfernen. Auch vor <emph style="sm"> und </head>.
     80  * Text durchgehen auf Absatzenden (i.e. unvollständige Zeilen), zum Beispiel 194B, 195A.
     81  * Large spaces in Absätzen: markieren mit # (Was machen wir dann daraus? Zum Beispiel large spaces zu Doppelpunkten wenigstens in Überschriften, siehe 8B; wird nicht immer sinnvoll sein, insbesondere bei mehr als einem large space.)
     82
     83Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Aber zum Beispiel 麵 kommt nicht vor. (Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?)
     84  * Ja, das könnte die Aneinanderreihung von zwei Fehlern sein. im Buch 左 "links", im XML 後 / 后 "danach", bedeutet (hier) das gleiche. In ursprünglich abgetippten Text könnte auch "danach" gestanden haben.
     85
     86
     87Fehlende und überflüssige Zeichen: Gehe die vom Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-anzeigen.pl lb-anzeigen.pl] nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-einfuegen.pl lb-einfuegen.pl] die <lb/> einfügen.
     88  * Zeichen zuviel: Beispiel 214A [N405E93] (eine ID in eckigen Klammern bedeutet, dass der <p> keine ID hat und statt dessen die ID des ersten <s> verwendet wird)
     89  * Zeichen zuwenig: Beispiel 6B N40015A
     90  * Struktur stimmt, aber trotzdem falsche Zeichen (einzelne falsche Zeichen, oder verschobene Stücke): Beispiel N400814 (letztes Zeichen in Zeile 4 stimmt sicher nicht; um eins verschoben)
     91  * <sm> nicht markiert
     92  * Spaces von Aufzählungen nicht eingefügt (aber: will man das denn?)
     93
     94Haben Leerzeichen in den folgenden Zeilen eine Bedeutung (manchmal stehen ASCII-spaces für full-width spaces, ich habe das nicht einzeln geprüft):
     95  * 41B: <desc>坑 坑</desc>
     96    * Das ist so nicht richtig, das Zeichen kommt zweimal vor. Also zwei identische descriptions mit je einem Zeichen. Und: Nach den specs dann nur einmal tippen. (Aber: wenn es schon mal da ist, drinlassen?)
     97  * 43A: <caption>印架 過糊</caption>
     98    * Zwei Teile, also entweder space, oder zwei descriptions, oder Komma. Das soll Dagmar entscheiden.
     99  * N40386D, N403973, N403C49, N403E5B, N403F0E, N404786, N404864, N40487F, N4048AB, etc.
     100    * N40386D: da fehlt nichts, man kann den space einfach wegmachen. Rest nicht angeschaut. Den Rest soll ein Student machen.
     101  * N401D3B: teilweise full-width spaces (1, 1, 2 spaces); aber siehe oben
     102  * N406113 space Absicht? (rausgenommen)
     103
     104Einzelne Zufallsfunde (eventuell schon durch den Begleittext geklärt?)
     105  * falsche Zeichen: N401F3F, N403112, N405D72, N405D75
     106  * bei N4060CB steht etwas anderes als auf dem Bild: Text: 用​泉​近​烈軍​屬​主​石, Bild: ​​​​​​及泉​近?石,
     107  * N404DCF: müsste es nicht 薑 statt 姜 sein?
     108  * N402820 letztes Zeichen falsch? 88A
     109  * N401335 ein Zeichen zuviel
     110  * 51B: N401727 irgendwas falsch
     111  * N404D1B falsches Zeichen
     112  * N404EB2
     113
     114Wenn alle anderen Probleme abgearbeitet sind: Places einfügen, i.e. von den Markierungen auf Papier in den Text eintragen. Vorschlag: Einfach mit ( ) markieren, ich wandle es dann anschließend um. Beispiel:
     115{{{
     116<s xml:id="N404318">(北京)有​磨​法,</s>
     117}}}
     118Siehe GIS.
     119
     120
     121== mögliche Konsequenzen ==
     122
     123=== für die DESpecs ===
     124
     125  * Die Regelung, dass Zeichenvarianten nur beim ersten Mal markiert werden sollen, muss noch überarbeitet werden. Problem ist, dass ein Text sowohl das Standardzeichen als auch mehr als eine Variante enthalten kann. An welcher Ebene setzt man an, beim Abtippen oder bei der Nachbearbeitung?
     126  * `\\` in <desc> erlauben, oder nur einfach damit umgehen können, falls es gemacht wird?
     127
     128=== für das Schema ===
     129
     130  * ein bisschen (aber nicht völlig) analog zu <pb>: <figure> in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
     131  * `< V>` vorläufig als <reg norm="鬵" type="unresolved">鬵</reg>. Explizite Typen einführen, z.B. "variant/auto" (für  mit `< V>` markierte Zeichen) und "variant?/auto" (für Zeichen, die bereits an anderer Stelle als `< V>` markiert wurden). Siehe Variantenmarkierung in den DESpecs.
     132  * Attribut von <head>: Verschachtelungstiefe. Siehe unten.
     133  * aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in <figure> etwas wie Unter-Figures oder <teil-figure> erlauben? Problem ist auch: Nach den bisherigen Erfahrungen wird das bei der Transkription nicht funktionieren, wir sprechen also über etwas, was man im post-processing machen müsste.
     134  * Aufzählungen: Wie beschreibt man die verschiedenen Aufzählungstypen in chinesischen Texten? Zum Beispiel 194B: Wohl nicht mit xhtml? Einfach als <s>, und akzeptieren, dass "zu kurze Zeilen" gibt? Wenn man 25B ff zu einer Aufzählung machen will innerhalb des Absatzes, wie sollte das dann aussehen? Woran erkennt man den Unterschied "Aufzählung innerhalb eines Absatzes" vs "neuer Absatz"?
     135
     136Bild mit Beschreibungstext auf Seite 83B / 168: Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. (Oder man erlaubt einfach <p> in <figure>? Aber das wäre ein bisschen inkonsequent.)
     137
     138Eine Alternative wäre, in <description> das echo.flexible.model zu erlauben: Also
     139{{{
     140echo.description.attlist = echo.inline.attrib
     141echo.description.content = echo.inline.model
     142}}}
     143wird zu
     144{{{
     145echo.description.attlist = empty
     146echo.description.content = echo.flexible.model
     147}}}
     148(und genauso für <caption>, aber nicht für <variables>). Die Lösung mit <explanation> kommt mir aber geeigneter vor. Insbesondere weil <description> normalerweise im Bild ist und nicht neben oder unter dem Bild.
     149
     150
     151=== für den Workflow ===
     152
     153  * Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen wie zum Beispiel ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern.
     154  * Die Logik, die <pb> so weit wie möglich in der Hierarchie zu verstecken, habe ich bei diesem Text nicht angewendet. Sollte man das nachholen? Dann müsste zum Beispiel eine Seiten-Figure auch den nachfolgenden <pb> enthalten. Keine technische, sondern eine konzeptionelle Frage. Zumindest bei <div> ist aber klar, dass <pb> hineingezogen wird. Und in <s> könnte man <pb> auch problemlos hineinziehen.
     155  * In chinesischen Texten können problemlos Überschriften in der letzten Zeile auftreten, das ist also kein Hinweis auf einen Fehler, im Gegensatz zu europäischen Texten. Beispiel 104B, wo man den folgenden Text auf 105A im aufgeschlagenen Buch nebeneinander sieht, und auch 148A / 148B, wo das nicht der Fall ist. (Die Überschrift auf Seite 85B ist wirklich ein footer.) Konsequenterweise müsste man <pb> auch in <head> verschieben. Dieser Fall kommt in europäischen Texten bisher nur bei mehreren Textflows vor, also beispielsweise beim Eipo-Text.
     156  * Skript für "pb verstecken"? Das wäre auch wichtig, um andere workflows zu integrieren.
     157  * Ich könnte genauso gut mit der Version arbeiten, wo die Figures bereits aus <p> herausgezogen sind. (Ansonsten: Einen Arbeitsschritt, in dem alle Skripte sind, mit dem aus der Bearbeitungsversion die Anzeigeversion wird? Problem: Dann wäre der Text vorher noch nicht schemakonform, also wahrscheinlich keine gute Idee.)
     158
     159
     160== GIS ==
     161
     162Der Text enthält zurzeit nur ein einziges <place>-tag auf [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=gis&pn=300 Seite 300]. Zurzeit wird `<gis-table>` nicht ausgewertet und ist auch gar nicht in den Metadaten.
     163
     164=== Was wird markiert? ===
     165
     166Wie werden Orte wie das Pekinger Münzamt in N403023 markiert? Wird Peking und/oder das Münzamt markiert? (Ähnliches Problem wie bei <ref> im Benedetti.) Seite 109B / 220:
     167{{{
     168<s xml:id="N403023" xml:space="preserve">唯北京寶源局黃錢與廣東高州爐青錢</s>
     169}}}
     170siehe: Sung Ying-Hsing: Chinese technology in the seventeenth century, T'ien-kung k'ai-wu, p.165 ganz unten, und p.170 Fußnote 11.
     171
     172Problem: 北京 寶源局 黃錢 meint Peking-Münzamt-Gelbmünzen. Vergleichbar mit dem Englischen: "Newcastle Brown Ale". Meint also eigentlich weder Peking noch das Münzamt. Das Münzamt ist hier nur ein "adjektivischer Ort". Hat das Auswirkungen darauf, was wir mit place markieren?
     173  * Wahrscheinlich markieren wir nur Städe. Dann ist es einfach: (北京)寶源局黃錢
     174  * Wenn wir auch Orte wie Tempel etc. (aber nicht die Gelbmünzen) markieren, gibt es mehrere Möglichkeiten. Frage ist: markieren wir unabhängig vom Münzamt noch die Stadt?
     175    * (北京寶源局): es ist nicht die Stadt gemeint, und diese Information ist in der Position der Stadt sowieso implizit enthalten
     176    * (北京)(寶源局): auch wenn das Münzamt in Peking das in-Peking-sein erben müsste
     177    * ((北京)寶源局): wäre auch sinnvoll, allerdings ist eine verschachtelte Markierung unglücklich
     178    * Wenn man zuerst die Städte markiert, hat man (北京)寶源局. Was einmal markiert wurde, sollte nicht mehr geändert werden. Von (北京)寶 源局 kann man also entweder zu ((北京)寶源局) mit verschachtelten tags oder zu (北京)(寶源局).
     179
     180(Nebenbei: 寶源局: Münze, i.e. Münzprägestelle, vs. Münzamt?)
     181
    33182
    34183== Darstellung der Abbildungen ==
     
    69218
    70219
    71 == noch zu tun ==
    72 
    73 === von Dagmar ===
    74 
    75   * div-Struktur prüfen (u.a. preface). Ist die unterste Ebene sinnvoll oder störend (ich finde sie sinnvoll)? Und part statt chapter für 上, 中, 下? Bei europäischen Texten würde eine fortlaufende Abschnitt-Zählung (1-6, 7-13, 14-18) nahelegen, dass es Teile und keine Kapitel sind. Funktioniert diese Logik auch bei chinesischen Texten?
    76   * neue Textstücke in <s> aufteilen, und interpunktion (Liste machen? Insbesondere die <s> ohne xml:id)
    77 
    78 === von mir ===
    79 
    80   * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
    81   * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind.
    82   * ZWS (zero-width space U+200B) korrigieren (Skript?)
    83   * ersetze `\\` in <description> durch <lb/>, in <sm> noch unklar. (Siehe auch unten: die Frage der Darstellung von <sm>.)
    84   * <pb> tiefer in die Hierarchie? Und andersrum: <pb> auf eigene Zeile wie in westlichen Texten? Optisch eigentlich nicht nötig, weil die <s> sehr kurz sind.
    85   * Title: Sprachkürzel für Pinyin?
    86   * entferne überflüssige spaces, insbesondere vor </s>
    87   * Skript für die Rohfassung des Textes sollte mit <sm> umgehen können; beachte <sm> über Zeilenumbruch hinaus
    88   * nach dem Einfügen von <s> und Interpunktion nochmal normalisieren, zum Beispiel beim eingefügten Text 25B / 26A. Beachte insbesondere längere Stellen wie N405661, N4057D8, N4061DE, N406241, wo die <lb> zurzeit als returns drin sind.
    89   * am Ende: fehlende xml:id ergänzen
    90 
    91 === von Student ===
    92 
    93   * fehlende Zeichenvarianten einfügen, insbesondere aus Extension B. Siehe Madlens Begleittext: [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.doc DOC], [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.pdf PDF]. Siehe auch @ im Text.
    94   * markiere alle <s> in kleiner Schrift analog zu `<s xml:id="N4001B1" style="sm">`, zum Beispiel N40565E
    95   * prüfe alle <s>, die kein Satzzeichen am Ende haben, zum Beispiel N404EFF, N405E70. Vorsicht bei Stellen, wo Text ergänzt wurde, z.B. nach N402826.
    96   * verbotene Zeichen am Anfang von <s>, zum Beispiel ” (Artefakt des damaligen <s>-Skripts; für ” habe ich es schon gemacht); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun
    97   * Haben die ASCII-spaces vor </s> irgendeine Bedeutung? Ansonsten entfernen. Auch vor <emph style="sm"> und </head>.
    98 
    99 Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Aber zum Beispiel 麵 kommt nicht vor. (Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?)
    100 
    101 Fehlende und überflüssige Zeichen: Gehe die vom Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-anzeigen.pl lb-anzeigen.pl] nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-einfuegen.pl lb-einfuegen.pl] die <lb/> einfügen.
    102   * Zeichen zuviel: Beispiel 214A [N405E93] (eine ID in eckigen Klammern bedeutet, dass der <p> keine ID hat und statt dessen die ID des ersten <s> verwendet wird)
    103   * Zeichen zuwenig: Beispiel 6B N40015A
    104   * Struktur stimmt, aber trotzdem falsche Zeichen (einzelne falsche Zeichen, oder verschobene Stücke): Beispiel N400814 (letztes Zeichen in Zeile 4 stimmt sicher nicht; um eins verschoben)
    105   * <sm> nicht markiert
    106   * Spaces von Aufzählungen nicht eingefügt (aber: will man das denn?)
    107 
    108 Haben Leerzeichen in den folgenden Zeilen eine Bedeutung (manchmal stehen ASCII-spaces für full-width spaces, ich habe das nicht einzeln geprüft):
    109   * 41B: <desc>坑 坑</desc>
    110   * 43A: <caption>印架 過糊</caption>
    111   * N40386D, N403973, N403C49, N403E5B, N403F0E, N404786, N404864, N40487F, N4048AB, etc.
    112   * N401D3B: teilweise full-width spaces (1, 1, 2 spaces); aber siehe oben
    113   * N406113 space Absicht? (rausgenommen)
    114 
    115 Einzelne Zufallsfunde (eventuell schon durch den Begleittext geklärt?)
    116   * falsche Zeichen: N401F3F, N403112, N405D72, N405D75
    117   * bei N4060CB steht etwas anderes als auf dem Bild: Text: 用​泉​近​烈軍​屬​主​石, Bild: ​​​​​​及泉​近?石,
    118   * N404DCF: müsste es nicht 薑 statt 姜 sein?
    119   * N402820 letztes Zeichen falsch? 88A
    120   * N401335 ein Zeichen zuviel
    121   * 51B: N401727 irgendwas falsch
    122   * N404D1B falsches Zeichen
    123   * N404EB2
    124 
    125 Wenn alle anderen Probleme abgearbeitet sind: Places einfügen, i.e. von den Markierungen auf Papier in den Text eintragen. Vorschlag: Einfach mit ( ) markieren, ich wandle es dann anschließend um. Beispiel:
    126 {{{
    127 <s xml:id="N404318">(北京)有​磨​法,</s>
    128 }}}
    129 Wie werden Orte wie das Pekinger Münzamt in N403023 (唯北京寶源局黃錢與廣東高州爐青錢) markiert? Wird Peking und/oder das Münzamt markiert? (Ähnliches Problem wie bei <ref> im Benedetti.)
    130 
    131 
    132 == mögliche Konsequenzen ==
    133 
    134 === für die DESpecs ===
    135 
    136   * Die Regelung, dass Zeichenvarianten nur beim ersten Mal markiert werden sollen, muss noch überarbeitet werden. Problem ist, dass ein Text sowohl das Standardzeichen als auch mehr als eine Variante enthalten kann. An welcher Ebene setzt man an, beim Abtippen oder bei der Nachbearbeitung?
    137   * `\\` in <desc> erlauben, oder nur einfach damit umgehen können, falls es gemacht wird?
    138 
    139 === für das Schema ===
    140 
    141   * ein bisschen (aber nicht völlig) analog zu <pb>: <figure> in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
    142   * `< V>` vorläufig als <reg norm="鬵" type="unresolved">鬵</reg>. Explizite Typen einführen, z.B. "variant/auto" (für  mit `< V>` markierte Zeichen) und "variant?/auto" (für Zeichen, die bereits an anderer Stelle als `< V>` markiert wurden). Siehe Variantenmarkierung in den DESpecs.
    143   * Attribut von <head>: Verschachtelungstiefe. Siehe unten.
    144   * aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in <figure> etwas wie Unter-Figures oder <teil-figure> erlauben? Problem ist auch: Nach den bisherigen Erfahrungen wird das bei der Transkription nicht funktionieren, wir sprechen also über etwas, was man im post-processing machen müsste.
    145 
    146 Bild mit Beschreibungstext auf Seite 83B / 168: Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. (Oder man erlaubt einfach <p> in <figure>? Aber das wäre ein bisschen inkonsequent.)
    147 
    148 Eine Alternative wäre, in <description> das echo.flexible.model zu erlauben: Also
    149 {{{
    150 echo.description.attlist = echo.inline.attrib
    151 echo.description.content = echo.inline.model
    152 }}}
    153 wird zu
    154 {{{
    155 echo.description.attlist = empty
    156 echo.description.content = echo.flexible.model
    157 }}}
    158 (und genauso für <caption>, aber nicht für <variables>). Die Lösung mit <explanation> kommt mir aber geeigneter vor. Insbesondere weil <description> normalerweise im Bild ist und nicht neben oder unter dem Bild.
    159 
    160 
    161 === für den Workflow ===
    162 
    163   * Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen wie zum Beispiel ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern.
    164   * Die Logik, die <pb> so weit wie möglich in der Hierarchie zu verstecken, habe ich bei diesem Text nicht angewendet. Sollte man das nachholen? Dann müsste zum Beispiel eine Seiten-Figure auch den nachfolgenden <pb> enthalten. Keine technische, sondern eine konzeptionelle Frage. Zumindest bei <div> ist aber klar, dass <pb> hineingezogen wird. Und in <s> könnte man <pb> auch problemlos hineinziehen.
    165   * In chinesischen Texten können problemlos Überschriften in der letzten Zeile auftreten, das ist also kein Hinweis auf einen Fehler, im Gegensatz zu europäischen Texten. Beispiel 104B, wo man den folgenden Text auf 105A im aufgeschlagenen Buch nebeneinander sieht, und auch 148A / 148B, wo das nicht der Fall ist. (Die Überschrift auf Seite 85B ist wirklich ein footer.) Konsequenterweise müsste man <pb> auch in <head> verschieben. Dieser Fall kommt in europäischen Texten bisher nur bei mehreren Textflows vor, also beispielsweise beim Eipo-Text.
    166   * Skript für "pb verstecken"? Das wäre auch wichtig, um andere workflows zu integrieren.
    167   * Ich könnte genauso gut mit der Version arbeiten, wo die Figures bereits aus <p> herausgezogen sind. (Ansonsten: Einen Arbeitsschritt, in dem alle Skripte sind, mit dem aus der Bearbeitungsversion die Anzeigeversion wird? Problem: Dann wäre der Text vorher noch nicht schemakonform, also wahrscheinlich keine gute Idee.)
    168 
    169 
    170 == GIS ==
    171 
    172 Der Text enthält zurzeit nur ein einziges <place>-tag auf [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=gis&pn=300 Seite 300]. Zurzeit wird `<gis-table>` nicht ausgewertet und ist auch gar nicht in den Metadaten.
    173 
    174220
    175221== Textanzeige ==
     
    232278  * Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=28 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=28 Text]. Im Text wäre das `<lb type="halfline"/>`, was nicht wie ein normaler <lb/> behandelt werden darf, sondern sich nur auf <sm> bezieht. (Das `\\` in table cells wird zu einem normalen <lb/>, weil es hier keine Probleme gibt.) Wäre denn eine Tabellendarstellung on-the-fly mit einer quasi unsichtbaren Tabelle bei cinesischen Texten eine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.?
    233279  * Und will man das? Dafür spricht, dass es dem Seitenbild besser entspricht. Dagegen spricht, dass es dann eventuell nicht mehr gut lesbar ist. Alternativ kann man die normalen Zeichen größer anzeigen anstatt die kleinen kleiner. (Und man kann nicht garantieren, dass ein sm-Zeichen wirklich die gleiche Höhe wie ein normales Zeichen hat; allerdings wird es  bei gedruckten Büchern fast immer so sein.)
     280  * Eine Option, small text ein- und auszublenden, wäre sinnvoll.
     281
    234282
    235283=== Table of Contents ===
     
    255303=== Nebenfunde ===
    256304
    257 Der URL-Zusatz `&sn=...` numeriert die Überschriften nicht mit durch, man kann also beispielsweise die Überschriften im Beispiel für `<emph style="sm">` nicht explizit markieren. Bug oder feature?
    258 
    259 [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=%2Fecho%2Fzh%2FSongYingxing_1637.xml&mode=text&pn=28&query-type=&query=&query-result-pn=0 Dieser] Aufruf ergab einmal
    260   * Error found: Server returned HTTP response code: 500 for URL: !http://nausikaa2.mpiwg-berlin.mpg.de/digitallibrary/servlet/Texter?fn=/permanent/echo/china/songy_tiang_zh_1637/index.meta [at line 162, column 3] (plus Java-Stack)
    261 (kurz danach funktioniert er wieder): Wird bei jedem neuen Seitenaufruf die index.meta-Datei neu geladen? Kann man die Fehlermeldung benutzerfreundlicher darstellen?
    262 
     305  * Der URL-Zusatz `&sn=...` numeriert die Überschriften nicht mit durch, man kann also beispielsweise die Überschriften im Beispiel für `<emph style="sm">` nicht explizit markieren. Bug oder feature?
     306
     307  * [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=%2Fecho%2Fzh%2FSongYingxing_1637.xml&mode=text&pn=28&query-type=&query=&query-result-pn=0 Dieser] Aufruf ergab einmal
     308    * Error found: Server returned HTTP response code: 500 for URL: !http://nausikaa2.mpiwg-berlin.mpg.de/digitallibrary/servlet/Texter?fn=/permanent/echo/china/songy_tiang_zh_1637/index.meta [at line 162, column 3] (plus Java-Stack)
     309  (kurz danach funktioniert er wieder): Wird bei jedem neuen Seitenaufruf die index.meta-Datei neu geladen? Kann man die Fehlermeldung benutzerfreundlicher darstellen?
     310
     311  * Anzeige von Marginalien funktioniert noch nicht. Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/Benedetti_1585.xml&mode=text&pn=398 Benedetti]: Immer noch als Fußnoten, und mit dem internen link, den der Benutzer gar nicht sehen soll.
     312
     313  * Auf der gleichen Seite in der [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/Benedetti_1585.xml&mode=xmlt&pn=398 XML-Ansicht] nach Marginalie 0398-03:
     314{{{
     315<reg norm="quadruplum" type="context">quadruplũ</reg>
     316}}}
     317  wird im Seiten-XML zu
     318{{{
     319<reg   norm="quadruplum" type="context">quadruplum</reg>
     320}}}