Changes between Version 71 and Version 72 of SongYingxing


Ignore:
Timestamp:
Aug 25, 2010, 1:58:18 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • SongYingxing

    v71 v72  
    55Song Yingxing (宋應星) 1637, Tian gong kai wu (天工開物): [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml link] zum Text im Anzeigesystem; XML-Text in der Version [source:trunk/texts/SongYingxing_1637/xml/SongYingxing_1637.xml zum Bearbeiten] und [source:trunk/texts/eXist/echo/zh/SongYingxing_1637.xml im Anzeigesystem].
    66
    7 "Übersetzung" bezieht sich auf "Sung Ying-Hsing: Chinese technology in the seventeenth century, T'ien-kung k'ai-wu". (Vergleiche eventuell auch die Version des Textes bei [http://www.gutenberg.org/files/25273/25273-0.txt Gutenberg]; diese Version erfüllt allerdings keine philologischen Standards; Klassiker-Leseausgabe. Beispiel 稻工 (vgl. 8B): "Unterüberschriften" fehlen.)
    8 
    97
    108= 1. Der Text =
    119
    12 == Stand ==
    13 
    1410Die alte Version des Textes wurde erst schemakonform gemacht, dann von Madlen überarbeitet und von mir wieder schemakonform gemacht. Für das Anzeigesystem werden jeweils noch die Floats herausgezogen (Skript) und die div's neu numeriert (Skript). Da der Ausgangspunkt nicht ein Rohtext nach den DESpecs war, ist die Bearbeitung nicht vollständig repräsentativ für den chinesischen Workflow.
    1511
    16 Außerdem:
    17   * TOC neu formatiert (aber siehe unten: Anzeige von <head>)
    18   * div's eingefügt (Skript plus Nachbearbeitung für die hierarchische Struktur)
    19   * Einrückungen normalisiert
    20   * Überschriften markiert. N403115, N404D1B, N404EB2, N4051B4, N405238: jeweils zwei <s> zu einer <head>, inklusive Entfernen einer ID. Erkennbar am Fullwidth-Doppelpunkt in der neuentstandenen heading.
    21   * N404548: typo im Original korrigiert (十三 statt 十一)
    22   * wenige Zeichen verbessert: Kurzzeichen in 天工开物 durch Langzeichen ersetzt, ein paar Zeichen in Überschriften ergänzt, N402CA2: full-width space vor 回 eingefügt
    23 
    24 == Fragen zum Text ==
    25 
    26   * div-Struktur: part statt chapter für 上, 中, 下? Bei europäischen Texten würde eine fortlaufende Abschnitt-Zählung (1-6, 7-13, 14-18) nahelegen, dass es Teile und keine Kapitel sind. Funktioniert diese Logik auch bei chinesischen Texten?
    27     * Tatsächlich eher drei Teile als chapter, z.B. weil die Teile keinen Namen wie die Abschnitte haben. Die sections der oberen Ebene (durchnumeriert, 1-18) werden dann die chapters. Darunter bleibt es section. (ok)
    28     * 卷 sowohl bei Teil als auch bei Kapitel. Aber formale Kategorie, meint eigentlich nicht Kapitel, sondern "scroll" (Rolle), auch wenn es damit manchmal parallel läuft. (Von der Buchform davor übriggeblieben.)
    29     * type-free="卷" dazuschreiben! (ok) [auch bei "part"?]
    30   * 5A / 11: Was will mir der geschwärzte Abschnitt am Ende des TOC sagen?
    31   * 8B / 18: Überschriften N40032D: zwei <head> zu einer einzigen Überschrift gemacht:
    32 {{{
    33 <head xml:id="N40032D">稻​工 耕 耙 磨​耙 耘​耔<emph style="sm">具圖</emph></head>
    34 }}}
    35   Spaces in andere Überschriften, zum Beispiel N400574 (ein <head>), genauso? (Zwei head waren drin, weil ein large space dazwischen ist. Andererseits N4006C6 ein 3-space und noch ein 2-space. Alternative: die spaces genau tippen, anstatt large spaces in Überschriften zu einem einzigen space zu machen? Aber ist dadurch etwas gewonnen, wenn die large spaces nicht ausdrücklich bedeutungstragend sind? Und um wirklich das Buch-Design wiederzugeben, müssten wir dann zusätzlich auch noch bei zum Beispiel der heading N401D3B auf Seite 60B / 122 am Anfang ein Einrückungs-space tippen. In den DESpecs 2.0.1 sollen large spaces in Überschriften ausdrücklich als ein einziger space getippt werden.)
    36     * Ja, eine einzige Überschrift. Man könnte einen Doppelpunkt hineinmachen. So machen sie es in der Übersetzung p.6. (ok)
    37     * 19A / 39, N4006C6: genauso, trotz 3-space und dann 2-space (also: 3-space als Doppelpunkt, 2-space ist einfach ein space) --> schwer automatisierbar
    38     * und ja, die genaue Größe der space in Überschriften interessiert uns nicht, das ist keine über mehrere Bücher konsistente Information
    39     * Siehe auch 226A.
    40   * 25B / 52 ff: Aufzählung; spaces im Text plus 一 bedeuten: hier fängt ein neuer Punkt an. Diese spaces in den Text einfügen, weil sie im Text stehen, auch wenn sie durch die <s> praktisch überflüssig geworden sind? Denn sonst ein Problem, wenn man die Zeichen mit Hilfe des Pseudo-Rohtextes prüfen will, siehe unten.
    41     * Ja, spaces tippen. (und typo auf 26B korrigieren!) (ok)
    42   * 108B / 218: die identische caption steht zweimal da (im Bild und deshalb auch im Text). Ich habe sie einmal gelöscht, um den Text schemakonform zu machen. Ist das okay?
    43     * Grund ist unklar. Notfalls 1x caption und 1x description
    44   * 119B / 240 - 122A / 245: was bedeutet das? keine offensichtliche Aufzählung. Mehrere Absätze?
    45     *  Ja, mehrere Absätze ohne eigene Überschriften. Die Überschrift auf 119B heißt "verschiedene Boote", das kündigt an, dass die weiteren Absätze keine eigene Überschriften bekommen. (ok)
    46   * 178B / 358: <s xml:id="N40501B"></s> am Ende der Seite entfernt. Ok?
    47     * Enthielt vorher "再​煉​再  ,". Fehlende Zeichen wurden ergänzt, aber Punkte bei N405018 und N405020 neu setzen. Evtl. die ID N40501B wieder verwenden.
    48   * 194B / 390: Ist das eine Aufzählung?
    49     * Ja, Aufzählung ohne Aufzählungspunkte. 二 und 三 sind keine Listenpunkte, sondern gehören zum Text. Die letzten beiden Zeilen auf 194B sind ein Absatz für sich. (ok)
    50     * Genauso 195A: Ein Absatz mit zwei Zeilen, dann noch einer mit drei Zeilen. N405817: Space vor 二​ einfügen. Zwei <s> daraus machen? (ok)
    51   * 207B / 416 f: was ist das? 附 = Anhang? Jedenfalls: N405BEF zu heading gemacht, Doppelpunkt aber dringelassen (rausnehmen?).
    52     * Ja, Anhang. Aufzählung. Eigentlich wie 194B, aber anders gesetzt: Überschrift normal, eigentlicher Text klein (194B: Überschrift und Text normal). In beiden Fällen wohl Überschrift nicht markieren. (ok)
    53   * 208A: N405C2A und davor: zwei "Absätze" in einer Zeile. Space oder Absatz? (optisch space, semantisch Absatz) (vorläufig zu Absatz gemacht: Semantik wichtiger als Optik)
    54   * 226A / 453 - 227B / 456: drei Absätze. Ein Nachwort? (das moderne Nachwort kommt dahinter und wurde nicht abgetippt).
    55     *  Kein Nachwort. Das wird in der Überschrift 226A auch so angekündigt.
    56     * Ähnlich wie 8B, aber Unterschied: Dort keine neuen Absätze, sondern Teile in einem Absatz.
    57 
    58 
    59 == noch zu tun ==
    60 
    61 === von Dagmar ===
    62 
    63   * div-Struktur prüfen (u.a. preface). Ist die unterste Ebene sinnvoll oder störend (vermutlich sinnvoll, siehe auch Übersetzung)?
    64   * Interpunktion bei neuen Textstücke, ich teile sie dann in <s> auf (Liste für Dagmar machen? Insbesondere die <s> ohne xml:id)
    65   * prüfe alle <s>, die kein Satzzeichen am Ende haben, zum Beispiel N404EFF, N405E70. Vorsicht bei Stellen, wo Text ergänzt wurde, z.B. nach N402826.
    66   * Beispiel N4001B7, N405817 ff und N405BF2 ff: umstrukturieren, damit es mit <sm> übereinstimmt?
    67   * <sm> in <p> als note herausziehen, oder drinlassen? Siehe auch die "small text"-Abschnitte in "1. Workflow" und "2. Textanzeige".
    68   * GIS: was wird markiert? Und Bildtexte durchgehen, siehe zum Beispiel 43A unten.
    69   * Seitenzahlen im Buch nachtragen? Zum Beispiel 6A/B ist 一, etc. (getrennt für jeden der drei Teile)
    70 
    71 ==== Treffen 2010-08-18 ====
    72 
    73 Grundsätzliches:
    74   * div-Ebenen ok, preface ok
    75   * Es gibt bereits eine Textversion mit Interpunktion auf Papier; das kann dann ein Student einfügen. (Ich mache dann daraus die <s>.)
    76   * Dagmar und Grace: small text nicht als notes herausziehen, sondern im Text lassen! Eigentlich nie Fußnoten. In anderen Büchern sogar Hierarchien, d.h. noch kleinerer Text.
    77   * Ja, Stellen, wo es sich mit <s> beißt, korrigieren.
    78   * Ja, Seitenzahlen nachtragen. (Und es gibt Faksimile-Seitenzahlen!) (erledigt)
    79   * 8B: Dagmar will large space in Überschriften vollständig getippt haben, also zum Beispiel ein 3-space als dreimal U+3000. Dann kann man auch den Doppelpunkt entfernen. Die Einrückung der Überschrift muss nicht getippt werden.
    80   * 25B: spaces in <p> tippen: ok
    81 
    82 Einzelnes:
    83   * 5A: Da war etwas vorgesehen (Astronomie etc.) und wurde dann gelöscht.
    84   * 108B: nicht weglassen; tippe es als eine caption, mit einem space dazwischen (erledigt)
    85   * 207B: als Liste markieren, nicht als Absätze; 208A: die beiden Punkte in einer Zeile sind nicht in einer Zeile, weil es optisch zufällig passt, sondern es hat eine Bedeutung. Wiedergeben in einer Zeile. (Bzw. Unterpunkt?) (vorläufig erledigt, siehe unten)
    86 
    87 
    88 ==== Seitenzahlen ====
    89 
    90 Offsets der drei Teile:
    91 || 1 || 5 ||
    92 || 2 ||  85 ||
    93 || 3 ||  162, 161 ||
    94 
    95 Seitenzahlen:
    96   * preface:
    97     * 1-3 ok
    98     * 4-5 keine Seitenzahlen
    99   * part 1: 6A = 一a (offset 5)
    100     * 6-85: 十 falls möglich weglassen
    101   * part 2: 86A = 一a  (offset 85)
    102     * 86-162: 十 falls möglich weglassen
    103     * Ausnahmen 111-113 mit 十
    104   * part 3: 163A = 一a (offset 162)
    105     * 163-227: 十 falls möglich weglassen
    106     * Ausnahmen 183, 184, 187 mit 十
    107     * Ausnahme 185: "二十三 四", danach offset 161
    108     * 228-230: keine Seitenzahl
    109 
    110 
    111 ==== Martina zu small text ====
    112 
    113 Es gibt small text, der eindeutig wie eine Fußnote ist: "dieses Zeichen wird ... gelesen", oder die Quelle eines Zitats. Beispiele angucken:
    114   * 13 kanonische Werke : Die Struktur von Original und Kommentar entspricht Textflows wie in den Conimbricenses. Auch ein zweiter Kommentar als Ausführung zum ersten Kommentar.
    115   * [http://de.wikipedia.org/wiki/Ben_cao_gang_mu 本草綱目]: Kurzer Originaltext mit eingestreutem small text, dann langer Kommentar als small text --> unterschiedliche Bedeutungen des small text.
    116   * Enzyklopädien
    117 
    118 Frage ist, ob eine Fußnote "dieses Zeichen wird ... gelesen" als Fußnote geschrieben werden sollte, und ob man die verschiedenen Typen von small text im 本草綱目 unterschiedlich markiert, oder ob man trotzdem die Originalstruktur beibehält. Überlegen: Will man eventuell den Text erstmal ohne den small text lesen?
    119 
    120 Alle Möglichkeiten im Anzeigesystem anbieten, also im Text, als Fußnote, als Textflow? (Textflows in jeweils eigenen Spalten? Die Lösung sollte auch z.B. für die Conimbricenses funktionieren.) Der Benutzer kann dann wählen, wie er es angezeigt haben will. Das würde unter anderem bedeuten, dass small text im XML noch nicht als note herausgezogen wird, sondern im Text mit einem generischen <sm> bleibt, und den Rest macht das Anzeigesystem.
    121 
    122 Genauer: Es kann ein generisches <sm> geben, oder der Bearbeiter eines Textes kann entscheiden, ob small text im Text, als Fußnoten oder als textflows angezeigt wird. Wenn der Bearbeiter das nicht im XML festlegt (wie?), kann der User es im Anzeigesystem wählen. Es geht also um die Frage, ob man mehrere Modi überhaupt erlauben soll.
    123 
    124 Für den vorliegenden Text hat die Bearbeiterein jedenfalls die Entscheidung getroffen: Im Text lassen. Diesen Modus muss es also auf alle Fälle geben. Wahrscheinlich ist es auch der default-Modus für <sm>.
    125 
    126 === von mir ===
    127 
    128   * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
    129     * ja, einfach ersetzen (ok)
    130   * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind. (auch <div float>! Helper-script schreiben!)
    131   * ZWS (zero-width space U+200B) korrigieren (Skript?)
    132   * ersetze `\\` in <description> durch <lb/> (erledigt), in <sm> noch unklar. (Siehe auch unten: die Frage der Darstellung von <sm>.)
    133   * <pb> tiefer in die Hierarchie? Und andersrum: <pb> auf eigene Zeile wie in westlichen Texten? Optisch eigentlich nicht nötig, weil die <s> sehr kurz sind.
    134   * Title: Sprachkürzel für Pinyin?
    135   * entferne überflüssige spaces, insbesondere vor </s>, auch vor <emph style="sm"> und </head>.
    136     * ja, entfernen vor </s> etc. (ok)
    137   * Skript für die Rohfassung des Textes sollte mit <sm> umgehen können; beachte <sm> über Zeilenumbruch hinaus
    138   * nach dem Einfügen von <s> und Interpunktion nochmal normalisieren, zum Beispiel beim eingefügten Text 25B / 26A. Beachte insbesondere längere Stellen wie N405661, N4057D8, N4061DE, N406241, wo die <lb> zurzeit als returns drin sind.
    139   * am Ende: fehlende xml:id ergänzen
    140 
    141 Außerdem:
    142   * Problem der Zeichenvarianten, aber nur 1x < V>: noch ungeklärt.
    143   * Text für authority file
    144    
    145 
    146 === von einem Studenten ===
    147 
    148   * Seitenbilder kopieren: erledigt.
    149   * fehlende Zeichenvarianten einfügen, insbesondere aus Extension B. Siehe Madlens Begleittext: [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.doc DOC], [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.pdf PDF]. Siehe auch @ im Text.
    150   * verbotene Zeichen am Anfang von <s>, zum Beispiel ” (Artefakt des damaligen <s>-Skripts; für ” habe ich es schon gemacht); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun
    151   * Text durchgehen auf Absatzenden (i.e. unvollständige Zeilen), zum Beispiel 194B, 195A.
    152   * spaces und large spaces in Überschriften mit der korrekten Anzahl von ideographic spaces tippen (die Einrückung der Überschrift muss nicht getippt werden)
    153   * Large spaces in Absätzen: markieren mit #
    154 
    155 Markiere alle <s> in kleiner Schrift, zum Beispiel N40565E, analog zu
    156 {{{
    157 <p xml:id="N40019A">
    158         ...
    159         <s xml:id="N4001AB">米​曰​<pb file="X06.01.007A" n="15"/>糯。</s>
    160         <sm>
    161                 <s xml:id="N4001B1">南​方​無​粘​黍,</s>
    162                 <s xml:id="N4001B4">酒​<hb/>皆​糯​米​所​為。</s>
    163         </sm>
    164         <s xml:id="N4001B7">質​本​粳​而​晚​收​帶​粘​俗​名​婺​源​光​之​類​不​可​為​酒,</s>
    165         ...
    166 </p>
    167 }}}
    168   * Das <hb/> ist hier nur zur Veranschaulichung. Die <hb/> muss man nicht per Hand hineinmachen, das geht im wesentlichen automatisch. (Die Logik ist wohl wie bei <lb/>, also zum Beispiel `<s xml:id="N400515">凡​火​未​經​人​間​傳​燈​者,<hb/></s>`.) Eigentlich würde mir sogar reichen, wenn die Zeilen mt einem tab eingerückt werden:
    169 {{{
    170         <s xml:id="N4001AB">米​曰​<pb file="X06.01.007A" n="15"/>糯。</s>
    171                 <s xml:id="N4001B1">南​方​無​粘​黍,</s>
    172                 <s xml:id="N4001B4">酒​皆​糯​米​所​為。</s>
    173         <s xml:id="N4001B7">質​本​粳​而​晚​收​帶​粘​俗​名​婺​源​光​之​類​不​可​為​酒,</s>
    174 }}}
    175   * Mache eine Liste aller Stellen, wo die <s> und <sm> sich beißen würden. Beispiel N405817 ff und N405BF2 ff.
    176 
    177 Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Deshalb kann man es nicht blind ersetzen.
    178   * Aber zum Beispiel 麵 kommt nicht vor.
    179   * Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?
    180     * Ja, das könnte die Aneinanderreihung von zwei Fehlern sein. im Buch 左 "links", im XML 後 / 后 "danach", bedeutet (hier) das gleiche. In ursprünglich abgetippten Text könnte auch "danach" gestanden haben.
    181 
    182 Fehlende und überflüssige Zeichen: Gehe die vom Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-anzeigen.pl lb-anzeigen.pl] nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-einfuegen.pl lb-einfuegen.pl] die <lb/> einfügen.
    183   * Zeichen zuviel: Beispiel 214A [N405E93] (eine ID in eckigen Klammern bedeutet, dass der <p> keine ID hat und statt dessen die ID des ersten <s> verwendet wird)
    184   * Zeichen zuwenig: Beispiel 6B N40015A
    185   * Struktur stimmt, aber trotzdem falsche Zeichen (einzelne falsche Zeichen, oder verschobene Stücke): Beispiel N400814 (letztes Zeichen in Zeile 4 stimmt sicher nicht; um eins verschoben)
    186   * <sm> nicht markiert
    187   * Spaces von Aufzählungen nicht eingefügt
    188 
    189 Haben Leerzeichen in den folgenden Zeilen eine Bedeutung (manchmal stehen ASCII-spaces für full-width spaces, ich habe das nicht einzeln geprüft):
    190   * 41B: <desc>坑 坑</desc>
    191     * Das ist so nicht richtig. Das Zeichen kommt zweimal vor, also zwei identische descriptions mit je einem Zeichen. Und: Nach den specs dann nur einmal tippen. (Aber: wenn es schon mal da ist, drinlassen?)
    192   * 43A: <caption>印架 過糊</caption>
    193     * Zwei Teile, also entweder space, oder zwei descriptions, oder Komma. Das soll Dagmar entscheiden.
    194   * N40386D, N403973, N403C49, N403E5B, N403F0E, N404786, N404864, N40487F, N4048AB, etc.
    195     * N40386D: da fehlt nichts, man kann den space einfach wegmachen. (Rest nicht angeschaut.)
    196   * N401D3B: teilweise full-width spaces (1, 1, 2 spaces); aber siehe oben
    197   * N406113 space Absicht? (rausgenommen)
    198 
    199 Einzelne Zufallsfunde (eventuell schon durch den Begleittext geklärt?)
    200   * falsche Zeichen: N401F3F, N403112, N405D72, N405D75
    201   * bei N4060CB steht etwas anderes als auf dem Bild: Text: 用​泉​近​烈軍​屬​主​石, Bild: ​​​​​​及泉​近?石,
    202   * N404DCF: müsste es nicht 薑 statt 姜 sein?
    203   * N402820 letztes Zeichen falsch? 88A
    204   * N401335 ein Zeichen zuviel
    205   * 51B: N401727 irgendwas falsch
    206   * N404D1B falsches Zeichen
    207   * N404EB2, N40360C, N403653, N403695, N400B05
    208 
    209 Wenn alle anderen Probleme abgearbeitet sind: Places einfügen, i.e. von den Markierungen auf Papier in den Text eintragen. Vorschlag: Einfach mit ( ) markieren, ich wandle es dann anschließend um. Beispiel:
    210 {{{
    211 <s xml:id="N404318">(北京)有​磨​法,</s>
    212 }}}
    213 Siehe GIS.
     12Details siehe [wiki:SongYingxing-specific hier].
    21413
    21514
    21615= 2. Workflow =
    21716
    218 == mögliche Konsequenzen ==
    219 
    220 === für die DESpecs ===
    221 
    222   * Die Regelung, dass Zeichenvarianten nur beim ersten Mal markiert werden sollen, muss noch überarbeitet werden. Problem ist, dass ein Text sowohl das Standardzeichen als auch mehr als eine Variante enthalten kann. An welcher Ebene setzt man an, beim Abtippen oder bei der Nachbearbeitung?
    223     * wenn im post-processing: Man hat die Information, welche Zeichen es betrifft. Man hat auch (oder erstellt mit wenig Aufwand) eine Liste der möglichen Zeichen. Gehe alle Vorkommnisse des Schriftzeichens im Text durch. Standardzeichen: ok: Variante: prüfe, ob nicht doch in Unicode. Sonst IDS-Sequenz erstellen. Im Text nur markieren mit v1, v2, etc. hinter dem Zeichen. Wird dann automatiisiert durch ein <reg> ersetzt, das im besten Fall die IDS-Sequenz verwendet. Wie groß wäre der Aufwand in der Praxis?
    224   * `\\` in <desc> erlauben, oder nur einfach damit umgehen können, falls es gemacht wird?
    225   * nochmal darüber nachdenken: large spaces in Überschriften doch genau tippen lassen?
    226 
    227 
    228 === für das Schema ===
    229 
    230   * `< V>` vorläufig als <reg norm="鬵" type="unresolved">鬵</reg>. Explizite Typen einführen, z.B. "variant/auto" (für  mit `< V>` markierte Zeichen) und "variant?/auto" (für Zeichen, die bereits an anderer Stelle als `< V>` markiert wurden). Siehe Variantenmarkierung in den DESpecs.
    231   * Attribut von <head>: Verschachtelungstiefe. Siehe unten.
    232   * aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in <figure> etwas wie Unter-Figures oder <teil-figure> erlauben? Problem ist auch: Nach den bisherigen Erfahrungen wird das bei der Transkription nicht funktionieren, wir sprechen also über etwas, was man im post-processing machen müsste.
    233   * ein bisschen (aber nicht völlig) analog zu <pb>: <anchor> direkt in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
    234 
    235 Bild mit Beschreibungstext auf Seite 83B / 168: Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. (Oder man erlaubt einfach <p> in <figure>? Aber das wäre ein bisschen inkonsequent.)
    236 
    237 Eine Alternative wäre, in <description> das echo.flexible.model zu erlauben: Also
    238 {{{
    239 echo.description.attlist = echo.inline.attrib
    240 echo.description.content = echo.inline.model
    241 }}}
    242 wird zu
    243 {{{
    244 echo.description.attlist = empty
    245 echo.description.content = echo.flexible.model
    246 }}}
    247 (und genauso für <caption>, aber nicht für <variables>). Die Lösung mit <explanation> kommt mir aber geeigneter vor. Insbesondere weil <description> normalerweise im Bild ist und nicht neben oder unter dem Bild.
    248 
    249 Beispiel Bion 1765 (WO 6):
    250 {{{
    251 <cap><rom>TABULA I</rom>.</cap>
    252 <cap it>pag. 6.</cap>
    253 }}}
    254 Das hat Klaus jeweils zu einer caption mit einem <lb> gemacht. Analogie zu Überschriften wäre aber, es als zwei captions zu lassen. Brauchen wir also auch caption-Gruppen analog zu head-Gruppen? (Diese Frage ist unabhängig von de figurepart-Frage, denn es bezieht sich nur auf captions, die unmittelbar hintereinander kommen.)
    255 
    256 
    257 xhtml-Listen:
    258   * ich musste ein <pb> (Seite 208A / 417) tiefer verschieben, d.h. vorher zwischen </dd> und <dt>, nachher auf einer Höhe wie <s> im <dd> davor. Ist das so gewünscht?
    259   * <dl> kann laut Schema überall da sein, wo auch ein float sein kann, also nicht direkt in <dl>, sondern nur in <s>. Das ist aber bei verschachtelten Listen Unsinn. Schema ändern? (Das Flow-Model und Inline-Model von xhtml wurde ja im Schema umdefiniert und würde dann nochmal umdefiniert werden.) Erstmal jedenfalls: auf die Einrückung verzichtet. (Ändern, sobald es geht!)
    260 
    261 mögliche Änderungen in echo-chinese-text:
    262   * <sm>, <hb/>
    263   * "variant", "variant/auto", "variant?/auto"
    264   * headlevel (oder nur level)? wenn, dann optional
    265   * figure: <part>? <explanation> oder <subcaption>? Wie heißen figure-Teile bei TEI?
    266   * bei note-Type footnote: position "sm"
    267   * <anchor> direkt in <p> erlauben?
    268   * Attribut für "73B" in <pb>? Oder doch "o" verwenden?
    269   * Inhalt von xhtml?
    270 
    271 === für den Workflow ===
    272 
    273   * Die Logik, die <pb> so weit wie möglich in der Hierarchie zu verstecken, habe ich bei diesem Text nicht angewendet. Sollte man das nachholen? Dann müsste zum Beispiel eine Seiten-Figure auch den nachfolgenden <pb> enthalten. Keine technische, sondern eine konzeptionelle Frage. Zumindest bei <div> ist aber klar, dass <pb> hineingezogen wird. Und in <s> könnte man <pb> auch problemlos hineinziehen.
    274   * In chinesischen Texten können problemlos Überschriften in der letzten Zeile auftreten, das ist also kein Hinweis auf einen Fehler, im Gegensatz zu europäischen Texten. Beispiel 104B, wo man den folgenden Text auf 105A im aufgeschlagenen Buch nebeneinander sieht, und auch 148A / 148B, wo das nicht der Fall ist. (Die Überschrift auf Seite 85B ist wirklich ein footer.) Konsequenterweise müsste man <pb> auch in <head> verschieben. Dieser Fall kommt in europäischen Texten bisher nur bei mehreren Textflows vor, also beispielsweise beim Eipo-Text.
    275   * Skript für "pb verstecken"? Das wäre auch wichtig, um andere workflows zu integrieren.
    276   * Ich könnte genauso gut mit der Version arbeiten, wo die Figures bereits aus <p> herausgezogen sind. Aber erst, wenn entschieden ist, ob sm-Text raus kommt oder nicht. (Ansonsten: Einen Arbeitsschritt, in dem alle Skripte sind, mit dem aus der Bearbeitungsversion die Anzeigeversion wird? Problem: Dann wäre der Text vorher noch nicht schemakonform, also wahrscheinlich keine gute Idee.)
    277   * Was machen wir aus large spaces?
    278     * Laut DESpecs als ein einzige space getippt. (Large) spaces zu Doppelpunkten wenigstens in Überschriften, siehe 8B; wird nicht immer sinnvoll sein, insbesondere bei mehr als einem large space.
    279     * # in <p>? Gibt es eine allgemeine Lösung? (Manchmal auch "übersehenes" Absatzende?)
    280   * Aufzählungen: Gibt es überhaupt Bedarf, Aufzählungen ausdrücklich zu markieren? Wenn ja: Wie beschreibt man die verschiedenen Aufzählungstypen in chinesischen Texten? Zum Beispiel 194B: Wohl nicht mit xhtml? Einfach als <s>, und akzeptieren, dass es "zu kurze Zeilen" gibt? Wenn man 25B ff zu einer Aufzählung machen will innerhalb des Absatzes, wie sollte das dann aussehen? Woran erkennt man den Unterschied "Aufzählung innerhalb eines Absatzes" vs "neuer Absatz"?
    281 
    282 
    283 == GIS ==
    284 
    285 Der Text enthält zurzeit nur ein einziges <place>-tag auf [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=gis&pn=300 Seite 300]. Zurzeit wird `<gis-table>` nicht ausgewertet und ist auch gar nicht in den Metadaten.
    286 
    287   * Der GIS-Rücklink sollte nicht auf den Prototypen zeigen.
    288   * Überflüssige spaces vor und nach dem link, wenn man im GIS-mode ist.
    289 
    290 === Was wird markiert? ===
    291 
    292 Wie werden Orte wie das Pekinger Münzamt in N403023 markiert? Wird Peking und/oder das Münzamt markiert? (Ähnliches Problem wie bei <ref> im Benedetti.) Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=gis&pn=220 109B / 220]:
    293 {{{
    294 <s xml:id="N403023" xml:space="preserve">唯北京寶源局黃錢與廣東高州爐青錢</s>
    295 }}}
    296 siehe Übersetzung p.165 ganz unten, und p.170 Fußnote 11.
    297 
    298 Problem: 北京 寶源局 黃錢 meint Peking-Münzamt-Gelbmünzen. Vergleichbar mit dem Englischen: "Newcastle Brown Ale". Meint also eigentlich weder Peking noch das Münzamt. Das Münzamt ist hier nur ein "adjektivischer Ort". Hat das Auswirkungen darauf, was wir mit place markieren?
    299   * Wahrscheinlich markieren wir nur Städe. Dann ist es einfach: (北京)寶源局黃錢
    300   * Wenn wir auch Orte wie Tempel etc. (aber nicht die Gelbmünzen) markieren, gibt es mehrere Möglichkeiten. Frage ist: markieren wir unabhängig vom Münzamt noch die Stadt?
    301     * (北京寶源局): es ist nicht die Stadt gemeint, sondern das Münzamt der Stadt, und die Information "Peking" ist im Münzamt sowieso implizit enthalten
    302     * (北京)(寶源局): allerdings ist der Unterschied zu (北京寶源局) für das Münzamt eher ein rein optisches Problem; im authority file ist es egal, ob der Name 北京寶源局 oder nur 寶源局 ist, entscheidend ist die logische Beziehung der Elemente im authority file zueinander, also die Beziehung von Münzamt und Peking. Erbt das Münzamt das in-Peking-sein vom Eintrag Peking, oder erbt Peking das im-Text-erwähnt-werden vom Münzamt?
    303     * ((北京)寶源局): wäre auch sinnvoll, allerdings ist eine verschachtelte Markierung unglücklich
    304     * Wenn man zuerst die Städte markiert, hat man (北京)寶源局. Was einmal markiert wurde, sollte nicht mehr geändert werden. Von (北京)寶源局 kann man also entweder zu ((北京)寶源局) mit verschachtelten tags oder zu (北京)(寶源局).
    305   * Und im gleichen Satz: Guangdong Gaozhou, also Stadt Gaozhou innerhalb der Stadt Maoming in der Provinz Guangdong: (廣東)(高州) oder 廣東(高州) oder (廣東高州) ? Gemeint ist ja die Stadt, die Provinz ist nur zu Erläuterung angegeben. Aber 廣東 ist nicht Teil des Stadtnamens. Probehalber (北京) und (廣東)(高州):
    306 {{{
    307 唯​<place id="N403023-01">北京</place>​寶​源​局​黃​錢​與​<place id="N403023-02">廣東</place>​<place id="N403023-03">高州</place>​爐​青​錢,
    308 }}}
    309   Die links auf Seite 220 funktionieren allerdings noch nicht. (ZWS zwischen den beiden <reg>? Wahrscheinlich ja, als Trennhilfe.)
    310 
    311 (Nebenbei: 寶源局: Münze, i.e. Münzprägestelle, vs. Münzamt?)
    312 
    313 
    314 
    315 == Darstellung der Abbildungen ==
    316 
    317 Problem des Bildbeschreibungstextes auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Gehört nicht zum Haupttext, sondern unterbricht den Haupttext. Deshalb eine Textzeile von Seite 84A auf Seite 83A verschoben. (Kann man zurückändern, wenn man etwas wie <explanation> einführt, siehe unten.)
    318 
    319 Wimmelbild auf Seite 154: im figures-Ordner das identische Seitenbild dreimal abgelegt. Die Kopie kann man löschen, sobald es <figurepart> gibt.
    320 
    321 Problem der Überschriften, die eigentlich captions für Figure-Gruppen sind: zum Beispiel Seite 14A / 29 und 63A / 127. (In beiden Fällen trotzdem ein neues div begonnen.)
    322 
    323 Problem der Doppelseitenbilder: Die Bildhälften passen nicht so zusammen, wie sie gedruckt sind (zum Beispiel 016A und 016B, die auf dem gleichen Blatt gedruckt sind), sondern wenn man das gebundene Buch aufschlägt. Ein Beispiel ("--" bedeutet, dass es auf der entsprechenden Seite keine caption bzw. description gibt):
    324 
    325 || Buchseiten ||||  caption  ||||  descriptions  ||
    326 ||14A  |||||||| 汲水圖 (Figure-Gruppen-caption) ||
    327 || || || || || ||
    328 || 015A 014B   ||  -- ||  筒車  ||   橛障  坡水  坡水  牐   ||   規水  規水  岸 ||
    329 || 016A 015B  ||  人車 ||  --   ||  蘢骨   ||  -- ||
    330 || 017A 016B  ||  -- ||  --   ||  --   ||   中柱 牛轉盤外 ||
    331 || 017B   ||||  拔車  ||||   --  ||
    332 || 018A ||||   桔槔   ||||  墜石  井  ||
    333  
    334 Sollte man auch JPGs der zusammengehörenden Bilder zur Verfügung stellen? Die Bilder wären leichter zu erfassen, aber die Numerierung der Seiten im Anzeigesystem wäre dann (zumindest zurzeit) verwirrender: Unter anderem sieht man der Zahl dann nicht mehr an, ob es eine rechte oder linke Seite ist. Man müsste dann auch die Information "014B" etc. anzeigen (das wäre allerdings sowieso sinnvoll!).
    335 
    336 || JPG || bisher || nachher ||
    337 || 014B || 30 || 30 ||
    338 || 015A || 31 || 31 ||
    339 || 015A_014B || || 32 ||
    340 || 015B || 32 || 33 ||
    341 || 016A || 33 || 34 ||
    342 || 016A_015B || || 35 ||
    343 || 016B || 34 || 36 ||
    344 || 017A || 35 || 37 ||
    345 || 017A_016B || || 38 ||
    346 || 017B || 36 || 39 ||
    347 || 018A || 37 || 40 ||
    348 || || || ||
    349 || 018B || 38 || 41 ||
    350 
    351 Alternative wäre eine zwei-Seiten-Ansicht. Beachte außerdem die Umkehrung der links-rechts-Metapher.
    352 
    353 
    354 == small text ==
    355 
    356 Bisher war die Idee, es als note herauszuziehen, allerdings wurde es bisher noch nie gemacht, weil die chinesischen Texte noch nicht umgewandelt wurden. Es gibt, trotz der suggestiven Aufteilung in <s>, keine technischen Gründe dagegen. Testweise beide Versionen erzeugen und dann vergleichen? -- Die Entscheidung bei den <sm> hängt offenbar vom Text ab. Kann auch textflows wie bei den Conimbricenses sein, also Original und Kommentar. Song Yingxing: Probehalber herausziehen? Das Skript dafür muss man sowieso schreiben. Jedenfalls: Fußnoten und nicht Marginalien.
    357 
    358 58A / 117:  vorher:
    359 {{{
    360 <head xml:id="N401B82">攻​稻 <emph style="sm">擊禾 \\ 軋禾 風車 \\ 水碓 石碾 \\ 臼 碓 \\ 篩 皆具圖</emph></head>
    361 }}}
    362 
    363 nachher (verkleinert):
    364 {{{
    365 #!div style="font-size: 80%"
    366 {{{
    367 <head xml:id="N401B82">攻​稻 <emph style="sm">擊禾\\軋禾</emph> <emph style="sm">風車\\水碓</emph> <emph style="sm">石碾\\臼</emph> <emph style="sm">碓\\篩</emph> <emph style="sm">皆具圖</emph></head>
    368 }}}
    369 }}}
    370 
    371 <sm> kann nicht mehrere `\\` hintereinander enthalten. Aber es kann ein oder mehrere <lb/> enthalten, und danach ist jeweils wieder ein `\\` erlaubt. Beispiel 7B / 16, N400266 ff. (Schematron-Regel?) Und wenn man ein neues `\\` auch nach " " erlaubt, kann man es auch so schreiben:
    372 {{{
    373 #!div style="font-size: 80%"
    374 {{{
    375 <head xml:id="N401B82">攻​稻 <emph style="sm">擊禾\\軋禾 風車\\水碓 石碾\\臼 碓\\篩 皆具圖</emph></head>
    376 }}}
    377 }}}
    378 
    379 Dann muss allerdings das Anzeigesystem damit umgehen könnnen. Andererseits muss es sowieso mit `\\` bzw. <lb type="halfline"/> umgehen können.
    380 
    381 Ersetze `\\` durch <lb type="halfline"/>:
    382 {{{
    383 #!div style="font-size: 80%"
    384 {{{
    385 <head xml:id="N401B82">攻​稻 <emph style="sm">擊禾<lb type="halfline"/>軋禾</emph> <emph style="sm">風車<lb type="halfline"/>水碓</emph> <emph style="sm">石碾<lb type="halfline"/>臼</emph> <emph style="sm">碓<lb type="halfline"/>篩</emph> <emph style="sm">皆具圖</emph></head>
    386 <head xml:id="N401B82">攻​稻 <emph style="sm">擊禾<lb type="halfline"/>軋禾 風車<lb type="halfline"/>水碓 石碾<lb type="halfline"/>臼 碓<lb type="halfline"/>篩 皆具圖</emph></head>
    387 }}}
    388 }}}
    389 
    390 Für das, was es tut, ist <lb type="halfline"/> ziemlich lang. Statt dessen etwas wie <hlb/> oder <hb/>? Oder wenigstens <lb type="half"/>? (Koordination mit textflows, i.e. <pb flow="3"/>? In textflows sind andererseits die <lb/> normal.) Und <sm> unterscheidet sich von normalem <emph> dadurch, dass es einen besonderen Anzeigemechanismus braucht. Es ist also nicht direkt mit kursiv etc. vergleichbar. Warum dann nicht bei <sm> bleiben? (Vermutlich würde es kein <s style="sm"> geben.)
    391 {{{
    392 #!div style="font-size: 80%"
    393 {{{
    394 <head xml:id="N401B82">攻​稻 <sm>擊禾<hb/>軋禾</sm> <sm>風車<hb/>水碓</sm> <sm>石碾<hb/>臼</sm> <sm>碓<hb/>篩</sm> <sm>皆具圖</sm></head>
    395 <head xml:id="N401B82">攻​稻 <sm>擊禾<hb/>軋禾 風車<hb/>水碓 石碾<hb/>臼 碓<hb/>篩 皆具圖</sm></head>
    396 }}}
    397 }}}
    398 
    399 Dann wäre die obere Version optisch wohl klarer. In Originalgröße:
    400 {{{
    401 <head xml:id="N401B82">攻​稻 <sm>擊禾<hb/>軋禾</sm> <sm>風車<hb/>水碓</sm> <sm>石碾<hb/>臼</sm> <sm>碓<hb/>篩</sm> <sm>皆具圖</sm></head>
    402 }}}
    403 
    404 
    405 Und in <p>? Einzelne <s> mit `style="sm"` zu markieren, wie ich es testweise gemacht habe, ist eigentlich Unsinn, weil es auf der falschen Ebene ansetzt (selbst bei einem einzigen <s>, schon wegen der einheitlichen Optik). Vorschlag: <sm>, vergleichbar mit <quote> innerhalb von <p>. Testweise auf Seite 7A / 15 (dort als <quote>, weil das Schema <sm> noch nicht erlaubt).
    406 
    407 Oder gleich <fn>? Testweise siehe Seite 10A / 21. Es mag sein, dass es sinnvoll ist, zwischen <sm> (bleibt im Text) und <fn> (wird herausgezogen) wählen zu können. Neuer Type "sm"?
    408   * Beim note-Test (beginnend mit N400515): </s> vom Satz davor hinter die footnote verschoben, weil notes nicht direkt in <p> sein dürfen. Ist das bei notes im Text sinnvoll oder nicht? Beispiele angucken! Doch neuer tag <sm>, der sich etwas anders als die anderen notes verhält? Aber in jedem Fall müsste man <anchor> direkt in <p> erlauben (in echo-chinese-text, weil es bisher nur in chinesischen Texten sinnvoll ist), und dann kann man auch die normale note erlauben.
    409   * Und nach dem Herausziehen der floats das xml:space="preserve" in <note> per Hand entfernt. Das im Skript zu ändern ist wohl sinnlos, denn es ist nicht der normale workflow.
    410 
    411 Und will man small text wie im Buch in zwei Zeilen anzeigen? Dafür spricht, dass es dem Seitenbild besser entspricht. Dagegen spricht, dass es dann eventuell nicht mehr gut lesbar ist. Alternativ kann man die normalen Zeichen größer anzeigen anstatt die kleinen kleiner. (Und man kann nicht garantieren, dass ein sm-Zeichen wirklich die gleiche Höhe wie ein normales Zeichen hat; allerdings wird es  bei gedruckten Büchern fast immer so sein.)
    412 
    413 
    414 == zero width spaces ==
    415 
    416 Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen wie zum Beispiel ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern. Gesucht ist eine Lösung, die die Suche im XML nicht zerbricht.
    417 
    418 Problem des Skripts zum Eintragen der ZWS: Woher soll man wissen, dass das Fehlen eines ZWS nicht bedeutungstragend ist? Man braucht eigentlich nicht nur den ZWS, sondern auch ein positives Signal, zum Beispiel den zero width joiner (ZWJ). Dann muss das Skript nur zwischen direkt aufeinanderfolgenden Schriftzeichen ein ZWS einfügen. Aber der ZWJ schafft sicher neue Probleme. Und eigentlich hat der ZWJ eine andere Aufgabe!
    419   * Welche konkret, für Textanzeige oder Suche?
    420 
    421 == Überschriften ==
    422 
    423 Überschriften werden zentriert angezeigt. Die unterschiedlichen Verschachtelungstiefen werden durch die Zentrierung verschleiert. Kann man das ändern? Das Problem ist offensichtlicher als bei europäischen Texten, weil es die Verschachtelung durch Einrückung markiert wird und nicht durch Hinweise im Text. Der Zusammenhang mit der Einrückung ist nicht gradlinig, allerdings sollen die Chinesen `<ti>`, `<h 1>`, `<h 2>` etc. tippen.
    424   * Ebene 1 (alle `<ti>`, z.B. 天工開物卷上 und 分宜教諭宋應星著 auf Seite 6A): Einrückung entweder 0 oder nahezu rechtsbündig
    425   * Ebene 2 (`<h 1>`, z.B. 乃​粒​第​一卷): Einrückung 2
    426   * Ebene 3 (`<h 2>`, z.B. 總​名): Einrückung 1
    427   * (im toc ist es wieder anders)
    428 
    429 Lösung ist wohl einfach, dass <head> (aber wohl nur bei chinesischen Texten) ein Attribut "headlevel" bekommt, siehe oben. Sonst: Eine Überschrift "weiß" von seinem übergeordneten div, wie weit es verschachtelt ist, allerdings fängt die Zählung nicht bei null an.
    430 
    431 Dann kann ich mir auch die verschachtelten div's im toc sparen. Allerdings funktioniert das dann nur bei chinesischen Texten, nicht bei europäischen.
    432 
    433 Andererseits: wenn man "headlevel" auch für europäische Texte einführt, müsste man es zwar im post-processing per Hand einfügen, aber danach könnte das div-Skript automatisch eine hierarchische div-Struktur einfügen. Letztlich eine Frage von Henne oder Ei, irgendwo muss die Information hinein, egal ob über head oder über div. Bei chinesischen Texten steht sie bereits im head. (Selbst dann könnte das "div einfügen"-Skript die Information in zum Beispiel `<h 2>` direkt auswerten. Leichter wäre es allerdings mit einem Attribut.) Bei europäischen Texten würde das (dann fehlende) headlevel-Attribut eventuell eine weitere Hürde schaffen, andererseits verwendet das div-Skript es halt nur, wenn es da ist.
    434 
    435 
    436 == Zeichen-Varianten ==
    437 
    438 Eventuell steigen wir von IDS-Sequenzen auf IVS-Sequenzen um.
    439  * IDS-Sequenzen geben wieder, wie das Zeichen aussieht, aber das Ergebnis ist unförmig.
    440  * IVS-Sequenzen verweisen auf eine Liste, in der die Variation aufgeführt ist. Wenn das Zeichen in der Liste nicht vorkommt, gibt es keinen Anhaltspunkt, wie das Zeichen genau aussieht (außer dass es eine Variation des angegebenen Zeichens ist). Und selbst wenn das Zeichen in der Liste vorkommt, haben wir keine einfache Möglichkeit, das korrekte Zeichen auch anzuzeigen, sondern müssen auf die Liste verweisen (oder?). Vorteil wäre aber, dass man kein <reg> braucht, sondern einfach ein unsichtbares Zeichen einfügt. Es ist unklar, ob die vorhandene Liste unsere Beispiele bereits enthält; die [wiki:VariationSequences bisher geprüften Beispiele] haben sich zum Teil als nicht markierwürdig herausgestellt, und das restliche Zeichen war nicht in der Liste.
    441 
    442 Vielleicht ist es am besten, eine IVS-Sequenz zu verwenden, wenn es das Zeichen in der Liste schon gibt, und sonst eine IDS-Sequenz.
     17Mögliche Änderungen für die DESpecs, das Schema und den Workflow werden [wiki:workflow-chinese hier] diskutiert.
    44318
    44419
    44520=  3. Textanzeige =
    44621
    447 == chinesische Satzzeichen ==
     22Probleme der Anzeige chinesischer Texte werden [wiki:display-chinese hier] diskutiert.
    44823
    449 Manche Satzzeichen werden fälschlicherweise durch ihre ASCII-Äquivalente ersetzt:
    450 
    451 ||= Satzzeichen =||  。 || ! || ? || , || 、 || : || ; || " " ||
    452 ||= Unicode =|| 3002 || FF01 || FF1F || FF0C || 3001 || FF1A || FF1B || 3000 ||
    453 ||= angezeigt als =|| . || ok || ok || ok || , || ok || ok || " " ||
    454 
    455 Unicode-Namen: 300x: "ideographic ...", FFxx: "fullwidth ..." (i.e. fullwidth-Versionen von ASCII-Zeichen). Beim Punkt gibt es beides (fullwidth-Version ist FF0E), aber verwendet wird 3002. Beim Komma gibt es auch beides, und beide werden mit verschiedenen Bedeutungen verwendet (normales Komma FF0C vs. Aufzählungskomma 3001).
    456 
    457 Es werden also die "ideographic"-Zeichen 3000-3002 nicht korrekt dargestellt.
    458 
    459 Ein Beipiel für den ideographic space U+3000 ist die Überschrift auf [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=18 Seite 18].
    460 
    461 Ein Beispiel für  。 ist [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=445&sn=1 hier]. Im Gesamt-XML ist es 。:
    462 {{{
    463 <s xml:id="N406244" xml:space="preserve">則​又​非​也。</s>
    464 }}}
    465 aber im Seiten-XML und bei der Textanzeige ist es ein ASCII-Punkt:
    466 {{{
    467 <s xml:id="N406244" xml:space="preserve">則​又​非​也.</s>
    468 }}}
    469 
    470 (Am Ende einer Note werden die Punkte korrekt angezeigt, siehe Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=21 10A / 21], obwohl im Seiten-XML ein ASCII-Punkt ist, siehe [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=xml&pn=23 hier]!)
    471 
    472 == Überschriften ==
    473 
    474 Die Überschriften werden zentriert angezeigt. Bei Absätzen mit <lb/> kann es passieren, dass die Überschrift rechts neben dem Text steht, zum Beispiel auf Seite 3. Besser wäre linksbündig, und Einrückung je nach headlevel (falls vorhanden).
    475 
    476 == figures ==
    477 
    478 Alle Bilder sind Seitenbilder. Die einzige Ausnahme ist eventuell das Bild auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]; wir haben es aber auch zum Seitenbild erklärt, weil der Text auf der Seite zum Bild gehört. Die Seitenbilder sind als JPGs (also nicht als TIFFs) im figures-Ordner (Kopien der Seiten aus dem pageimg-Ordner, mit Zusatz "-01".)
    479 
    480   * Die Lösung, Figures in <div float> rechtsbündig anzuzeigen, funktioniert bei Seitenbildern optisch nicht. Vergleiche [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=37 Figure 12] ohne <div float> und [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=42 Figure 13] mit <div float>. Vermutlich sollten wir also doch als Standard nehmen, Bilder linksbündig anzuzeigen. (Würde sich die Lage verändern, wenn man in bei den Bildern noch die Position definiert?)
    481   * <caption> wird über dem Bild gezeigt, alle <description> hintereinander ohne return oder space neben "[Figure: ...]:" ( [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=385 Beispiel]). Aber descriptions sind keine Unter-Überschriften. Die caption sollte dort gezeigt werden, wo jetzt die descriptions sind. Die descriptions dann darunter, jeweils in einer neuen Zeile für jede description. (Problem der mehrzeiligen descriptions: Listenpunkte für die descriptions?)
    482   * Die Bilder mit <div float> werden nicht korrekt durchnumeriert und auch nicht korrekt angezeigt, siehe z.B. Seite 154. Intern stimmt die Numerierung aber offenbar: Nach viermal 13 kommt 17. (Möglicherweise vergleichbar: Im Benedetti sollen laut [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/Benedetti_1585.xml&pn=26&mode=text&query-type=figures&query-result-pn=1 TOF] die Figures 26 bis 29 auf Seite 26 sein, angezeigt werden aber, korrekterweise, nur zwei figures.)
    483   * Das Symbol für ein fehlendes Bild wird angezeigt unabhängig davon, ob die Figure ein <image> hat oder nicht. Beispiel: Bilder 1-6 haben kein <image>, aber Bild 7 und 10 haben <image>. (Zumindest für diesen Text hat es sich erledigt, denn die figures haben jetzt <image>.)
    484   * Aufruf der [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=%2Fecho%2Fzh%2FSongYingxing_1637.xml&mode=image&pn=1&sn=-1&query-type=figures&query-result-pn=1 Table of Figures] ergibt eine Fehlermeldung. (Bei Andrey wird daraus eine [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=%2Fmpiwg%2Fonline%2Fpermanent%2Fecho%2Fchina%2Fsongy_tiang_zh_1637&tocMode=figures ECHO-Fehlermeldung].)
    485   * Insbesondere für die Doppelseitenbilder braucht man die umgekehrte links-rechts-Metapher der Pfeile.
    486 
    487 == Parallel-Ansichten ==
    488 
    489   * Eine Option bei Seitenbildern für eine Ansicht mit Bild und Text auf einer Seite statt auf zwei Seiten wäre sinnvoll.
    490   * Dagmar hat eine Übersetzung des Textes mit IDs. Die Übersetzung sollte parallel zum Originaltext angezeigt werden können. Im Gegensatz zu Arboreal ohne Bearbeitungsmöglichkeit, aber die <s> im Original und in der Übersetzung sollten optisch klar zuordenbar sein. (Letztlich könnte das Anzeigesystem eine web-Version von Arboreal werden.)
    491 
    492 == small text ==
    493 
    494   * `<emph style="sm">` wird korrekt angezeigt: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=74 Beispiel] (beide Überschriften auf Seite 74), aber `<s  style="sm">` nicht: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=17&sn=25 Beispiel]. (Die Art, wie <sm> markiert wird, wird sich zwar wohl noch ändern, aber das Problem tritt auch bei kursivem Text etc. auf, siehe unten.)
    495   * <sm> sollte sich optisch klarer von normal großem Text unterscheiden, d.h. etwas kleinere Schriftgröße in chinesischen Texten (und damit auch in europäischen Texten, wenn man nicht verschiedene CSS-Versionen pflegen will)
    496   * Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=28 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=28 Text]. Im Text wäre das `<lb type="halfline"/>` (oder `<hb/>`), was nicht wie ein normaler <lb/> behandelt werden darf, sondern sich nur auf <sm> bezieht. (Das `\\` in table cells wird zu einem normalen <lb/>, weil es hier keine Probleme gibt.) Wäre denn eine Tabellendarstellung on-the-fly mit einer quasi unsichtbaren Tabelle bei cinesischen Texten eine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.?
    497   * Eine Option, small text ein- und auszublenden, wäre sinnvoll.
    498   * Beachte: Falls die <sm> aus <p> noch als notes herausgezogen werden, hat die Darstellung von <sm> im Text keine hohe Dringlichkeit mehr, denn dann kommt das nur noch in Überschriften, im TOC, etc. vor.
    499 
    500 == Table of Contents ==
    501 
    502 Die div's der front matter werden nicht angezeigt: Title, preface, toc. Bei toc sollten die verschachtelten div's nicht angezeigt werden. Ich werde das ändern, sobald ich dazu komme.
    503 
    504 == Seitenzahlen ==
    505 
    506 Es sollte auch der Name der Halbseite angezeigt werden, also zum Beispiel 168 / 83B und 169 / 84A. Ansonsten ist es mühsam, eine Seite zu finden. Aus dem file-Attribut in <pb> extrahieren, oder neues Attribut? (Das o-Attribut, in dem die originale Seitenzahl steht, passt hier eigentlich nicht, denn zum Beispiel "83B" steht ja nicht auf der Seite, sondern ist eine nachträgliche Zählung. Außerdem gibt es ja echte Seitenzahlen, auch wenn sie noch nicht abgetippt wurden!)
    507 
    508 Neuer Stand: Die Seitenzahlen sind eingefügt. Problem ist jetzt, dass die Seitenzahl offenbar nicht in eine Zeile passt um umgebrochen wird, siehe z.B. Seite 154.
    509 
    510 == xhtml ==
    511 
    512 Seiten 416-417 enthalten eine xhtml-Liste (xhtml:dl). Die seiten werden nicht angezeigt.
    513 
    514 == Suche ==
    515 
    516 Es kann immer wieder passieren, dass die ZWS (U+200B) durcheinandergeraten.
    517   * Wie geht die Suche damit um? Suchoption "ignoriere ZWS"?
    518   * Wie wird der Index bei chinesischen Texten erstellt? Wird ZWS dabei beachtet oder nicht?
    519   * Und ZWJ (U+200D) als positives Signal, dass die Zeichen Teil eines Wortes sind? Bricht das die Suche bei uns der bei anderen? Ausprobieren?
    520 
    521 == Zeichen-Varianten ==
    522 
    523 Infrastruktur für die Anzeige von ⿱金尖.svg schaffen. <image> muss anders behandelt werden als bei Figures. Außerdem Infrastruktur für IVS-Sequenzen.
    524 
    525 
    526 == PDF-Darstellung ==
    527 
    528 Sun-ExtA sollte nur für chinesische Zeichen und Interpunktion verwendet werden. Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=100&export=pdf Text], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=xml&pn=100&export=pdf XML]. Beachte Extension B einerseits und lateinische Zeichen andererseits.
    529 
    530 == Nebenfunde ==
    531 
    532   * Der URL-Zusatz `&sn=...` numeriert die Überschriften nicht mit durch, man kann also beispielsweise die Überschriften im Beispiel für `<emph style="sm">` nicht explizit markieren. Bug oder feature?
    533 
    534   * Anzeige von Marginalien funktioniert noch nicht. Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/Benedetti_1585.xml&mode=text&pn=398 Benedetti]:
    535     * Immer noch als Fußnoten
    536     * und mit dem internen link, den der Benutzer gar nicht sehen soll; statt dessen das Symbol, falls vorhanden, oder 1, 2, 3, etc. Auf jeder Seite neu anfangen zu zählen.
    537     * Die notes sollten nicht kursiv gemacht werden.
    538 
    539   * Auf der gleichen Seite in der [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/Benedetti_1585.xml&mode=xml&pn=398 XML-Ansicht] nach Marginalie 0398-03:
    540 {{{
    541 <reg norm="quadruplum" type="context">quadruplũ</reg>
    542 }}}
    543   wird im Seiten-XML zu
    544 {{{
    545 <reg   norm="quadruplum" type="context">quadruplum</reg>
    546 }}}
    547   Auch auf dieser Seite:
    548 {{{
    549 <reg norm="compararetque" type="simple">compararetq;</reg> (ok)
    550 <reg norm="conſequente" type="context">consequente</reg> (normalisiert statt original)
    551 }}}
    552 
    553   * <quote> innerhalb von <p> (testweise für <sm> auf Seite 15; nicht zu verwechseln mit <quote> auf der gleichen Ebene wie <p>) wird nicht korrekt angezeigt:
    554     * nicht kursiv (das war nur zu Textzwecken im CSS)
    555     * nicht eingerückt
    556     * nicht in neuer Zeile (wenn es eingerückt sein soll, gibt es ein zusätzliches <set-off>)
    557     * beachte open/close-Attribute
    558 
    559   * `<emph style="it">` wird korrekt angezeigt, aber `<s  style="it">` nicht. Beispiel siehe [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/Benedetti_1585.xml&mode=text&pn=11 hier]:
    560 {{{
    561 <emph style="it">vt mala ſcilicet prius ...
    562 <s style="it">Omnes qui dere-<lb/>bus ...
    563 }}}
    564   Bei Andrey wird sogar beides upright dargestellt.
    565 
    566   * options=withoutLBs: Geht noch nicht richtig mit Bindestrichen um, siehe zum Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/la/alvarus_1509.xml&mode=text&pn=10&options=withoutLBs&sn=0 su-perparticularis]. (Verwirrung: Die Datei heißt "alvarus_1509", der alte link mit "Alvarus_1509" funktioniert deshalb nicht. Dateinamen ändern?)