Changes between Version 9 and Version 10 of SongYingxing


Ignore:
Timestamp:
Aug 5, 2010, 7:10:00 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • SongYingxing

    v9 v10  
    1111  * div's eingefügt (Skript plus Nachbearbeitung für die hierarchische Struktur)
    1212  * Einrückungen normalisiert
    13   * Überschriften markiert. N403115, N404D1B, N404EB2, N4051B4, N405238: zwei <s> zu einer <head>, inklusive Entfernen einer ID. Erkennbar am Fullwidth-Doppelpunkt in der neuentstandenen heading.
     13  * Überschriften markiert. N403115, N404D1B, N404EB2, N4051B4, N405238: jeweils zwei <s> zu einer <head>, inklusive Entfernen einer ID. Erkennbar am Fullwidth-Doppelpunkt in der neuentstandenen heading.
    1414  * N404548: typo im Original korrigiert (十三 statt 十一)
    15   * wenige Zeichen verbessert: Kurzzeichen in 天工开物 durch Langzeichen ersetzt, ein paar Zeichen in Überschriften ergänzt, N402CA2: space vor 回 eingefügt
     15  * wenige Zeichen verbessert: Kurzzeichen in 天工开物 durch Langzeichen ersetzt, ein paar Zeichen in Überschriften ergänzt, N402CA2: full-width space vor 回 eingefügt
    1616
    1717== Fragen zum Text ==
     
    3131== Darstellung der Abbildungen ==
    3232
    33 Seitenbilder werden nicht ausgeschnitten.
    34 
    35 Problem des Textes auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Scheint nicht zum Haupttext zu gehören, unterbricht den Haupttext. Deshalb eine Textzeile von Seite 84A auf Seite 83A verschoben.
     33Problem des Bildbeschreibungstextes auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Gehört nicht zum Haupttext, sondern unterbricht den Haupttext. Deshalb eine Textzeile von Seite 84A auf Seite 83A verschoben. (Kann man zurückändern, wenn man etwas wie <explanation> einführt, siehe unten.)
    3634
    3735Problem der Überschriften, die eigentlich captions für Figure-Gruppen sind: zum Beispiel Seite 14A / 29 und 63A / 127. (In beiden Fällen trotzdem ein neues div begonnen.)
     
    4846|| 018A ||||   桔槔   ||||  墜石  井  ||
    4947 
    50 Sollte man auch JPGs der zusammengehörenden Bilder zur Verfügung stellen? Die Bilder wären leichter zu erfassen, aber die Numerierung der Seiten im Anzeigesystem wäre dann (zumindest zurzeit) verwirrender. Man müsste dann auch die Information "014B" etc. anzeigen (das wäre allerdings sowieso sinnvoll!).
     48Sollte man auch JPGs der zusammengehörenden Bilder zur Verfügung stellen? Die Bilder wären leichter zu erfassen, aber die Numerierung der Seiten im Anzeigesystem wäre dann (zumindest zurzeit) verwirrender: Unter anderem sieht man der Zahl dann nicht mehr an, ob es eine rechte oder linke Seite ist. Man müsste dann auch die Information "014B" etc. anzeigen (das wäre allerdings sowieso sinnvoll!).
    5149
    5250|| JPG || bisher || nachher ||
     
    7977  * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
    8078  * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind.
    81   * ZWS korrigieren (Skript?)
     79  * ZWS (zero-width space U+200B) korrigieren (Skript?)
    8280  * entferne die letzten <image>-tags in den Figures, mit der Ausnahme 83B.
    8381  * ersetze `\\` in <description> durch <lb/>, in <sm> noch unklar. (Siehe auch unten: die Frage der Darstellung von <sm>.)
     
    9593  * markiere alle <s> in kleiner Schrift analog zu `<s xml:id="N4001B1" style="sm">`, zum Beispiel N40565E
    9694  * prüfe alle <s>, die kein Satzzeichen am Ende haben, zum Beispiel N404EFF, N405E70. Vorsicht bei Stellen, wo Text ergänzt wurde, z.B. nach N402826.
    97   * verbotene Zeichen am Anfang von <s>, zum Beispiel ” (kann ich auch schnell selber machen); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun
     95  * verbotene Zeichen am Anfang von <s>, zum Beispiel ” (Artefakt des damaligen <s>-Skripts; kann ich auch schnell selber machen); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun
    9896  * Haben die ASCII-spaces vor </s> irgendeine Bedeutung? Ansonsten entfernen. Auch vor <emph style="sm"> und </head>.
    9997
    10098Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Aber zum Beispiel 麵 kommt nicht vor. (Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?)
    10199
    102 Fehlende und überflüssige Zeichen: Gehe die vom Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-anzeigen.pl b-anzeigen.pl] nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-einfuegen.pl lb-einfuegen.pl] die <lb/> einfügen.
     100Fehlende und überflüssige Zeichen: Gehe die vom Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-anzeigen.pl lb-anzeigen.pl] nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-einfuegen.pl lb-einfuegen.pl] die <lb/> einfügen.
    103101  * Zeichen zuviel: Beispiel 214A [N405E93]
    104102  * Zeichen zuwenig: Beispiel 6B N40015A
     
    136134
    137135  * ein bisschen (aber nicht völlig) analog zu <pb>: <figure> in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
    138   * `< V>` vorläufig als <reg norm="鬵" type="unresolved">鬵</reg>. Explizite Typen einführen, z.B. "variant/auto" (entspricht `< V>`) und "variant?/auto" (bei Zeichen, die an anderer Stelle als `< V>` markiert wurden). Siehe Variantenmarkierung in den DESpecs.
     136  * `< V>` vorläufig als <reg norm="鬵" type="unresolved">鬵</reg>. Explizite Typen einführen, z.B. "variant/auto" (für  mit `< V>` markierte Zeichen) und "variant?/auto" (für Zeichen, die bereits an anderer Stelle als `< V>` markiert wurden). Siehe Variantenmarkierung in den DESpecs.
    139137  * Attribut von <head>: Verschachtelungstiefe. Siehe unten.
    140138  * aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in <figure> etwas wie Unter-Figures oder <teil-figure> erlauben? Problem ist auch: Nach den bisherigen Erfahrungen wird das bei der Transkription nicht funktionieren, wir sprechen also über etwas, was man im post-processing machen müsste.
    141139
    142 Bild mit Beschreibungstext auf Seite 83B / 168 (stimmt das?): Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. Eine Alternative wäre, in <description> das echo.flexible.model zu erlauben: Also
     140Bild mit Beschreibungstext auf Seite 83B / 168: Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. Oder man erlaubt einfach <p> in <figure>?
     141
     142Eine Alternative wäre, in <description> das echo.flexible.model zu erlauben: Also
    143143{{{
    144144echo.description.attlist = echo.inline.attrib
     
    150150echo.description.content = echo.flexible.model
    151151}}}
    152 (und genauso für <cap>, aber nicht für <var>). Die Lösung mit <explanation> kommt mir aber geeigneter vor. Insbesondere weil <description> normalerweise im Bild ist und nicht neben oder unter dem Bild.
     152(und genauso für <caption>, aber nicht für <variables>). Die Lösung mit <explanation> kommt mir aber geeigneter vor. Insbesondere weil <description> normalerweise im Bild ist und nicht neben oder unter dem Bild.
    153153
    154154
    155155=== für den Workflow ===
    156156
    157   * Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern.
     157  * Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen wie zum Beispiel ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern.
    158158  * Die Logik, die <pb> so weit wie möglich in der Hierarchie zu verstecken, habe ich bei diesem Text nicht angewendet. Sollte man das nachholen? Dann müsste zum Beispiel eine Seiten-Figure auch den nachfolgenden <pb> enthalten. Keine technische, sondern eine konzeptionelle Frage. Zumindest bei <div> ist aber klar, dass <pb> hineingezogen wird. Und in <s> könnte man <pb> auch problemlos hineinziehen.
    159159  * In chinesischen Texten können problemlos Überschriften in der letzten Zeile auftreten, das ist also kein Hinweis auf einen Fehler, im Gegensatz zu europäischen Texten. Beispiel 104B, wo man den folgenden Text auf 105A im aufgeschlagenen Buch nebeneinander sieht, und auch 148A / 148B, wo das nicht der Fall ist. (Die Überschrift auf Seite 85B ist wirklich ein footer.) Konsequenterweise müsste man <pb> auch in <head> verschieben. Dieser Fall kommt in europäischen Texten bisher nur bei mehreren Textflows vor, also beispielsweise beim Eipo-Text.
     
    198198  * (im toc ist es wieder anders)
    199199
    200 Lösung wohl einfach, dass <head> (aber wohl nur bei chinesischen Texten) ein Attribut "headlevel" bekommt, siehe oben. Sonst: Eine Überschrift "weiß" von seinem übergeordneten div, wie weit es verschachtelt ist, allerdings fängt die Zählung nicht bei null an.
     200Lösung ist wohl einfach, dass <head> (aber wohl nur bei chinesischen Texten) ein Attribut "headlevel" bekommt, siehe oben. Sonst: Eine Überschrift "weiß" von seinem übergeordneten div, wie weit es verschachtelt ist, allerdings fängt die Zählung nicht bei null an.
    201201
    202202Dann kann ich mir auch die verschachtelten div's im toc sparen. Allerdings funktioniert das dann nur bei chinesischen Texten, nicht bei europäischen.
     
    204204=== figures ===
    205205
    206 Alle Bilder sind Seitenbilder und werden daher nicht ausgeschnitten. Die einzige Ausnahme ist das Bild auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Eine Besonderheit dieses Textes ist also, dass fast alle Figures kein `<image>` haben.
     206Alle Bilder sind Seitenbilder und werden daher nicht ausgeschnitten. (Eine Option für Ansicht mit Bild und Text auf einer Seite statt auf zwei Seiten wäre trotzdem schön.)
     207
     208Die einzige Ausnahme ist das Bild auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Eine Besonderheit dieses Textes ist also, dass fast alle Figures kein `<image>` haben.
    207209
    208210  * Die Lösung, Figures in <div float> rechtsbündig anzuzeigen, funktioniert in diesem chinesischen Text optisch nicht. Vergleiche [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=37 Figure 12] ohne <div float> und [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=42 Figure 13] mit <div float>. Vermutlich sollten wir also doch als Standard nehmen, Bilder linksbündig anzuzeigen. Würde sich die Lage verändern, wenn man in bei den Bildern noch die Position definiert?
    209   * <caption> wird über dem Bild gezeigt, alle <description> hintereinander ohne return oder space neben "[Figure: ...]:" ( [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=385 Beispiel]). Aber descriptions sind keine Unter-Überschriften. Die caption sollte dort gezeigt werden, wo jetzt die descriptions sind. Die descriptions darunter, jeweils in einer neuen Zeile für jede description. (Problem der mehrzeiligen descriptions: sogar noch Leerzeilen zwischen die einzelnen descriptions?)
     211  * <caption> wird über dem Bild gezeigt, alle <description> hintereinander ohne return oder space neben "[Figure: ...]:" ( [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=385 Beispiel]). Aber descriptions sind keine Unter-Überschriften. Die caption sollte dort gezeigt werden, wo jetzt die descriptions sind. Die descriptions dann darunter, jeweils in einer neuen Zeile für jede description. (Problem der mehrzeiligen descriptions: Listenpunkte für die descriptions?)
    210212  * Die Bilder mit <div float> werden nicht korrekt durchnumeriert. Intern stimmt die Numerierung aber: Nach viermal 13 kommt 17.
    211   * Das Symbol für ein fehlendes Bild wird angezeigt unabhängig davon, ob die Figure ein <image> hat oder nicht. Beispiel: Bilder 1-6 haben kein <image>, aber Bild 7 und 10.
     213  * Das Symbol für ein fehlendes Bild wird angezeigt unabhängig davon, ob die Figure ein <image> hat oder nicht. Beispiel: Bilder 1-6 haben kein <image>, aber Bild 7 und 10 haben <image>.
    212214  * Aufruf der [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=%2Fecho%2Fzh%2FSongYingxing_1637.xml&mode=image&pn=1&sn=-1&query-type=figures&query-result-pn=1 Table of Figures] ergibt eine Fehlermeldung.
    213215  * Insbesondere für die Doppelseitenbilder braucht man die umgekehrte links-rechts-Metapher der Pfeile.
     
    220222  * `<s  style="sm">` wirkt nicht korrekt angezeigt: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=15&sn=1 Beispiel]
    221223  * <sm> sollte sich optisch klarer von normal großem Text unterscheiden, d.h. etwas kleinere Schriftgröße in chinesischen Texten (und damit auch in europäischen Texten, wenn man nicht verschiedene CSS-Versionen pflegen will)
    222   * Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=28 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=28 Text]. Im Text wäre das `<lb type="halfline"/>`, was nicht wie ein normaler <lb/> behandelt werden darf, sondern sich nur auf <sm> bezieht. (Das `\\` in table cells wird zu einem normalen <lb/>, weil es hier keine Probleme gibt.) Wäre eine Tabellendarstellung on-the-fly mit einer quais unsichtbaren Tabelle bei cinesischen Texten überhaupt eine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.?
     224  * Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=28 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=28 Text]. Im Text wäre das `<lb type="halfline"/>`, was nicht wie ein normaler <lb/> behandelt werden darf, sondern sich nur auf <sm> bezieht. (Das `\\` in table cells wird zu einem normalen <lb/>, weil es hier keine Probleme gibt.) Wäre denn eine Tabellendarstellung on-the-fly mit einer quasi unsichtbaren Tabelle bei cinesischen Texten eine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.?
    223225  * Und will man das? Dafür spricht, dass es dem Seitenbild besser entspricht. Dagegen spricht, dass es dann eventuell nicht mehr gut lesbar ist. Alternativ kann man die normalen Zeichen größer anzeigen anstatt die kleinen kleiner. (Und man kann nicht garantieren, dass ein sm-Zeichen wirklich die gleiche Höhe wie ein normales Zeichen hat; allerdings wird es  bei gedruckten Büchern fast immer so sein.)
    224226
     
    229231=== Seitenzahlen ===
    230232
    231 Es sollte auch der Name der Halbseite angezeigt werden, also zum Beispiel 168 / 83B und 189 / 84A. Ansonsten ist es mühsam, eine Seite zu finden. Aus dem file-Attribut in <pb> extrahieren, oder neues Attribut? Das o-Attribut passt hier nicht, denn zum Beispiel "83B" steht ja nicht auf der Seite, sondern ist eine nachträgliche Setzung.
     233Es sollte auch der Name der Halbseite angezeigt werden, also zum Beispiel 168 / 83B und 169 / 84A. Ansonsten ist es mühsam, eine Seite zu finden. Aus dem file-Attribut in <pb> extrahieren, oder neues Attribut? Das o-Attribut, in dem die originale Seitenzahl steht, passt hier nicht, denn zum Beispiel "83B" steht ja nicht auf der Seite, sondern ist eine nachträgliche Zählung.
    232234
    233235=== Suche ===
     
    245247=== Nebenfunde ===
    246248
    247 `sn=...` numeriert die Überschriften nicht mit durch, man kann also beispielsweise die Überschriften im Beispiel für `<emph style="sm">` nicht explizit markieren. Bug oder feature?
     249Der URL-Zusatz `&sn=...` numeriert die Überschriften nicht mit durch, man kann also beispielsweise die Überschriften im Beispiel für `<emph style="sm">` nicht explizit markieren. Bug oder feature?
    248250
    249251[http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=%2Fecho%2Fzh%2FSongYingxing_1637.xml&mode=text&pn=28&query-type=&query=&query-result-pn=0 Dieser] Aufruf ergab einmal