Changes between Version 5 and Version 6 of SongYingxing


Ignore:
Timestamp:
Aug 5, 2010, 2:50:28 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • SongYingxing

    v5 v6  
    1111  * div's eingefügt (Skript plus Nachbearbeitung für die hierarchische Struktur)
    1212  * Einrückungen normalisiert
    13 
     13  * Überschriften markiert
    1414
    1515== Fragen zum Text ==
     
    2424Problem des Textes auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Scheint nicht zum Haupttext zu gehören, unterbricht den Haupttext. Deshalb eine Textzeile von Seite 84A auf Seite 83A verschoben.
    2525
    26 Problem der Überschriften, die eigentlich captions für Figure-Gruppen sind: zum Beispiel Seite 14A / 29
     26Problem der Überschriften, die eigentlich captions für Figure-Gruppen sind: zum Beispiel Seite 14A / 29 und 63A / 127. (In beiden Fällen trotzdem ein neues div begonnen.)
    2727
    2828Problem der Doppelseitenbilder: Die Bildhälften passen nicht so zusammen, wie sie gedruckt sind (zum Beispiel 016A und 016B, die auf dem gleichen Blatt gedruckt sind), sondern wenn man das gebundene Buch aufschlägt. Ein Beispiel ("--" bedeutet, dass es auf der entsprechenden Seite keine caption gibt):
     
    6161=== von Dagmar ===
    6262
    63   * div-Struktur prüfen (u.a. preface); part statt chapter für 上, 中, 下?
     63  * div-Struktur prüfen (u.a. preface). Und part statt chapter für 上, 中, 下? Bei europäischen Texten würde eine fortlaufende Abschnitt-Zählung (1-6, 7-13, 14-18) nahelegen, dass es Teile und keine Kapitel sind. Funktioniert diese Logik auch bei chinesischen Texten?
    6464  * neue Textstücke in <s> aufteilen, und interpunktion
     65  * 108B: die identische caption steht zweimal da (im Bild und deshalb auch im Text). Ich habe sie einmal gelöscht, um den Text schemakonform zu machen. Ist das okay?
     66  * Wie sollen die Überschriften vereinheitlicht werden? Beispiel 8B,  稻​工  /  耕 耙 磨耙 耘耔 + <sm>
    6567
    6668=== von mir ===
    6769
    68   * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen?
     70  * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
    6971  * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind.
    7072  * ZWS korrigieren (Skript?)
     
    7678  * entferne überflüssige spaces, insbesondere vor </s>
    7779  * Skript für die Rohfassung des Textes sollte mit <sm> umgehen können
     80  * ersetze <figure/> wieder durch <figure> </figure>, damit kein <image> ergänzt wird
    7881
    7982
     
    8184
    8285  * fehlende Zeichenvarianten einfügen, insbesondere aus Extension B. Siehe Madlens Begleittext: [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.doc DOC], [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.pdf PDF].
    83   * markiere alle <s> in kleiner Schrift
    84   * gehe die vom Skript nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!):
     86  * markiere alle <s> in kleiner Schrift analog zu `<s xml:id="N4001B1" style="sm">`
    8587  * prüfe alle <s>, die kein Satzzeichen am Ende haben
     88  * verbotene Zeichen am Anfang von <s>, zum Beispiel ” (kann ich auch schnell selber machen); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun
     89
     90Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Aber zum Beispiel 麵 kommt nicht vor. (Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?)
     91
     92Fehlende und überflüssige Zeichen: Gehe die vom Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-anzeigen.pl b-anzeigen.pl] nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-einfuegen.pl lb-einfuegen.pl] die <lb/> einfügen.
     93  * Zeichen zuviel: Beispiel 214A [N405E93]
     94  * Zeichen zuwenig: Beispiel 6B N40015A
     95  * Struktur stimmt, aber trotzdem falsche Zeichen (einzelne falsche Zeichen, oder verschobene Stücke): Beispiel N400814 (letztes Zeichen in Zeile 4 stimmt sicher nicht; um eins verschoben)
     96  * <sm> nicht markiert
     97  * Spaces von Aufzählungen nicht eingefügt (aber: will man das denn?)
     98
     99
    86100  * Wenn alle anderen Probleme abgearbeitet sind: Places einfügen, i.e. von den Markierungen auf Papier in den Text eintragen. Vorschlag: Einfach mit ( ) markieren.
    87101
     
    98112  * `< V>` vorläufig als <reg norm="鬵" type="unresolved">鬵</reg>. Explizite Typen einführen, z.B. "variant/auto" (entspricht `< V>`) und "variant?/auto" (bei Zeichen, die an anderer Stelle als `< V>` markiert wurden). Siehe Variantenmarkierung in den DESpecs.
    99113  * Attribut von <head>: Verschachtelungstiefe. Siehe unten.
    100   * aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in <figure> etwas wie Unter-Figures erlauben?
     114  * aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in <figure> etwas wie Unter-Figures oder <teil-figure> erlauben? Problem ist auch: Nach den bisherigen Erfahrungen wird das bei der Transkription nicht funktionieren, wir sprechen also über etwas, was man im post-processing machen müsste.
    101115
    102116Bild mit Beschreibungstext auf Seite 83B / 168 (stimmt das?): Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. Eine Alternative wäre, in <description> das echo.flexible.model zu erlauben: Also
     
    129143=== chinesische Satzzeichen ===
    130144
    131 Manche Satzzeichen werden durch ihre ASCII-Äquivalente ersetzt:
     145Manche Satzzeichen werden fälschlicherweise durch ihre ASCII-Äquivalente ersetzt:
    132146
    133147||= Satzzeichen =||  。 || ! || ? || , || 、 || : || ; ||
    134148||= angezeigt als =|| . || ok || ok || ok || , || ok || ok ||
    135149
    136 Beispiele [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=4 hier]. (Ein bisschen verwirrend ist, dass einige wenige ASCII-Punkte und -Kommas tatsächlich noch im Text enthalten sind. Das wird noch korrigiert.)
    137 
    138 Im Gesamt-XML korrekt, im Seiten-XML ersetzt.
     150Beispiele [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=445&sn=1 hier]. Im Gesamt-XML ist es 。:
     151{{{
     152<s xml:id="N406244" xml:space="preserve">則​又​非​也。</s>
     153}}}
     154aber im Seiten-XML und bei der Textanzeige ist es ein ASCII-Punkt:
     155{{{
     156<s xml:id="N406244" xml:space="preserve">則​又​非​也.</s>
     157}}}
     158
     159(Ein bisschen verwirrend ist, dass einige wenige ASCII-Punkte und -Kommas tatsächlich noch im Text enthalten sind. Das wird noch korrigiert.)
     160
    139161
    140162=== Überschriften ===
    141163
    142 Die Überschriften werden zentriert angezeigt. Bei Absätzen mit <lb/> kann es passieren, dass die Überschrift rechts neben dem Text steht.
     164Die Überschriften werden zentriert angezeigt. Bei Absätzen mit <lb/> kann es passieren, dass die Überschrift rechts neben dem Text steht, zum Beispiel auf Seite 3.
    143165
    144166Die unterschiedlichen Verschachtelungstiefen werden durch die Zentrierung verschleiert. Kann man das ändern? Das Problem ist offensichtlicher als bei europäischen Texten, weil es die Verschachtelung durch Einrückung markiert wird und nicht durch Hinweise im Text. Der Zusammenhang mit der Einrückung ist nicht gradlinig, allerdings sollen die Chinesen `<ti>`, `<h 1>`, `<h 2>` etc. tippen.
     
    157179
    158180  * Die Lösung, Figures in <div float> rechtsbündig anzuzeigen, funktioniert in diesem chinesischen Text optisch nicht. Vergleiche [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=37 Figure 12] ohne <div float> und [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=42 Figure 13] mit <div float>. Vermutlich sollten wir also doch als Standard nehmen, Bilder linksbündig anzuzeigen. Würde sich die Lage verändern, wenn man in bei den Bildern noch die Position definiert?
    159   * <caption> wird über dem Bild gezeigt, alle <description> hintereinander ohne return oder space neben "[Figure: ...]:" ( [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=385 Beispiel]). Die caption sollte dort gezeigt werden, wo jetzt die descriptions sind. Die descriptions darunter, jeweils in einer neuen Zeile für jede description. (Problem der mehrzeiligen descriptions: sogar noch Leerzeilen zwischen die einzelnen descriptions?)
     181  * <caption> wird über dem Bild gezeigt, alle <description> hintereinander ohne return oder space neben "[Figure: ...]:" ( [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=385 Beispiel]). Aber descriptions sind keine Unter-Überschriften. Die caption sollte dort gezeigt werden, wo jetzt die descriptions sind. Die descriptions darunter, jeweils in einer neuen Zeile für jede description. (Problem der mehrzeiligen descriptions: sogar noch Leerzeilen zwischen die einzelnen descriptions?)
    160182  * Die Bilder mit <div float> werden nicht korrekt durchnumeriert. Intern stimmt die Numerierung aber: Nach viermal 13 kommt 17.
    161   * Das Symbol für ein fehlendes Bild wird angezeigt unabhängig davon, ob die Figure ein <image> hat oder nicht.
     183  * Das Symbol für ein fehlendes Bild wird angezeigt unabhängig davon, ob die Figure ein <image> hat oder nicht. Beispiel: Bilder 1-6 haben kein <image>, aber Bild 7 und 10.
    162184  * Aufruf der [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=%2Fecho%2Fzh%2FSongYingxing_1637.xml&mode=image&pn=1&sn=-1&query-type=figures&query-result-pn=1 Table of Figures] ergibt eine Fehlermeldung.
    163185  * Insbesondere für die Doppelseitenbilder braucht man die umgekehrte links-rechts-Metapher der Pfeile.
     
    170192  * `<s  style="sm">` wirkt nicht korrekt angezeigt: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=15&sn=1 Beispiel]
    171193  * <sm> sollte sich optisch klarer von normal großem Text unterscheiden, d.h. etwas kleinere Schriftgröße in chinesischen Texten (und damit auch in europäischen Texten, wenn man nicht verschiedene CSS-Versionen pflegen will)
    172   * Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=28 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=28 Text]. Und will man das? Dafür spricht, dass es dem Seitenbild besser entspricht. Dagegen spricht, dass es dann eventuell nicht mehr gut lesbar ist. (Und man kann nicht garantieren, dass ein sm-Zeichen wirklich die gleiche Höhe wie ein normales Zeichen hat; allerdings wird es  bei gedruckten Büchern fast immer so sein.)
     194  * Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=28 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=28 Text]. Im Text wäre das `<lb type="halfline"/>`, was nicht wie ein normaler <lb/> behandelt werden darf, sondern sich nur auf <sm> bezieht. (Das `\\` in table cells wird zu einem normalen <lb/>, weil es hier keine Probleme gibt.) Wäre eine Tabellendarstellung on-the-fly mit einer quais unsichtbaren Tabelle bei cinesischen Texten überhaupt eine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.?
     195  * Und will man das? Dafür spricht, dass es dem Seitenbild besser entspricht. Dagegen spricht, dass es dann eventuell nicht mehr gut lesbar ist. Alternativ kann man die normalen Zeichen größer anzeigen anstatt die kleinen kleiner. (Und man kann nicht garantieren, dass ein sm-Zeichen wirklich die gleiche Höhe wie ein normales Zeichen hat; allerdings wird es  bei gedruckten Büchern fast immer so sein.)
    173196
    174197=== Table of Contents ===