Changes between Version 9 and Version 10 of SongYingxing
- Timestamp:
- Aug 5, 2010, 7:10:00 PM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
SongYingxing
v9 v10 11 11 * div's eingefügt (Skript plus Nachbearbeitung für die hierarchische Struktur) 12 12 * Einrückungen normalisiert 13 * Überschriften markiert. N403115, N404D1B, N404EB2, N4051B4, N405238: zwei <s> zu einer <head>, inklusive Entfernen einer ID. Erkennbar am Fullwidth-Doppelpunkt in der neuentstandenen heading.13 * Überschriften markiert. N403115, N404D1B, N404EB2, N4051B4, N405238: jeweils zwei <s> zu einer <head>, inklusive Entfernen einer ID. Erkennbar am Fullwidth-Doppelpunkt in der neuentstandenen heading. 14 14 * N404548: typo im Original korrigiert (十三 statt 十一) 15 * wenige Zeichen verbessert: Kurzzeichen in 天工开物 durch Langzeichen ersetzt, ein paar Zeichen in Überschriften ergänzt, N402CA2: space vor 回 eingefügt15 * wenige Zeichen verbessert: Kurzzeichen in 天工开物 durch Langzeichen ersetzt, ein paar Zeichen in Überschriften ergänzt, N402CA2: full-width space vor 回 eingefügt 16 16 17 17 == Fragen zum Text == … … 31 31 == Darstellung der Abbildungen == 32 32 33 Seitenbilder werden nicht ausgeschnitten. 34 35 Problem des Textes auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Scheint nicht zum Haupttext zu gehören, unterbricht den Haupttext. Deshalb eine Textzeile von Seite 84A auf Seite 83A verschoben. 33 Problem des Bildbeschreibungstextes auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Gehört nicht zum Haupttext, sondern unterbricht den Haupttext. Deshalb eine Textzeile von Seite 84A auf Seite 83A verschoben. (Kann man zurückändern, wenn man etwas wie <explanation> einführt, siehe unten.) 36 34 37 35 Problem der Überschriften, die eigentlich captions für Figure-Gruppen sind: zum Beispiel Seite 14A / 29 und 63A / 127. (In beiden Fällen trotzdem ein neues div begonnen.) … … 48 46 || 018A |||| 桔槔 |||| 墜石 井 || 49 47 50 Sollte man auch JPGs der zusammengehörenden Bilder zur Verfügung stellen? Die Bilder wären leichter zu erfassen, aber die Numerierung der Seiten im Anzeigesystem wäre dann (zumindest zurzeit) verwirrender . Man müsste dann auch die Information "014B" etc. anzeigen (das wäre allerdings sowieso sinnvoll!).48 Sollte man auch JPGs der zusammengehörenden Bilder zur Verfügung stellen? Die Bilder wären leichter zu erfassen, aber die Numerierung der Seiten im Anzeigesystem wäre dann (zumindest zurzeit) verwirrender: Unter anderem sieht man der Zahl dann nicht mehr an, ob es eine rechte oder linke Seite ist. Man müsste dann auch die Information "014B" etc. anzeigen (das wäre allerdings sowieso sinnvoll!). 51 49 52 50 || JPG || bisher || nachher || … … 79 77 * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma). 80 78 * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind. 81 * ZWS korrigieren (Skript?)79 * ZWS (zero-width space U+200B) korrigieren (Skript?) 82 80 * entferne die letzten <image>-tags in den Figures, mit der Ausnahme 83B. 83 81 * ersetze `\\` in <description> durch <lb/>, in <sm> noch unklar. (Siehe auch unten: die Frage der Darstellung von <sm>.) … … 95 93 * markiere alle <s> in kleiner Schrift analog zu `<s xml:id="N4001B1" style="sm">`, zum Beispiel N40565E 96 94 * prüfe alle <s>, die kein Satzzeichen am Ende haben, zum Beispiel N404EFF, N405E70. Vorsicht bei Stellen, wo Text ergänzt wurde, z.B. nach N402826. 97 * verbotene Zeichen am Anfang von <s>, zum Beispiel ” ( kann ich auch schnell selber machen); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun95 * verbotene Zeichen am Anfang von <s>, zum Beispiel ” (Artefakt des damaligen <s>-Skripts; kann ich auch schnell selber machen); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun 98 96 * Haben die ASCII-spaces vor </s> irgendeine Bedeutung? Ansonsten entfernen. Auch vor <emph style="sm"> und </head>. 99 97 100 98 Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Aber zum Beispiel 麵 kommt nicht vor. (Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?) 101 99 102 Fehlende und überflüssige Zeichen: Gehe die vom Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-anzeigen.pl b-anzeigen.pl] nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-einfuegen.pl lb-einfuegen.pl] die <lb/> einfügen.100 Fehlende und überflüssige Zeichen: Gehe die vom Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-anzeigen.pl lb-anzeigen.pl] nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-einfuegen.pl lb-einfuegen.pl] die <lb/> einfügen. 103 101 * Zeichen zuviel: Beispiel 214A [N405E93] 104 102 * Zeichen zuwenig: Beispiel 6B N40015A … … 136 134 137 135 * ein bisschen (aber nicht völlig) analog zu <pb>: <figure> in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent. 138 * `< V>` vorläufig als <reg norm="鬵" type="unresolved">鬵</reg>. Explizite Typen einführen, z.B. "variant/auto" ( entspricht `< V>`) und "variant?/auto" (bei Zeichen, diean anderer Stelle als `< V>` markiert wurden). Siehe Variantenmarkierung in den DESpecs.136 * `< V>` vorläufig als <reg norm="鬵" type="unresolved">鬵</reg>. Explizite Typen einführen, z.B. "variant/auto" (für mit `< V>` markierte Zeichen) und "variant?/auto" (für Zeichen, die bereits an anderer Stelle als `< V>` markiert wurden). Siehe Variantenmarkierung in den DESpecs. 139 137 * Attribut von <head>: Verschachtelungstiefe. Siehe unten. 140 138 * aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in <figure> etwas wie Unter-Figures oder <teil-figure> erlauben? Problem ist auch: Nach den bisherigen Erfahrungen wird das bei der Transkription nicht funktionieren, wir sprechen also über etwas, was man im post-processing machen müsste. 141 139 142 Bild mit Beschreibungstext auf Seite 83B / 168 (stimmt das?): Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. Eine Alternative wäre, in <description> das echo.flexible.model zu erlauben: Also 140 Bild mit Beschreibungstext auf Seite 83B / 168: Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. Oder man erlaubt einfach <p> in <figure>? 141 142 Eine Alternative wäre, in <description> das echo.flexible.model zu erlauben: Also 143 143 {{{ 144 144 echo.description.attlist = echo.inline.attrib … … 150 150 echo.description.content = echo.flexible.model 151 151 }}} 152 (und genauso für <cap >, aber nicht für <var>). Die Lösung mit <explanation> kommt mir aber geeigneter vor. Insbesondere weil <description> normalerweise im Bild ist und nicht neben oder unter dem Bild.152 (und genauso für <caption>, aber nicht für <variables>). Die Lösung mit <explanation> kommt mir aber geeigneter vor. Insbesondere weil <description> normalerweise im Bild ist und nicht neben oder unter dem Bild. 153 153 154 154 155 155 === für den Workflow === 156 156 157 * Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern.157 * Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen wie zum Beispiel ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern. 158 158 * Die Logik, die <pb> so weit wie möglich in der Hierarchie zu verstecken, habe ich bei diesem Text nicht angewendet. Sollte man das nachholen? Dann müsste zum Beispiel eine Seiten-Figure auch den nachfolgenden <pb> enthalten. Keine technische, sondern eine konzeptionelle Frage. Zumindest bei <div> ist aber klar, dass <pb> hineingezogen wird. Und in <s> könnte man <pb> auch problemlos hineinziehen. 159 159 * In chinesischen Texten können problemlos Überschriften in der letzten Zeile auftreten, das ist also kein Hinweis auf einen Fehler, im Gegensatz zu europäischen Texten. Beispiel 104B, wo man den folgenden Text auf 105A im aufgeschlagenen Buch nebeneinander sieht, und auch 148A / 148B, wo das nicht der Fall ist. (Die Überschrift auf Seite 85B ist wirklich ein footer.) Konsequenterweise müsste man <pb> auch in <head> verschieben. Dieser Fall kommt in europäischen Texten bisher nur bei mehreren Textflows vor, also beispielsweise beim Eipo-Text. … … 198 198 * (im toc ist es wieder anders) 199 199 200 Lösung wohl einfach, dass <head> (aber wohl nur bei chinesischen Texten) ein Attribut "headlevel" bekommt, siehe oben. Sonst: Eine Überschrift "weiß" von seinem übergeordneten div, wie weit es verschachtelt ist, allerdings fängt die Zählung nicht bei null an.200 Lösung ist wohl einfach, dass <head> (aber wohl nur bei chinesischen Texten) ein Attribut "headlevel" bekommt, siehe oben. Sonst: Eine Überschrift "weiß" von seinem übergeordneten div, wie weit es verschachtelt ist, allerdings fängt die Zählung nicht bei null an. 201 201 202 202 Dann kann ich mir auch die verschachtelten div's im toc sparen. Allerdings funktioniert das dann nur bei chinesischen Texten, nicht bei europäischen. … … 204 204 === figures === 205 205 206 Alle Bilder sind Seitenbilder und werden daher nicht ausgeschnitten. Die einzige Ausnahme ist das Bild auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Eine Besonderheit dieses Textes ist also, dass fast alle Figures kein `<image>` haben. 206 Alle Bilder sind Seitenbilder und werden daher nicht ausgeschnitten. (Eine Option für Ansicht mit Bild und Text auf einer Seite statt auf zwei Seiten wäre trotzdem schön.) 207 208 Die einzige Ausnahme ist das Bild auf Seite [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=168 83B / 168]. Eine Besonderheit dieses Textes ist also, dass fast alle Figures kein `<image>` haben. 207 209 208 210 * Die Lösung, Figures in <div float> rechtsbündig anzuzeigen, funktioniert in diesem chinesischen Text optisch nicht. Vergleiche [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=37 Figure 12] ohne <div float> und [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=42 Figure 13] mit <div float>. Vermutlich sollten wir also doch als Standard nehmen, Bilder linksbündig anzuzeigen. Würde sich die Lage verändern, wenn man in bei den Bildern noch die Position definiert? 209 * <caption> wird über dem Bild gezeigt, alle <description> hintereinander ohne return oder space neben "[Figure: ...]:" ( [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=385 Beispiel]). Aber descriptions sind keine Unter-Überschriften. Die caption sollte dort gezeigt werden, wo jetzt die descriptions sind. Die descriptions da runter, jeweils in einer neuen Zeile für jede description. (Problem der mehrzeiligen descriptions: sogar noch Leerzeilen zwischen die einzelnendescriptions?)211 * <caption> wird über dem Bild gezeigt, alle <description> hintereinander ohne return oder space neben "[Figure: ...]:" ( [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=385 Beispiel]). Aber descriptions sind keine Unter-Überschriften. Die caption sollte dort gezeigt werden, wo jetzt die descriptions sind. Die descriptions dann darunter, jeweils in einer neuen Zeile für jede description. (Problem der mehrzeiligen descriptions: Listenpunkte für die descriptions?) 210 212 * Die Bilder mit <div float> werden nicht korrekt durchnumeriert. Intern stimmt die Numerierung aber: Nach viermal 13 kommt 17. 211 * Das Symbol für ein fehlendes Bild wird angezeigt unabhängig davon, ob die Figure ein <image> hat oder nicht. Beispiel: Bilder 1-6 haben kein <image>, aber Bild 7 und 10 .213 * Das Symbol für ein fehlendes Bild wird angezeigt unabhängig davon, ob die Figure ein <image> hat oder nicht. Beispiel: Bilder 1-6 haben kein <image>, aber Bild 7 und 10 haben <image>. 212 214 * Aufruf der [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=%2Fecho%2Fzh%2FSongYingxing_1637.xml&mode=image&pn=1&sn=-1&query-type=figures&query-result-pn=1 Table of Figures] ergibt eine Fehlermeldung. 213 215 * Insbesondere für die Doppelseitenbilder braucht man die umgekehrte links-rechts-Metapher der Pfeile. … … 220 222 * `<s style="sm">` wirkt nicht korrekt angezeigt: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=15&sn=1 Beispiel] 221 223 * <sm> sollte sich optisch klarer von normal großem Text unterscheiden, d.h. etwas kleinere Schriftgröße in chinesischen Texten (und damit auch in europäischen Texten, wenn man nicht verschiedene CSS-Versionen pflegen will) 222 * Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=28 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=28 Text]. Im Text wäre das `<lb type="halfline"/>`, was nicht wie ein normaler <lb/> behandelt werden darf, sondern sich nur auf <sm> bezieht. (Das `\\` in table cells wird zu einem normalen <lb/>, weil es hier keine Probleme gibt.) Wäre eine Tabellendarstellung on-the-fly mit einer quais unsichtbaren Tabelle bei cinesischen Texten überhaupteine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.?224 * Ist es technisch möglich, <sm> wie im Buch in zwei Reihen darzustellen, die zusammen genauso hoch sind wie ein normales Zeichen? Beispiel [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=28 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=28 Text]. Im Text wäre das `<lb type="halfline"/>`, was nicht wie ein normaler <lb/> behandelt werden darf, sondern sich nur auf <sm> bezieht. (Das `\\` in table cells wird zu einem normalen <lb/>, weil es hier keine Probleme gibt.) Wäre denn eine Tabellendarstellung on-the-fly mit einer quasi unsichtbaren Tabelle bei cinesischen Texten eine sinnvolle Lösung? Oder erzeugt das weitere Probleme beim Suchen, cut&paste, etc.? 223 225 * Und will man das? Dafür spricht, dass es dem Seitenbild besser entspricht. Dagegen spricht, dass es dann eventuell nicht mehr gut lesbar ist. Alternativ kann man die normalen Zeichen größer anzeigen anstatt die kleinen kleiner. (Und man kann nicht garantieren, dass ein sm-Zeichen wirklich die gleiche Höhe wie ein normales Zeichen hat; allerdings wird es bei gedruckten Büchern fast immer so sein.) 224 226 … … 229 231 === Seitenzahlen === 230 232 231 Es sollte auch der Name der Halbseite angezeigt werden, also zum Beispiel 168 / 83B und 1 89 / 84A. Ansonsten ist es mühsam, eine Seite zu finden. Aus dem file-Attribut in <pb> extrahieren, oder neues Attribut? Das o-Attribut passt hier nicht, denn zum Beispiel "83B" steht ja nicht auf der Seite, sondern ist eine nachträgliche Setzung.233 Es sollte auch der Name der Halbseite angezeigt werden, also zum Beispiel 168 / 83B und 169 / 84A. Ansonsten ist es mühsam, eine Seite zu finden. Aus dem file-Attribut in <pb> extrahieren, oder neues Attribut? Das o-Attribut, in dem die originale Seitenzahl steht, passt hier nicht, denn zum Beispiel "83B" steht ja nicht auf der Seite, sondern ist eine nachträgliche Zählung. 232 234 233 235 === Suche === … … 245 247 === Nebenfunde === 246 248 247 `sn=...` numeriert die Überschriften nicht mit durch, man kann also beispielsweise die Überschriften im Beispiel für `<emph style="sm">` nicht explizit markieren. Bug oder feature?249 Der URL-Zusatz `&sn=...` numeriert die Überschriften nicht mit durch, man kann also beispielsweise die Überschriften im Beispiel für `<emph style="sm">` nicht explizit markieren. Bug oder feature? 248 250 249 251 [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=%2Fecho%2Fzh%2FSongYingxing_1637.xml&mode=text&pn=28&query-type=&query=&query-result-pn=0 Dieser] Aufruf ergab einmal