Changes between Version 2 and Version 3 of SongYingxing-specific


Ignore:
Timestamp:
Aug 25, 2010, 4:06:07 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • SongYingxing-specific

    v2 v3  
    2020  * wenige Zeichen verbessert: Kurzzeichen in 天工开物 durch Langzeichen ersetzt, ein paar Zeichen in Überschriften ergänzt, N402CA2: full-width space vor 回 eingefügt
    2121
    22 == Fragen zum Text ==
     22  * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
     23    * ja, einfach ersetzen (ok)
     24  * entferne überflüssige spaces, insbesondere vor </s>, auch vor <emph style="sm"> und </head>.
     25    * ja, entfernen vor </s> etc. (ok)
     26  * Skript für die Rohfassung des Textes sollte mit <sm> umgehen können; beachte <sm> über Zeilenumbruch hinaus
     27  * Seitenbilder kopieren: erledigt.
     28
     29== beantwortete Fragen zum Text ==
    2330
    2431  * div-Struktur: part statt chapter für 上, 中, 下? Bei europäischen Texten würde eine fortlaufende Abschnitt-Zählung (1-6, 7-13, 14-18) nahelegen, dass es Teile und keine Kapitel sind. Funktioniert diese Logik auch bei chinesischen Texten?
     
    5461    * Ähnlich wie 8B, aber Unterschied: Dort keine neuen Absätze, sondern Teile in einem Absatz.
    5562
    56 
    57 == noch zu tun ==
    58 
    59 === von Dagmar ===
     63== erledigte Fragen zur Struktur ==
    6064
    6165  * div-Struktur prüfen (u.a. preface). Ist die unterste Ebene sinnvoll oder störend (vermutlich sinnvoll, siehe auch Übersetzung)?
     
    6771  * Seitenzahlen im Buch nachtragen? Zum Beispiel 6A/B ist 一, etc. (getrennt für jeden der drei Teile)
    6872
    69 ==== Treffen 2010-08-18 ====
     73=== Treffen 2010-08-18 ===
    7074
    7175Grundsätzliches:
     
    8387  * 207B: als Liste markieren, nicht als Absätze; 208A: die beiden Punkte in einer Zeile sind nicht in einer Zeile, weil es optisch zufällig passt, sondern es hat eine Bedeutung. Wiedergeben in einer Zeile. (Bzw. Unterpunkt?) (vorläufig erledigt, siehe unten)
    8488
    85 
    86 ==== Seitenzahlen ====
     89=== Seitenzahlen ===
    8790
    8891Offsets der drei Teile:
    8992|| 1 || 5 ||
    9093|| 2 ||  85 ||
    91 || 3 ||  162, 161 ||
    92 
    93 Seitenzahlen:
    94   * preface:
     94|| 3 ||  162 bzw. 161 ||
     95
     96Bei der Schreibweise der Zahlen wird 十 falls möglich weggelassen, also bei Zahlen ab 21, außer bei 20, 30, 40, etc.
     97
     98  * preface: 1A = 一a  (offset 0)
     99    * 0 keine Seitenzahl
    95100    * 1-3 ok
    96101    * 4-5 keine Seitenzahlen
    97102  * part 1: 6A = 一a (offset 5)
    98     * 6-85: 十 falls möglich weglassen
     103    * 6-85: ok
    99104  * part 2: 86A = 一a  (offset 85)
    100     * 86-162: 十 falls möglich weglassen
     105    * 86-162: ok
    101106    * Ausnahmen 111-113 mit 十
    102107  * part 3: 163A = 一a (offset 162)
    103     * 163-227: 十 falls möglich weglassen
     108    * 163-227: ok
    104109    * Ausnahmen 183, 184, 187 mit 十
    105110    * Ausnahme 185: "二十三 四", danach offset 161
    106111    * 228-230: keine Seitenzahl
    107112
    108 
    109 ==== Martina zu small text ====
     113=== Martina zu small text ===
    110114
    111115Es gibt small text, der eindeutig wie eine Fußnote ist: "dieses Zeichen wird ... gelesen", oder die Quelle eines Zitats. Beispiele angucken:
     
    120124Genauer: Es kann ein generisches <sm> geben, oder der Bearbeiter eines Textes kann entscheiden, ob small text im Text, als Fußnoten oder als textflows angezeigt wird. Wenn der Bearbeiter das nicht im XML festlegt (wie?), kann der User es im Anzeigesystem wählen. Es geht also um die Frage, ob man mehrere Modi überhaupt erlauben soll.
    121125
    122 Für den vorliegenden Text hat die Bearbeiterein jedenfalls die Entscheidung getroffen: Im Text lassen. Diesen Modus muss es also auf alle Fälle geben. Wahrscheinlich ist es auch der default-Modus für <sm>.
     126Für den vorliegenden Text hat die Bearbeiterin jedenfalls die Entscheidung getroffen: Im Text lassen. Diesen Modus muss es also auf alle Fälle geben. Wahrscheinlich ist es auch der default-Modus für <sm>.
    123127
    124128
     
    127131=== von mir ===
    128132
    129   * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
    130     * ja, einfach ersetzen (ok)
    131   * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind. (auch <div float>! Helper-script schreiben!)
     133  * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind. (teilweise erledigt, aber auch <div float>! Helper-script schreiben!)
    132134  * ZWS (zero-width space U+200B) korrigieren (Skript?)
    133   * ersetze `\\` in <description> durch <lb/> (erledigt), in <sm> noch unklar. (Siehe auch unten: die Frage der Darstellung von <sm>.)
     135  * ersetze `\\` in <description> durch <lb/> (erledigt), in <sm> noch unklar. (Siehe auch: die Frage der Darstellung von <sm>.)
    134136  * <pb> tiefer in die Hierarchie? Und andersrum: <pb> auf eigene Zeile wie in westlichen Texten? Optisch eigentlich nicht nötig, weil die <s> sehr kurz sind.
    135137  * Title: Sprachkürzel für Pinyin?
    136   * entferne überflüssige spaces, insbesondere vor </s>, auch vor <emph style="sm"> und </head>.
    137     * ja, entfernen vor </s> etc. (ok)
    138   * Skript für die Rohfassung des Textes sollte mit <sm> umgehen können; beachte <sm> über Zeilenumbruch hinaus
    139138  * nach dem Einfügen von <s> und Interpunktion nochmal normalisieren, zum Beispiel beim eingefügten Text 25B / 26A. Beachte insbesondere längere Stellen wie N405661, N4057D8, N4061DE, N406241, wo die <lb> zurzeit als returns drin sind.
    140139  * am Ende: fehlende xml:id ergänzen
     
    147146=== von einem Studenten ===
    148147
    149   * Seitenbilder kopieren: erledigt.
    150148  * fehlende Zeichenvarianten einfügen, insbesondere aus Extension B. Siehe Madlens Begleittext: [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.doc DOC], [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.pdf PDF]. Siehe auch @ im Text.
    151149  * verbotene Zeichen am Anfang von <s>, zum Beispiel ” (Artefakt des damaligen <s>-Skripts; für ” habe ich es schon gemacht); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun
     
    176174  * Mache eine Liste aller Stellen, wo die <s> und <sm> sich beißen würden. Beispiel N405817 ff und N405BF2 ff.
    177175
    178 Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Deshalb kann man es nicht blind ersetzen.
     176Problem von inkorrekten Langzeichen: Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Deshalb kann man es nicht blind ersetzen.
    179177  * Aber zum Beispiel 麵 kommt nicht vor.
    180178  * Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?
     
    192190    * Das ist so nicht richtig. Das Zeichen kommt zweimal vor, also zwei identische descriptions mit je einem Zeichen. Und: Nach den specs dann nur einmal tippen. (Aber: wenn es schon mal da ist, drinlassen?)
    193191  * 43A: <caption>印架 過糊</caption>
    194     * Zwei Teile, also entweder space, oder zwei descriptions, oder Komma. Das soll Dagmar entscheiden.
     192    * Zwei Teile, also entweder space, oder zwei descriptions, oder Komma. Das soll Dagmar entscheiden. Nach der Logik von 108B: einfach ein ideographic space dazwischen.
    195193  * N40386D, N403973, N403C49, N403E5B, N403F0E, N404786, N404864, N40487F, N4048AB, etc.
    196194    * N40386D: da fehlt nichts, man kann den space einfach wegmachen. (Rest nicht angeschaut.)