Changes between Version 2 and Version 3 of SongYingxing-specific
- Timestamp:
- Aug 25, 2010, 4:06:07 PM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
SongYingxing-specific
v2 v3 20 20 * wenige Zeichen verbessert: Kurzzeichen in 天工开物 durch Langzeichen ersetzt, ein paar Zeichen in Überschriften ergänzt, N402CA2: full-width space vor 回 eingefügt 21 21 22 == Fragen zum Text == 22 * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma). 23 * ja, einfach ersetzen (ok) 24 * entferne überflüssige spaces, insbesondere vor </s>, auch vor <emph style="sm"> und </head>. 25 * ja, entfernen vor </s> etc. (ok) 26 * Skript für die Rohfassung des Textes sollte mit <sm> umgehen können; beachte <sm> über Zeilenumbruch hinaus 27 * Seitenbilder kopieren: erledigt. 28 29 == beantwortete Fragen zum Text == 23 30 24 31 * div-Struktur: part statt chapter für 上, 中, 下? Bei europäischen Texten würde eine fortlaufende Abschnitt-Zählung (1-6, 7-13, 14-18) nahelegen, dass es Teile und keine Kapitel sind. Funktioniert diese Logik auch bei chinesischen Texten? … … 54 61 * Ähnlich wie 8B, aber Unterschied: Dort keine neuen Absätze, sondern Teile in einem Absatz. 55 62 56 57 == noch zu tun == 58 59 === von Dagmar === 63 == erledigte Fragen zur Struktur == 60 64 61 65 * div-Struktur prüfen (u.a. preface). Ist die unterste Ebene sinnvoll oder störend (vermutlich sinnvoll, siehe auch Übersetzung)? … … 67 71 * Seitenzahlen im Buch nachtragen? Zum Beispiel 6A/B ist 一, etc. (getrennt für jeden der drei Teile) 68 72 69 === = Treffen 2010-08-18 ====73 === Treffen 2010-08-18 === 70 74 71 75 Grundsätzliches: … … 83 87 * 207B: als Liste markieren, nicht als Absätze; 208A: die beiden Punkte in einer Zeile sind nicht in einer Zeile, weil es optisch zufällig passt, sondern es hat eine Bedeutung. Wiedergeben in einer Zeile. (Bzw. Unterpunkt?) (vorläufig erledigt, siehe unten) 84 88 85 86 ==== Seitenzahlen ==== 89 === Seitenzahlen === 87 90 88 91 Offsets der drei Teile: 89 92 || 1 || 5 || 90 93 || 2 || 85 || 91 || 3 || 162, 161 || 92 93 Seitenzahlen: 94 * preface: 94 || 3 || 162 bzw. 161 || 95 96 Bei der Schreibweise der Zahlen wird 十 falls möglich weggelassen, also bei Zahlen ab 21, außer bei 20, 30, 40, etc. 97 98 * preface: 1A = 一a (offset 0) 99 * 0 keine Seitenzahl 95 100 * 1-3 ok 96 101 * 4-5 keine Seitenzahlen 97 102 * part 1: 6A = 一a (offset 5) 98 * 6-85: 十 falls möglich weglassen103 * 6-85: ok 99 104 * part 2: 86A = 一a (offset 85) 100 * 86-162: 十 falls möglich weglassen105 * 86-162: ok 101 106 * Ausnahmen 111-113 mit 十 102 107 * part 3: 163A = 一a (offset 162) 103 * 163-227: 十 falls möglich weglassen108 * 163-227: ok 104 109 * Ausnahmen 183, 184, 187 mit 十 105 110 * Ausnahme 185: "二十三 四", danach offset 161 106 111 * 228-230: keine Seitenzahl 107 112 108 109 ==== Martina zu small text ==== 113 === Martina zu small text === 110 114 111 115 Es gibt small text, der eindeutig wie eine Fußnote ist: "dieses Zeichen wird ... gelesen", oder die Quelle eines Zitats. Beispiele angucken: … … 120 124 Genauer: Es kann ein generisches <sm> geben, oder der Bearbeiter eines Textes kann entscheiden, ob small text im Text, als Fußnoten oder als textflows angezeigt wird. Wenn der Bearbeiter das nicht im XML festlegt (wie?), kann der User es im Anzeigesystem wählen. Es geht also um die Frage, ob man mehrere Modi überhaupt erlauben soll. 121 125 122 Für den vorliegenden Text hat die Bearbeiter ein jedenfalls die Entscheidung getroffen: Im Text lassen. Diesen Modus muss es also auf alle Fälle geben. Wahrscheinlich ist es auch der default-Modus für <sm>.126 Für den vorliegenden Text hat die Bearbeiterin jedenfalls die Entscheidung getroffen: Im Text lassen. Diesen Modus muss es also auf alle Fälle geben. Wahrscheinlich ist es auch der default-Modus für <sm>. 123 127 124 128 … … 127 131 === von mir === 128 132 129 * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma). 130 * ja, einfach ersetzen (ok) 131 * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind. (auch <div float>! Helper-script schreiben!) 133 * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind. (teilweise erledigt, aber auch <div float>! Helper-script schreiben!) 132 134 * ZWS (zero-width space U+200B) korrigieren (Skript?) 133 * ersetze `\\` in <description> durch <lb/> (erledigt), in <sm> noch unklar. (Siehe auch unten: die Frage der Darstellung von <sm>.)135 * ersetze `\\` in <description> durch <lb/> (erledigt), in <sm> noch unklar. (Siehe auch: die Frage der Darstellung von <sm>.) 134 136 * <pb> tiefer in die Hierarchie? Und andersrum: <pb> auf eigene Zeile wie in westlichen Texten? Optisch eigentlich nicht nötig, weil die <s> sehr kurz sind. 135 137 * Title: Sprachkürzel für Pinyin? 136 * entferne überflüssige spaces, insbesondere vor </s>, auch vor <emph style="sm"> und </head>.137 * ja, entfernen vor </s> etc. (ok)138 * Skript für die Rohfassung des Textes sollte mit <sm> umgehen können; beachte <sm> über Zeilenumbruch hinaus139 138 * nach dem Einfügen von <s> und Interpunktion nochmal normalisieren, zum Beispiel beim eingefügten Text 25B / 26A. Beachte insbesondere längere Stellen wie N405661, N4057D8, N4061DE, N406241, wo die <lb> zurzeit als returns drin sind. 140 139 * am Ende: fehlende xml:id ergänzen … … 147 146 === von einem Studenten === 148 147 149 * Seitenbilder kopieren: erledigt.150 148 * fehlende Zeichenvarianten einfügen, insbesondere aus Extension B. Siehe Madlens Begleittext: [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.doc DOC], [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.pdf PDF]. Siehe auch @ im Text. 151 149 * verbotene Zeichen am Anfang von <s>, zum Beispiel ” (Artefakt des damaligen <s>-Skripts; für ” habe ich es schon gemacht); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun … … 176 174 * Mache eine Liste aller Stellen, wo die <s> und <sm> sich beißen würden. Beispiel N405817 ff und N405BF2 ff. 177 175 178 Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet?Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Deshalb kann man es nicht blind ersetzen.176 Problem von inkorrekten Langzeichen: Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Deshalb kann man es nicht blind ersetzen. 179 177 * Aber zum Beispiel 麵 kommt nicht vor. 180 178 * Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ? … … 192 190 * Das ist so nicht richtig. Das Zeichen kommt zweimal vor, also zwei identische descriptions mit je einem Zeichen. Und: Nach den specs dann nur einmal tippen. (Aber: wenn es schon mal da ist, drinlassen?) 193 191 * 43A: <caption>印架 過糊</caption> 194 * Zwei Teile, also entweder space, oder zwei descriptions, oder Komma. Das soll Dagmar entscheiden. 192 * Zwei Teile, also entweder space, oder zwei descriptions, oder Komma. Das soll Dagmar entscheiden. Nach der Logik von 108B: einfach ein ideographic space dazwischen. 195 193 * N40386D, N403973, N403C49, N403E5B, N403F0E, N404786, N404864, N40487F, N4048AB, etc. 196 194 * N40386D: da fehlt nichts, man kann den space einfach wegmachen. (Rest nicht angeschaut.)