Changes between Version 38 and Version 39 of SongYingxing


Ignore:
Timestamp:
Aug 10, 2010, 2:34:41 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • SongYingxing

    v38 v39  
    5959
    6060  * div-Struktur prüfen (u.a. preface). Ist die unterste Ebene sinnvoll oder störend (ich finde sie sinnvoll)?
    61   * neue Textstücke in <s> aufteilen, und interpunktion (Liste machen? Insbesondere die <s> ohne xml:id)
    62   * <sm> in <p> als note herausziehen, oder drinlassen? Bisher war die Idee, es als note herauszuziehen, allerdings wurde es bisher noch nie gemacht, weil die chinesischen Texte noch nicht umgewandelt wurden. Es gibt, trotz der suggestiven Aufteilung in <s>, keine technischen Gründe dagegen. Testweise beide Versionen erzeugen und dann vergleichen? -- Die Entscheidung bei den <sm> hängt offenbar vom Text ab. Kann auch textflows wie bei den Conimbricenses sein, also Original und Kommentar. Song Yingxing: Probehalber herausziehen? Das Skript dafür muss man sowieso schreiben. Jedenfalls: Fußnoten und nicht Marginalien.
     61  * neue Textstücke in <s> aufteilen, und interpunktion, und Beispiel N405817 ff und N405BF2 ff: umstrukturieren, damit es mit <sm> übereinstimmt? (Liste machen? Insbesondere die <s> ohne xml:id)
     62  * <sm> in <p> als note herausziehen, oder drinlassen? Siehe auch Workflow: small text, und Textanzeige: small text.
    6363  * GIS: was wird markiert?
    6464
     
    7272  * <pb> tiefer in die Hierarchie? Und andersrum: <pb> auf eigene Zeile wie in westlichen Texten? Optisch eigentlich nicht nötig, weil die <s> sehr kurz sind.
    7373  * Title: Sprachkürzel für Pinyin?
    74   * entferne überflüssige spaces, insbesondere vor </s>
    75     * ja, entfernen vor </s> (ok)
     74  * entferne überflüssige spaces, insbesondere vor </s>, auch vor <emph style="sm"> und </head>.
     75    * ja, entfernen vor </s> etc. (ok)
    7676  * Skript für die Rohfassung des Textes sollte mit <sm> umgehen können; beachte <sm> über Zeilenumbruch hinaus
    7777  * nach dem Einfügen von <s> und Interpunktion nochmal normalisieren, zum Beispiel beim eingefügten Text 25B / 26A. Beachte insbesondere längere Stellen wie N405661, N4057D8, N4061DE, N406241, wo die <lb> zurzeit als returns drin sind.
     
    8181  * Problem der Zeichenvarianten, aber nur 1x < V>: noch ungeklärt.
    8282  * Text für authority file
    83 
     83  * Änderungen in echo-chinese-text (siehe unten):
     84    * <sm>
     85    * "variant/auto", "variant?/auto"
     86    * headlevel (oder nur level)? wenn, dann optional
     87    * figure: <part>? <explanation> oder <subcaption>?
     88   
    8489
    8590=== von einem Studenten ===
    8691
    8792  * fehlende Zeichenvarianten einfügen, insbesondere aus Extension B. Siehe Madlens Begleittext: [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.doc DOC], [source:trunk/texts/SongYingxing_1637/variant-problems/SongEchoKorrupteZeichen.pdf PDF]. Siehe auch @ im Text.
    88   * markiere alle <s> in kleiner Schrift analog zu `<s xml:id="N4001B1" style="sm">`, zum Beispiel N40565E
     93  * markiere alle <s> in kleiner Schrift, zum Beispiel N40565E, analog zu
     94{{{
     95<p xml:id="N40019A">
     96        ...
     97        <s xml:id="N4001AB">米​曰​<pb file="X06.01.007A" n="15"/>糯。</s>
     98        <sm>
     99                <s xml:id="N4001B1">南​方​無​粘​黍,</s>
     100                <s xml:id="N4001B4">酒​<hb/>皆​糯​米​所​為。</s>
     101        </sm>
     102        <s xml:id="N4001B7">質​本​粳​而​晚​收​帶​粘​俗​名​婺​源​光​之​類​不​可​為​酒,</s>
     103        ...
     104</p>
     105}}}
     106  (Das <hb/> ist hier nur zur Veranschaulichung. Die <hb/> muss man nicht per Hand hineinmachen, das geht im wesentlichen automatisch.)
     107  * Mache eine Liste aller Stellen, wo die <s> und <sm> sich beißen würden. Beispiel N405817 ff und N405BF2 ff.
    89108  * prüfe alle <s>, die kein Satzzeichen am Ende haben, zum Beispiel N404EFF, N405E70. Vorsicht bei Stellen, wo Text ergänzt wurde, z.B. nach N402826.
    90109  * verbotene Zeichen am Anfang von <s>, zum Beispiel ” (Artefakt des damaligen <s>-Skripts; für ” habe ich es schon gemacht); überhaupt wäre es am besten, alles zwischen “ und ” in ein einziges <s> zu tun
    91   * Haben die ASCII-spaces vor </s> irgendeine Bedeutung? Ansonsten entfernen. Auch vor <emph style="sm"> und </head>.
    92110  * Text durchgehen auf Absatzenden (i.e. unvollständige Zeilen), zum Beispiel 194B, 195A.
    93111  * spaces und large spaces in Überschriften, immer als genau ein ideographic space (ok für ch. 1-3)
    94   * Large spaces in Absätzen: markieren mit # (Was machen wir dann daraus? Zum Beispiel large spaces zu Doppelpunkten wenigstens in Überschriften, siehe 8B; wird nicht immer sinnvoll sein, insbesondere bei mehr als einem large space.)
    95 
    96 Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Aber zum Beispiel 麵 kommt nicht vor. (Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?)
    97   * Ja, das könnte die Aneinanderreihung von zwei Fehlern sein. im Buch 左 "links", im XML 後 / 后 "danach", bedeutet (hier) das gleiche. In ursprünglich abgetippten Text könnte auch "danach" gestanden haben.
    98 
     112  * Large spaces in Absätzen: markieren mit #
     113
     114Problem von inkorrekten Langzeichen: Haben die Taiwanesen nach dem Abtippen einen Konverter verwendet? Beispiel Seite 300: Das letzte Zeichen vor der Überschrift (in N404302) ist falsch: [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=image&pn=300 Bild], [http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/page-query-result.xql?document=/echo/zh/SongYingxing_1637.xml&mode=text&pn=300 Text]. Das zugrundeliegende Problem ist offenbar, dass das korrekte Zeichen 云 als Kurzzeichen interpretiert und durch das Langzeichen 雲 ersetzt wurde. Ebenso falsch in N4007E2, N4047A1, aber möglicherweise ist 雲 an anderen Stellen korrekt. Deshalb kann man es nicht blind ersetzen.
     115  * Aber zum Beispiel 麵 kommt nicht vor.
     116  * Und das letzte Zeichen auf Seite 168B / 338 ist im Text 後, das Kurzzeichen wäre 后. Im Buch steht aber 左 ?
     117    * Ja, das könnte die Aneinanderreihung von zwei Fehlern sein. im Buch 左 "links", im XML 後 / 后 "danach", bedeutet (hier) das gleiche. In ursprünglich abgetippten Text könnte auch "danach" gestanden haben.
    99118
    100119Fehlende und überflüssige Zeichen: Gehe die vom Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-anzeigen.pl lb-anzeigen.pl] nachträglich erstellte [source:trunk/texts/SongYingxing_1637/raw/Song_pseudo-rohtext.txt?format=txt Rohfassung] durch (Rohtext nach dem Markieren der kleinen Schrift updaten!). Danach kann ich mit dem Skript [source:trunk/texts/SongYingxing_1637/scripts/Song_lb-einfuegen.pl lb-einfuegen.pl] die <lb/> einfügen.
     
    103122  * Struktur stimmt, aber trotzdem falsche Zeichen (einzelne falsche Zeichen, oder verschobene Stücke): Beispiel N400814 (letztes Zeichen in Zeile 4 stimmt sicher nicht; um eins verschoben)
    104123  * <sm> nicht markiert
    105   * Spaces von Aufzählungen nicht eingefügt (aber: will man das denn?)
     124  * Spaces von Aufzählungen nicht eingefügt
    106125
    107126Haben Leerzeichen in den folgenden Zeilen eine Bedeutung (manchmal stehen ASCII-spaces für full-width spaces, ich habe das nicht einzeln geprüft):
     
    111130    * Zwei Teile, also entweder space, oder zwei descriptions, oder Komma. Das soll Dagmar entscheiden.
    112131  * N40386D, N403973, N403C49, N403E5B, N403F0E, N404786, N404864, N40487F, N4048AB, etc.
    113     * N40386D: da fehlt nichts, man kann den space einfach wegmachen. Rest nicht angeschaut. Den Rest soll ein Student machen.
     132    * N40386D: da fehlt nichts, man kann den space einfach wegmachen. (Rest nicht angeschaut.)
    114133  * N401D3B: teilweise full-width spaces (1, 1, 2 spaces); aber siehe oben
    115134  * N406113 space Absicht? (rausgenommen)
     
    124143  * N404D1B falsches Zeichen
    125144  * N404EB2, N40360C, N403653, N403695, N400B05
    126   * N405817 ff und N405BF2 ff: umstrukturieren, damit es mit <sm> übereinstimmt? (und `\\` einfügen)
    127145
    128146Wenn alle anderen Probleme abgearbeitet sind: Places einfügen, i.e. von den Markierungen auf Papier in den Text eintragen. Vorschlag: Einfach mit ( ) markieren, ich wandle es dann anschließend um. Beispiel:
     
    131149}}}
    132150Siehe GIS.
     151
    133152
    134153= 2. Der Workflow =
     
    143162=== für das Schema ===
    144163
    145   * ein bisschen (aber nicht völlig) analog zu <pb>: <figure> in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
    146164  * `< V>` vorläufig als <reg norm="鬵" type="unresolved">鬵</reg>. Explizite Typen einführen, z.B. "variant/auto" (für  mit `< V>` markierte Zeichen) und "variant?/auto" (für Zeichen, die bereits an anderer Stelle als `< V>` markiert wurden). Siehe Variantenmarkierung in den DESpecs.
    147165  * Attribut von <head>: Verschachtelungstiefe. Siehe unten.
    148166  * aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in <figure> etwas wie Unter-Figures oder <teil-figure> erlauben? Problem ist auch: Nach den bisherigen Erfahrungen wird das bei der Transkription nicht funktionieren, wir sprechen also über etwas, was man im post-processing machen müsste.
    149   * Aufzählungen: Wie beschreibt man die verschiedenen Aufzählungstypen in chinesischen Texten? Zum Beispiel 194B: Wohl nicht mit xhtml? Einfach als <s>, und akzeptieren, dass "zu kurze Zeilen" gibt? Wenn man 25B ff zu einer Aufzählung machen will innerhalb des Absatzes, wie sollte das dann aussehen? Woran erkennt man den Unterschied "Aufzählung innerhalb eines Absatzes" vs "neuer Absatz"?
     167  * ein bisschen (aber nicht völlig) analog zu <pb>: <figure> in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
    150168
    151169Bild mit Beschreibungstext auf Seite 83B / 168: Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. (Oder man erlaubt einfach <p> in <figure>? Aber das wäre ein bisschen inkonsequent.)
     
    166184=== für den Workflow ===
    167185
    168   * Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen wie zum Beispiel ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern.
    169186  * Die Logik, die <pb> so weit wie möglich in der Hierarchie zu verstecken, habe ich bei diesem Text nicht angewendet. Sollte man das nachholen? Dann müsste zum Beispiel eine Seiten-Figure auch den nachfolgenden <pb> enthalten. Keine technische, sondern eine konzeptionelle Frage. Zumindest bei <div> ist aber klar, dass <pb> hineingezogen wird. Und in <s> könnte man <pb> auch problemlos hineinziehen.
    170187  * In chinesischen Texten können problemlos Überschriften in der letzten Zeile auftreten, das ist also kein Hinweis auf einen Fehler, im Gegensatz zu europäischen Texten. Beispiel 104B, wo man den folgenden Text auf 105A im aufgeschlagenen Buch nebeneinander sieht, und auch 148A / 148B, wo das nicht der Fall ist. (Die Überschrift auf Seite 85B ist wirklich ein footer.) Konsequenterweise müsste man <pb> auch in <head> verschieben. Dieser Fall kommt in europäischen Texten bisher nur bei mehreren Textflows vor, also beispielsweise beim Eipo-Text.
    171188  * Skript für "pb verstecken"? Das wäre auch wichtig, um andere workflows zu integrieren.
    172189  * Ich könnte genauso gut mit der Version arbeiten, wo die Figures bereits aus <p> herausgezogen sind. (Ansonsten: Einen Arbeitsschritt, in dem alle Skripte sind, mit dem aus der Bearbeitungsversion die Anzeigeversion wird? Problem: Dann wäre der Text vorher noch nicht schemakonform, also wahrscheinlich keine gute Idee.)
     190  * Was machen wir aus large spaces?
     191    * Laut DESpecs als ein einzige space getippt. (Large) spaces zu Doppelpunkten wenigstens in Überschriften, siehe 8B; wird nicht immer sinnvoll sein, insbesondere bei mehr als einem large space.
     192    * # in <p>? Gibt es eine allgemeine Lösung?
     193  * Aufzählungen: Wie beschreibt man die verschiedenen Aufzählungstypen in chinesischen Texten? Zum Beispiel 194B: Wohl nicht mit xhtml? Einfach als <s>, und akzeptieren, dass es "zu kurze Zeilen" gibt? Wenn man 25B ff zu einer Aufzählung machen will innerhalb des Absatzes, wie sollte das dann aussehen? Woran erkennt man den Unterschied "Aufzählung innerhalb eines Absatzes" vs "neuer Absatz"?
    173194
    174195
     
    235256== small text ==
    236257
     258Bisher war die Idee, es als note herauszuziehen, allerdings wurde es bisher noch nie gemacht, weil die chinesischen Texte noch nicht umgewandelt wurden. Es gibt, trotz der suggestiven Aufteilung in <s>, keine technischen Gründe dagegen. Testweise beide Versionen erzeugen und dann vergleichen? -- Die Entscheidung bei den <sm> hängt offenbar vom Text ab. Kann auch textflows wie bei den Conimbricenses sein, also Original und Kommentar. Song Yingxing: Probehalber herausziehen? Das Skript dafür muss man sowieso schreiben. Jedenfalls: Fußnoten und nicht Marginalien.
     259
    23726058A / 117:  vorher:
    238261{{{
     
    281304}}}
    282305
     306Oder doch <sm>, vergleichbar mit <quote> innerhalb von <p>? Testweise auf Seite 15 (dort als <quote>, weil das Schema <sm> noch nicht erlaubt).
     307
     308== zero width spaces ==
     309
     310Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen wie zum Beispiel ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern.
     311
     312Gesucht ist eine Lösung, die die Suche im XML nicht zerbricht.
     313
     314Problem des Skripts zu Eintrage der ZWS: Woher soll man wissen, dass das Fehlen eines ZWS nicht bedeutungstragend ist? Man braucht eigentlich nicht nur den ZWS, sondern auch ein positives Signal, zum Beispiel den zero width joiner (ZWJ). Dann muss das Skript nur zwischen direkt aufeinanderfolgenden Schriftzeichen ein ZWS einfügen. Aber der ZWJ schafft sicher neue Probleme.
    283315
    284316
     
    385417<reg   norm="quadruplum" type="context">quadruplum</reg>
    386418}}}
     419
     420  * <quote> innerhalb von <p> (testweise für <sm> auf Seite 15; nicht zu verwechseln mit <quote> auf der gleichen Ebene wie <p>) wird nicht korrekt angezeigt: nicht kursiv (das war nur zu Textzwecken im CSS), nicht eingerückt und nicht in neuer Zeile (wenn es eingerückt sein soll, gibt es ein zusätzliches <set-off>), beachte open/close-Attribute