Context Navigation

Changes between Version 49 and Version 50 of SongYingxing

Timestamp:: Aug 12, 2010, 12:23:04 PM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

SongYingxing

-                      v49
+                      v50
   * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
     * ja, einfach ersetzen (ok)
   * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind. (auch <div float>!)
+  * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind. (auch <div float>! Helper-script schreiben!)
   * ZWS (zero-width space U+200B) korrigieren (Skript?)
   * ersetze `\\` in <description> durch <lb/>, in <sm> noch unklar. (Siehe auch unten: die Frage der Darstellung von <sm>.)
 …
 Haben Leerzeichen in den folgenden Zeilen eine Bedeutung (manchmal stehen ASCII-spaces für full-width spaces, ich habe das nicht einzeln geprüft):
   * 41B: <desc>坑 坑</desc>
     * Das ist so nicht richtig, das Zeichen kommt zweimal vor. Also zwei identische descriptions mit je einem Zeichen. Und: Nach den specs dann nur einmal tippen. (Aber: wenn es schon mal da ist, drinlassen?)
+    * Das ist so nicht richtig. Das Zeichen kommt zweimal vor, also zwei identische descriptions mit je einem Zeichen. Und: Nach den specs dann nur einmal tippen. (Aber: wenn es schon mal da ist, drinlassen?)
   * 43A: <caption>印架 過糊</caption>
     * Zwei Teile, also entweder space, oder zwei descriptions, oder Komma. Das soll Dagmar entscheiden.
 …
 === für die DESpecs ===
+  * Die Regelung, dass Zeichenvarianten nur beim ersten Mal markiert werden sollen, muss noch überarbeitet werden. Problem ist, dass ein Text sowohl das Standardzeichen als auch mehr als eine Variante enthalten kann. An welcher Ebene setzt man an, beim Abtippen oder bei der Nachbearbeitung?
+  * Die Regelung, dass Zeichenvarianten nur beim ersten Mal markiert werden sollen, muss noch überarbeitet werden. Problem ist, dass ein Text sowohl das Standardzeichen als auch mehr als eine Variante enthalten kann. An welcher Ebene setzt man an, beim Abtippen oder bei der Nachbearbeitung?
+    * wenn im post-processing: Man hat die Information, welche Zeichen es betrifft. Man hat auch (oder erstellt mit wenig Aufwand) eine Liste der möglichen Zeichen. Gehe alle Vorkommnisse des Schriftzeichens im Text durch. Standardzeichen: ok: Variante: prüfe, ob nicht doch in Unicode. Sonst IDS-Sequenz erstellen. Im Text nur markieren mit v1, v2, etc. hinter dem Zeichen. Wird dann automatiisiert durch ein <reg> ersetzt, das im besten Fall die IDS-Sequenz verwendet. Wie groß wäre der Aufwand in der Praxis?
   * `\\` in <desc> erlauben, oder nur einfach damit umgehen können, falls es gemacht wird?
 …
   * Attribut von <head>: Verschachtelungstiefe. Siehe unten.
   * aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in <figure> etwas wie Unter-Figures oder <teil-figure> erlauben? Problem ist auch: Nach den bisherigen Erfahrungen wird das bei der Transkription nicht funktionieren, wir sprechen also über etwas, was man im post-processing machen müsste.
   * ein bisschen (aber nicht völlig) analog zu <pb>: <figure> in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
+  * ein bisschen (aber nicht völlig) analog zu <pb>: <anchor> direkt in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
 Bild mit Beschreibungstext auf Seite 83B / 168: Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. (Oder man erlaubt einfach <p> in <figure>? Aber das wäre ein bisschen inkonsequent.)
 …
   * Was machen wir aus large spaces?
     * Laut DESpecs als ein einzige space getippt. (Large) spaces zu Doppelpunkten wenigstens in Überschriften, siehe 8B; wird nicht immer sinnvoll sein, insbesondere bei mehr als einem large space.
     * # in <p>? Gibt es eine allgemeine Lösung?
   * Aufzählungen: Wie beschreibt man die verschiedenen Aufzählungstypen in chinesischen Texten? Zum Beispiel 194B: Wohl nicht mit xhtml? Einfach als <s>, und akzeptieren, dass es "zu kurze Zeilen" gibt? Wenn man 25B ff zu einer Aufzählung machen will innerhalb des Absatzes, wie sollte das dann aussehen? Woran erkennt man den Unterschied "Aufzählung innerhalb eines Absatzes" vs "neuer Absatz"?
+    * # in <p>? Gibt es eine allgemeine Lösung? (Manchmal auch "übersehenes" Absatzende?)
+  * Aufzählungen: Gibt es überhaupt Bedarf, Aufzählungen ausdrücklich zu markieren? Wenn ja: Wie beschreibt man die verschiedenen Aufzählungstypen in chinesischen Texten? Zum Beispiel 194B: Wohl nicht mit xhtml? Einfach als <s>, und akzeptieren, dass es "zu kurze Zeilen" gibt? Wenn man 25B ff zu einer Aufzählung machen will innerhalb des Absatzes, wie sollte das dann aussehen? Woran erkennt man den Unterschied "Aufzählung innerhalb eines Absatzes" vs "neuer Absatz"?
 …
 }}}
 <sm> kann nicht mehrere `\\` hintereinander enthalten. Aber es kann ein oder mehrere <lb/> enthalten, und danach ist jeweils wieder ein `\\` erlaubt. (Schematron-Regel?) Und wenn man ein neues `\\` auch nach "　" erlaubt, kann man es auch so schreiben:
+<sm> kann nicht mehrere `\\` hintereinander enthalten. Aber es kann ein oder mehrere <lb/> enthalten, und danach ist jeweils wieder ein `\\` erlaubt. Beispiel 7B / 16, N400266 ff. (Schematron-Regel?) Und wenn man ein neues `\\` auch nach "　" erlaubt, kann man es auch so schreiben:
 {{{
 #!div style="font-size: 80%"
 …
 }}}
 Für das, was es tut, ist <lb type="halfline"/> ziemlich lang. Statt dessen etwas wie <hlb/> oder <hb/>? Oder wenigstens <lb type="half"/>? (Koordination mit textflows, i.e. <pb flow="3"/>? In textflows sind andererseits die <lb/> normal.) Und <sm> unterscheidet sich von normalem <emph> dadurch, dass es einen besonderen Anzeigemechanismus braucht. Es ist also nicht direkt mit kursiv etc. vergleichbar. Warum dann nicht bei <sm> bleiben? (Allerdings würde es weiterhin <s style="sm"> geben.)
+Für das, was es tut, ist <lb type="halfline"/> ziemlich lang. Statt dessen etwas wie <hlb/> oder <hb/>? Oder wenigstens <lb type="half"/>? (Koordination mit textflows, i.e. <pb flow="3"/>? In textflows sind andererseits die <lb/> normal.) Und <sm> unterscheidet sich von normalem <emph> dadurch, dass es einen besonderen Anzeigemechanismus braucht. Es ist also nicht direkt mit kursiv etc. vergleichbar. Warum dann nicht bei <sm> bleiben? (Vermutlich würde es kein <s style="sm"> geben.)
 {{{
 #!div style="font-size: 80%"
 …
 Oder gleich <fn>? Testweise siehe Seite 11A / 23. Es mag sein, dass es sinnvoll ist, zwischen <sm> (bleibt im Text) und <fn> (wird herausgezogen) wählen zu können. Neuer Type "sm"?
   * Beim note-Test (beginnend mit N400515): </s> vom Satz davor hinter die footnote verschoben, weil notes nicht direkt in <p> sein dürfen. Das ist hier eigentlich nicht sinnvoll. Also doch neuer tag <sm>, der sich etwas anders als die anderne notes verhält? Aber in jedem Fall müsste man <anchor> direkt in <p> erlauben (in echo-chinese-text, weil es bisher nur in chinesischen Texten sinnvoll ist), und dann kann man auch die normale note erlauben.
+  * Beim note-Test (beginnend mit N400515): </s> vom Satz davor hinter die footnote verschoben, weil notes nicht direkt in <p> sein dürfen. Ist das bei notes im Text sinnvoll oder nicht? Beispiele angucken! Doch neuer tag <sm>, der sich etwas anders als die anderen notes verhält? Aber in jedem Fall müsste man <anchor> direkt in <p> erlauben (in echo-chinese-text, weil es bisher nur in chinesischen Texten sinnvoll ist), und dann kann man auch die normale note erlauben.
   * Und nach dem Herausziehen der floats das xml:space="preserve" in <note> per Hand entfernt. Das im Skript zu ändern ist wohl sinnlos, denn es ist nicht der normale workflow.
 …
 == zero width spaces ==
+Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen wie zum Beispiel ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern.
+Gesucht ist eine Lösung, die die Suche im XML nicht zerbricht.
+Problem des Skripts zu Eintrage der ZWS: Woher soll man wissen, dass das Fehlen eines ZWS nicht bedeutungstragend ist? Man braucht eigentlich nicht nur den ZWS, sondern auch ein positives Signal, zum Beispiel den zero width joiner (ZWJ). Dann muss das Skript nur zwischen direkt aufeinanderfolgenden Schriftzeichen ein ZWS einfügen. Aber der ZWJ schafft sicher neue Probleme.
+Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen wie zum Beispiel ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern. Gesucht ist eine Lösung, die die Suche im XML nicht zerbricht.
+Problem des Skripts zum Eintragen der ZWS: Woher soll man wissen, dass das Fehlen eines ZWS nicht bedeutungstragend ist? Man braucht eigentlich nicht nur den ZWS, sondern auch ein positives Signal, zum Beispiel den zero width joiner (ZWJ). Dann muss das Skript nur zwischen direkt aufeinanderfolgenden Schriftzeichen ein ZWS einfügen. Aber der ZWJ schafft sicher neue Probleme.
+  * Welche konkret, für Textanzeige oder Suche?
 == Überschriften ==
 Überschriften werden zentriert angezeigt. Die unterschiedlichen Verschachtelungstiefen werden durch die Zentrierung verschleiert. Kann man das ändern? Das Problem ist offensichtlicher als bei europäischen Texten, weil es die Verschachtelung durch Einrückung markiert wird und nicht durch Hinweise im Text. Der Zusammenhang mit der Einrückung ist nicht gradlinig, allerdings sollen die Chinesen `<ti>`, `<h 1>`, `<h 2>` etc. tippen.
   * Ebene 1 (alle `<ti>`, z.B. 天工開物卷上 und 分宜教諭宋應星著 auf Seite 6A) Einrückung entweder 0 oder nahezu rechtsbündig
   * Ebene 2 (`<h 1>`, z.B. 乃粒第一卷) Einrückung 2
   * Ebene 3 (`<h 2>`, z.B. 總名) Einrückung 1
+  * Ebene 1 (alle `<ti>`, z.B. 天工開物卷上 und 分宜教諭宋應星著 auf Seite 6A): Einrückung entweder 0 oder nahezu rechtsbündig
+  * Ebene 2 (`<h 1>`, z.B. 乃粒第一卷): Einrückung 2
+  * Ebene 3 (`<h 2>`, z.B. 總名): Einrückung 1
   * (im toc ist es wieder anders)
 Lösung ist wohl einfach, dass <head> (aber wohl nur bei chinesischen Texten) ein Attribut "headlevel" bekommt, siehe oben. Sonst: Eine Überschrift "weiß" von seinem übergeordneten div, wie weit es verschachtelt ist, allerdings fängt die Zählung nicht bei null an.
+Dann kann ich mir auch die verschachtelten div's im toc sparen. Allerdings funktioniert das dann nur bei chinesischen Texten, nicht bei europäischen. (andererseits: wenn man "headlevel" auch für europäische Texte einführt, müsste man es zwar im post-processing per Hand einfügen, aber danach könnte das div-Skript automatisch eine hierarchische div-Struktur einfügen.)
+Dann kann ich mir auch die verschachtelten div's im toc sparen. Allerdings funktioniert das dann nur bei chinesischen Texten, nicht bei europäischen.
+Andererseits: wenn man "headlevel" auch für europäische Texte einführt, müsste man es zwar im post-processing per Hand einfügen, aber danach könnte das div-Skript automatisch eine hierarchische div-Struktur einfügen. Letztlich eine Frage von Henne oder Ei, irgendwo muss die Information hinein, egal ob über head oder über div. Bei chinesischen Texten steht sie bereits im head. (Selbst dann könnte das "div einfügen"-Skript die Information in zum Beispiel `<h 2>` direkt auswerten. Leichter wäre es allerdings mit einem Attribut.) Bei europäischen Texten würde das (dann fehlende) headlevel-Attribut eventuell eine weitere Hürde schaffen, andererseits verwendet das div-Skript es halt nur, wenn es da ist.