Changes between Version 49 and Version 50 of SongYingxing


Ignore:
Timestamp:
Aug 12, 2010, 12:23:04 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • SongYingxing

    v49 v50  
    7272  * ASCII-Punkte und -Kommas im Text: Kann ich die einfach durch ihre Fullwidth-Äquivalente ersetzen? z.B. N400028 (Punkt), N40003D (Komma).
    7373    * ja, einfach ersetzen (ok)
    74   * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind. (auch <div float>!)
     74  * Zeilen korrekt einrücken, sobald klar ist, ob die div's so in Ordnung sind. (auch <div float>! Helper-script schreiben!)
    7575  * ZWS (zero-width space U+200B) korrigieren (Skript?)
    7676  * ersetze `\\` in <description> durch <lb/>, in <sm> noch unklar. (Siehe auch unten: die Frage der Darstellung von <sm>.)
     
    133133Haben Leerzeichen in den folgenden Zeilen eine Bedeutung (manchmal stehen ASCII-spaces für full-width spaces, ich habe das nicht einzeln geprüft):
    134134  * 41B: <desc>坑 坑</desc>
    135     * Das ist so nicht richtig, das Zeichen kommt zweimal vor. Also zwei identische descriptions mit je einem Zeichen. Und: Nach den specs dann nur einmal tippen. (Aber: wenn es schon mal da ist, drinlassen?)
     135    * Das ist so nicht richtig. Das Zeichen kommt zweimal vor, also zwei identische descriptions mit je einem Zeichen. Und: Nach den specs dann nur einmal tippen. (Aber: wenn es schon mal da ist, drinlassen?)
    136136  * 43A: <caption>印架 過糊</caption>
    137137    * Zwei Teile, also entweder space, oder zwei descriptions, oder Komma. Das soll Dagmar entscheiden.
     
    164164=== für die DESpecs ===
    165165
    166   * Die Regelung, dass Zeichenvarianten nur beim ersten Mal markiert werden sollen, muss noch überarbeitet werden. Problem ist, dass ein Text sowohl das Standardzeichen als auch mehr als eine Variante enthalten kann. An welcher Ebene setzt man an, beim Abtippen oder bei der Nachbearbeitung?
     166  * Die Regelung, dass Zeichenvarianten nur beim ersten Mal markiert werden sollen, muss noch überarbeitet werden. Problem ist, dass ein Text sowohl das Standardzeichen als auch mehr als eine Variante enthalten kann. An welcher Ebene setzt man an, beim Abtippen oder bei der Nachbearbeitung?
     167    * wenn im post-processing: Man hat die Information, welche Zeichen es betrifft. Man hat auch (oder erstellt mit wenig Aufwand) eine Liste der möglichen Zeichen. Gehe alle Vorkommnisse des Schriftzeichens im Text durch. Standardzeichen: ok: Variante: prüfe, ob nicht doch in Unicode. Sonst IDS-Sequenz erstellen. Im Text nur markieren mit v1, v2, etc. hinter dem Zeichen. Wird dann automatiisiert durch ein <reg> ersetzt, das im besten Fall die IDS-Sequenz verwendet. Wie groß wäre der Aufwand in der Praxis?
    167168  * `\\` in <desc> erlauben, oder nur einfach damit umgehen können, falls es gemacht wird?
    168169
     
    172173  * Attribut von <head>: Verschachtelungstiefe. Siehe unten.
    173174  * aufgeteiltes Bild auf Seite 76B / 154: Lösung für das Problem von mehr als einer caption. Okay so, oder muss man in <figure> etwas wie Unter-Figures oder <teil-figure> erlauben? Problem ist auch: Nach den bisherigen Erfahrungen wird das bei der Transkription nicht funktionieren, wir sprechen also über etwas, was man im post-processing machen müsste.
    174   * ein bisschen (aber nicht völlig) analog zu <pb>: <figure> in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
     175  * ein bisschen (aber nicht völlig) analog zu <pb>: <anchor> direkt in <p> erlauben, damit man nicht </s> hinter die Figure verschieben muss? Kein großer Leidensdruck, und das Ergebnis wäre auch nicht konsequent.
    175176
    176177Bild mit Beschreibungstext auf Seite 83B / 168: Weitere Kategorie neben caption, description, variables? Zum Beispiel <explanation>. (Oder man erlaubt einfach <p> in <figure>? Aber das wäre ein bisschen inkonsequent.)
     
    206207  * Was machen wir aus large spaces?
    207208    * Laut DESpecs als ein einzige space getippt. (Large) spaces zu Doppelpunkten wenigstens in Überschriften, siehe 8B; wird nicht immer sinnvoll sein, insbesondere bei mehr als einem large space.
    208     * # in <p>? Gibt es eine allgemeine Lösung?
    209   * Aufzählungen: Wie beschreibt man die verschiedenen Aufzählungstypen in chinesischen Texten? Zum Beispiel 194B: Wohl nicht mit xhtml? Einfach als <s>, und akzeptieren, dass es "zu kurze Zeilen" gibt? Wenn man 25B ff zu einer Aufzählung machen will innerhalb des Absatzes, wie sollte das dann aussehen? Woran erkennt man den Unterschied "Aufzählung innerhalb eines Absatzes" vs "neuer Absatz"?
     209    * # in <p>? Gibt es eine allgemeine Lösung? (Manchmal auch "übersehenes" Absatzende?)
     210  * Aufzählungen: Gibt es überhaupt Bedarf, Aufzählungen ausdrücklich zu markieren? Wenn ja: Wie beschreibt man die verschiedenen Aufzählungstypen in chinesischen Texten? Zum Beispiel 194B: Wohl nicht mit xhtml? Einfach als <s>, und akzeptieren, dass es "zu kurze Zeilen" gibt? Wenn man 25B ff zu einer Aufzählung machen will innerhalb des Absatzes, wie sollte das dann aussehen? Woran erkennt man den Unterschied "Aufzählung innerhalb eines Absatzes" vs "neuer Absatz"?
    210211
    211212
     
    287288}}}
    288289
    289 <sm> kann nicht mehrere `\\` hintereinander enthalten. Aber es kann ein oder mehrere <lb/> enthalten, und danach ist jeweils wieder ein `\\` erlaubt. (Schematron-Regel?) Und wenn man ein neues `\\` auch nach " " erlaubt, kann man es auch so schreiben:
     290<sm> kann nicht mehrere `\\` hintereinander enthalten. Aber es kann ein oder mehrere <lb/> enthalten, und danach ist jeweils wieder ein `\\` erlaubt. Beispiel 7B / 16, N400266 ff. (Schematron-Regel?) Und wenn man ein neues `\\` auch nach " " erlaubt, kann man es auch so schreiben:
    290291{{{
    291292#!div style="font-size: 80%"
     
    306307}}}
    307308
    308 Für das, was es tut, ist <lb type="halfline"/> ziemlich lang. Statt dessen etwas wie <hlb/> oder <hb/>? Oder wenigstens <lb type="half"/>? (Koordination mit textflows, i.e. <pb flow="3"/>? In textflows sind andererseits die <lb/> normal.) Und <sm> unterscheidet sich von normalem <emph> dadurch, dass es einen besonderen Anzeigemechanismus braucht. Es ist also nicht direkt mit kursiv etc. vergleichbar. Warum dann nicht bei <sm> bleiben? (Allerdings würde es weiterhin <s style="sm"> geben.)
     309Für das, was es tut, ist <lb type="halfline"/> ziemlich lang. Statt dessen etwas wie <hlb/> oder <hb/>? Oder wenigstens <lb type="half"/>? (Koordination mit textflows, i.e. <pb flow="3"/>? In textflows sind andererseits die <lb/> normal.) Und <sm> unterscheidet sich von normalem <emph> dadurch, dass es einen besonderen Anzeigemechanismus braucht. Es ist also nicht direkt mit kursiv etc. vergleichbar. Warum dann nicht bei <sm> bleiben? (Vermutlich würde es kein <s style="sm"> geben.)
    309310{{{
    310311#!div style="font-size: 80%"
     
    324325
    325326Oder gleich <fn>? Testweise siehe Seite 11A / 23. Es mag sein, dass es sinnvoll ist, zwischen <sm> (bleibt im Text) und <fn> (wird herausgezogen) wählen zu können. Neuer Type "sm"?
    326   * Beim note-Test (beginnend mit N400515): </s> vom Satz davor hinter die footnote verschoben, weil notes nicht direkt in <p> sein dürfen. Das ist hier eigentlich nicht sinnvoll. Also doch neuer tag <sm>, der sich etwas anders als die anderne notes verhält? Aber in jedem Fall müsste man <anchor> direkt in <p> erlauben (in echo-chinese-text, weil es bisher nur in chinesischen Texten sinnvoll ist), und dann kann man auch die normale note erlauben.
     327  * Beim note-Test (beginnend mit N400515): </s> vom Satz davor hinter die footnote verschoben, weil notes nicht direkt in <p> sein dürfen. Ist das bei notes im Text sinnvoll oder nicht? Beispiele angucken! Doch neuer tag <sm>, der sich etwas anders als die anderen notes verhält? Aber in jedem Fall müsste man <anchor> direkt in <p> erlauben (in echo-chinese-text, weil es bisher nur in chinesischen Texten sinnvoll ist), und dann kann man auch die normale note erlauben.
    327328  * Und nach dem Herausziehen der floats das xml:space="preserve" in <note> per Hand entfernt. Das im Skript zu ändern ist wohl sinnlos, denn es ist nicht der normale workflow.
    328329
     
    332333== zero width spaces ==
    333334
    334 Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen wie zum Beispiel ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern.
    335 
    336 Gesucht ist eine Lösung, die die Suche im XML nicht zerbricht.
    337 
    338 Problem des Skripts zu Eintrage der ZWS: Woher soll man wissen, dass das Fehlen eines ZWS nicht bedeutungstragend ist? Man braucht eigentlich nicht nur den ZWS, sondern auch ein positives Signal, zum Beispiel den zero width joiner (ZWJ). Dann muss das Skript nur zwischen direkt aufeinanderfolgenden Schriftzeichen ein ZWS einfügen. Aber der ZWJ schafft sicher neue Probleme.
     335Die ZWS sind schwierig zu kontrollieren, weil sie für den normalen Bearbeiter nicht sichtbar sind. Gibt es Alternativen, die auch in Arboreal funktionieren und den optischen Eindruck nicht stören? (Ich fürchte nicht; sichtbare Zeichen wie zum Beispiel ASCII-spaces zwischen den Schriftzeichen fallen als eurozentrische Lösungen weg.) Normalisierungs-Skript schreiben. Darf bestehende bedeutungstragende ZWS (wo ihre Abwesenheit also bereits ein mehr-Zeichen-Wort ausdrückt) nicht verändern. Gesucht ist eine Lösung, die die Suche im XML nicht zerbricht.
     336
     337Problem des Skripts zum Eintragen der ZWS: Woher soll man wissen, dass das Fehlen eines ZWS nicht bedeutungstragend ist? Man braucht eigentlich nicht nur den ZWS, sondern auch ein positives Signal, zum Beispiel den zero width joiner (ZWJ). Dann muss das Skript nur zwischen direkt aufeinanderfolgenden Schriftzeichen ein ZWS einfügen. Aber der ZWJ schafft sicher neue Probleme.
     338  * Welche konkret, für Textanzeige oder Suche?
    339339
    340340== Überschriften ==
    341341
    342342Überschriften werden zentriert angezeigt. Die unterschiedlichen Verschachtelungstiefen werden durch die Zentrierung verschleiert. Kann man das ändern? Das Problem ist offensichtlicher als bei europäischen Texten, weil es die Verschachtelung durch Einrückung markiert wird und nicht durch Hinweise im Text. Der Zusammenhang mit der Einrückung ist nicht gradlinig, allerdings sollen die Chinesen `<ti>`, `<h 1>`, `<h 2>` etc. tippen.
    343   * Ebene 1 (alle `<ti>`, z.B. 天工開物卷上 und 分宜教諭宋應星著 auf Seite 6A) Einrückung entweder 0 oder nahezu rechtsbündig
    344   * Ebene 2 (`<h 1>`, z.B. 乃​粒​第​一卷) Einrückung 2
    345   * Ebene 3 (`<h 2>`, z.B. 總​名) Einrückung 1
     343  * Ebene 1 (alle `<ti>`, z.B. 天工開物卷上 und 分宜教諭宋應星著 auf Seite 6A): Einrückung entweder 0 oder nahezu rechtsbündig
     344  * Ebene 2 (`<h 1>`, z.B. 乃​粒​第​一卷): Einrückung 2
     345  * Ebene 3 (`<h 2>`, z.B. 總​名): Einrückung 1
    346346  * (im toc ist es wieder anders)
    347347
    348348Lösung ist wohl einfach, dass <head> (aber wohl nur bei chinesischen Texten) ein Attribut "headlevel" bekommt, siehe oben. Sonst: Eine Überschrift "weiß" von seinem übergeordneten div, wie weit es verschachtelt ist, allerdings fängt die Zählung nicht bei null an.
    349349
    350 Dann kann ich mir auch die verschachtelten div's im toc sparen. Allerdings funktioniert das dann nur bei chinesischen Texten, nicht bei europäischen. (andererseits: wenn man "headlevel" auch für europäische Texte einführt, müsste man es zwar im post-processing per Hand einfügen, aber danach könnte das div-Skript automatisch eine hierarchische div-Struktur einfügen.)
     350Dann kann ich mir auch die verschachtelten div's im toc sparen. Allerdings funktioniert das dann nur bei chinesischen Texten, nicht bei europäischen.
     351
     352Andererseits: wenn man "headlevel" auch für europäische Texte einführt, müsste man es zwar im post-processing per Hand einfügen, aber danach könnte das div-Skript automatisch eine hierarchische div-Struktur einfügen. Letztlich eine Frage von Henne oder Ei, irgendwo muss die Information hinein, egal ob über head oder über div. Bei chinesischen Texten steht sie bereits im head. (Selbst dann könnte das "div einfügen"-Skript die Information in zum Beispiel `<h 2>` direkt auswerten. Leichter wäre es allerdings mit einem Attribut.) Bei europäischen Texten würde das (dann fehlende) headlevel-Attribut eventuell eine weitere Hürde schaffen, andererseits verwendet das div-Skript es halt nur, wenn es da ist.
    351353
    352354