Changes between Version 20 and Version 21 of workflow


Ignore:
Timestamp:
May 25, 2010, 12:51:23 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • workflow

    v20 v21  
    317317=== 4. schema-konform machen ===
    318318
    319 wieder: Diese Skripte sollten problemlos durchlaufen und können in einem Meta-Skript zusammengefasst werden:
    320 [source:trunk/schema/scripts/workflow/Filter_4_make_valid.pl Filter_4_make_valid]
    321 
    322 Außerdem: [source:trunk/schema/scripts/workflow/Filter_4_test_validity.pl Filter_4_test_validity]
    323 
    324 *
    325 
    326 [source:trunk/schema/scripts/workflow/Filter_4_00_Schummelskript.pl Filter_4_00_Schummelskript] (solange die Tabellen noch nicht richtig verarbeitet werden)
     319Wie in Schritt 3 sollten diese Skripte problemlos durchlaufen und können daher in einem Meta-Skript [source:trunk/schema/scripts/workflow/Filter_4_make_valid.pl Filter_4_make_valid] zusammengefasst werden. Das Skript  [source:trunk/schema/scripts/workflow/Filter_4_test_validity.pl Filter_4_test_validity] test dann, ob das Ergebnis schemakonform ist.
     320
     321Eine Ausnahme für das problemlose Durchlaufen kann das Skript für <s> sein.
     322
     323Solange Tabellen noch nicht richtig verarbeitet werden (siehe Schritte 2.09 und 4.06), werden außerdem in [source:trunk/schema/scripts/workflow/Filter_4_00_Schummelskript.pl Filter_4_00_Schummelskript] Tabellen in <mgr> verwandelt, sodass sie korrekt aus dem Absatz herausgezogen werden.
    327324
    328325
    329326==== 4.01 <pb> ====
    330327
    331 [source:trunk/schema/scripts/workflow/Filter_4_01_pb.pl Filter_4_01_pb]
    332 
    333 verwandle {{{<rh>}}} in ein Attribut {{{rhead}}} in {{{<pb>}}}, ignoriere dabei alle Formatierungen wie kursiv, gesperrt, etc.
     328Das Skript [source:trunk/schema/scripts/workflow/Filter_4_01_pb.pl Filter_4_01_pb] verwandelt {{{<rh>}}} in ein Attribut {{{rhead}}} in {{{<pb>}}}.
     329
     330Alle Formatierungen wie kursiv, gesperrt, Fettdruck etc. im running head werden entfernt, weil es recht sicher ist, dass sie semantisch irrelevant sind. Die grundsätzliche Frage, wie genau wir die originale Textgestalt wiedergeben wollen, selbst wenn sie offensichtlich semantisch nicht relevant ist, haben wir allerdings noch nicht genau geklärt.
     331
    334332
    335333==== 4.02 floats herausziehen ====
    336334
    337 [source:trunk/schema/scripts/workflow/Filter_4_02_move_floats.pl Filter_4_02_move_floats]
    338 
    339 (auch tables!)
    340 
    341 auch aus <h>, oder lieber Fehler provozieren?
    342 
    343 Floats aus Absätzen herausziehen (vor "{{{<s>}}} bestimmen" !):{{{<anchor>}}}, {{{<div type="float">}}} nach dem Absatz.
    344 
    345 Vorsicht bei anchored marginal notes. Prüfe bei anchors im Text, ob es eine zugehörige note gibt. Akzeptiere kleine Abweichungen der Symbole voneinander, zum Beispiel {{{3)}}} im Text und {{{3}}} in der Fußnote
     335Das Skript [source:trunk/schema/scripts/workflow/Filter_4_02_move_floats.pl Filter_4_02_move_floats] zieht Floats aus Absätzen heraus: An der ursprünglichen Stelle wird {{{<anchor>}}} eingefügt, und ale Floats eines Absatzes kommen in ein {{{<div type="float">}}} direkt nach dem Absatz. Dadurch bleiben die Floats im Text in der richtigen Reihenfolge.
     336
     337Das Kriterium in den DESpecs, wo die Floats zu tippen sind, ist recht krude. Daher ist eine minimale Nachbereitung sinnvoll. Zum Beispiel sollte ein Float stillschweigend aus dem Absatz geschoben werden, wenn nur eine einzige Textzeile davor oder danach ist. Da dies automatisch geschehen kann, wird es nicht schon in Schritt 2 gemacht.
     338
     339  * Vorsicht bei anchored marginal notes.
     340  * Prüfe bei anchors im Text, ob es eine zugehörige note auf der gleichen Seite gibt. Akzeptiere dabei kleine Abweichungen der Symbole voneinander, zum Beispiel {{{3)}}} im Text und {{{3}}} in der Fußnote. Gib ansonsten eine Warnung aus.
     341  * Was passiert bei Floats in <h>, wenn sie nicht stillschweigend herausgeschoben werden können? Oder ist es besser, einen Fehler zu provozieren, weil solche <h> manchmal in Wirklichkeit <p type="title"> sind?
    346342
    347343
    348344==== 4.03 <lb> ====
    349345
    350 Das Skript [source:trunk/schema/scripts/workflow/Filter_4_03_insert_lb.pl Filter_4_03_insert_lb] verwandelt Zeilenumbrüche in <lb/>.
     346Das Skript [source:trunk/schema/scripts/workflow/Filter_4_03_insert_lb.pl Filter_4_03_insert_lb] verwandelt Zeilenumbrüche in <lb/>. Das ist normalerweise geradlinig. Beachte Ausnahmen bei <pb> und <anchor>.
     347
     348Als Effekt wird die Zeilenanzahl des Textes sehr viel kleiner.
    351349
    352350
    353351==== 4.04 <s> ====
    354352
    355 Das Skript [source:trunk/schema/scripts/workflow/Filter_4_04_insert_s.pl Filter_4_04_insert_s] fügt <s> ein. Beachte Fälle wie:
    356 
    357   * et.a.b.hoc est
     353Das Skript [source:trunk/schema/scripts/workflow/Filter_4_04_insert_s.pl Filter_4_04_insert_s] fügt <s> ein.
     354
     355Bei diesem Skript kann man bestimmte Parameter wählen, um bessere <s> zu erhalten. Trotzdem kann es manchmal passieren, dass man zum raw text zurückkehren muss und dort bei manchen Punkten manuell markieren muss, ob es eine Satzende ist oder nicht. Das können einzelne Punkte sein, wo es sich wahrscheinlich nur in Ausnahmefällen lohnen wird, oder wiederkehrende Situationen wie eine nicht erkannte Abkürzung. Details und die Syntax dafür habe ich mir noch nicht überlegt.
     356
     357Beachte Fälle wie:
     358  * et.a.b.hoc est (hier normalisieren wir bisher die spaces, also „{{{et .a.b. hoc est}}}“)
    358359  * .a.b:c.d:e.f.
    359360  * .{{{<lb/>}}}a.b.
    360   * Wort-Abkürzungen (hier wäre es einerseits hilfreich, wenn Wortabkürzungen bereits in {{{<reg>}}} wären; andererseits wird der Punkt am Ende von {{{<reg>}}} zum Beispiel in {{{ex .7. quinti <reg>Eucl.</reg>}}} oft noch als Satzendepunkt gebraucht)
     361  * Wort-Abkürzungen
    361362  * {{{&c.}}} etc.
    362363
    363 (eventuell mit Parameter-Wahl; eventuelle manuelle Korrekturen im raw text!)
     364Das Skript kann sich darauf verlassen, dass die Floats bereits aus dem Absatz herausgezogen sind. Dadurch wird das Markieren von <s> in Floats erleichtert. Das Skript kann sich aber nicht darauf verlassen, dass Wortabkürzungen bereits in {{{<reg>}}} sind. Der Punkt am Ende von {{{<reg>}}} zum Beispiel in {{{ex .7. quinti <reg>Eucl.</reg>}}} wird außerdem oft noch als Satzendepunkt gebraucht.
    364365
    365366
    366367==== 4.05 <emph> ====
    367368
    368 [source:trunk/schema/scripts/workflow/Filter_4_05_emph.pl Filter_4_05_emph]
    369 
    370 Ersetze Fomatierungs-Elemente durch {{{<emph style="...">}}}. Denke an {{{<sub>}}} und {{{<super>}}}. Verschiebe style-Informationen so wie wie möglich nach oben im xml, zum Beispiel \\ {{{<p><emph style="it">text</emph>.</p>}}} wird zu \\ {{{<p style="it">text.</p>}}}. Anderes Beispiel: \\ {{{<mgl>_eine kur-_<lb/>_ze Notiz._</mgl>}}}
    371 
    372 mit [source:trunk/schema/scripts/script-tests/emph-testparcours.txt testparcours]
     369Das Skript [source:trunk/schema/scripts/workflow/Filter_4_05_emph.pl Filter_4_05_emph] ersetze Fomatierungs-tags durch {{{<emph style="...">}}}.
     370
     371Vorher verwandelt das Skript small caps:
     372{{{
     373V<sc>ORNAME</sc> N<sc>ACHNAME</sc>
     374<sc>Vorname Nachname</sc>
     375}}}
     376
     377Verschiebe style-Informationen außerdem so wie wie möglich nach oben im xml:
     378{{{
     379<p><emph style="it">text</emph>.</p>
     380<p style="it">text.</p>
     381}}}
     382
     383Anderes Beispiel (die zweite Zeile ist der Stand nach Schritt 3.04):
     384{{{
     385<mgl>_eine kur-_<lb/>_ze Notiz._</mgl>
     386<mgl><it>eine kur-</it><lb/><it>ze Notiz.</it></mgl>
     387<mgl style="it">eine kur-<lb/>ze Notiz.</mgl>
     388}}}
     389
     390
     391Beachte:
     392  * {{{<_>}}} und {{{<^>}}} wurden in Schritt 3.06 in {{{<sub>}}} und {{{<super>}}} umbenannt.
     393  * <it> in einem Absatz in italics ergibt wieder upright.
     394  * Kombinationen wie {{{it bf}}}
     395
     396Für dieses Skript gibt es einen [source:trunk/schema/scripts/script-tests/emph-testparcours.txt testparcours].
    373397
    374398