Changes between Version 37 and Version 38 of workflow


Ignore:
Timestamp:
May 31, 2010, 10:22:51 AM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • workflow

    v37 v38  
    3737  * Die Namen der Arbeitschritte sind nur guidelines. Beispielsweise sind die Teilschritte 3.03 (ersetze escape sequences) und 3.04 (ersetze italics) technisch gesehen nicht nötig für einen wohlgeformten Text und 4.07 (füge <div> ein) nicht nötig für einen schemakonformen Text, aber sie sind an den jeweiligen Stellen sinnvoll.
    3838  * Bei Skripten mit Parametern werden die Parameterwerte in den raw text eingetragen, und anpassbare Listen wie Wortabkürzungen werden aus Hilfsdateien eingelesen. Die Skripte selbst müssen daher nur selten angepasst werden.
     39  * Für einige Skripte wäre eine interaktive GUI sinnvoll. Wir prüfen zurzeit, ob es bereits geeignete tools gibt, die wir dafür verwenden können.
    3940  * Im Gegensatz zu den früheren Skripten dürfen die hier beschriebenen Bearbeitungsschritte die Zeilenstruktur verändern, zum Beispiel eine Zeile hinzufügen.
    4041  * Beachte, dass Work Orders 1 bis 5 mit den [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/despecs/DESpecs.pdf/DESpecs_V1.pdf DESpecs 1.1.2] und Work Orders 6 bis 9 mit den [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/despecs/DESpecs.pdf/DESpecs_V2.pdf DESpecs 2.0] geschickt wurden. Unterschiede sind zum Beispiel das Format von Figures und von Tabellen.
     
    102103  * `unknown:` (angelegt in Schritt 2.04, aufgelöst in Schritt 3.01)
    103104  * `replacements:` (angelegt per Hand; könnte man noch aufteilen in forbidden characters aus Schritt 2.03, escape sequences aus Schritt 2.05, special instructions aus Schritt 2.10; aber bringt das mehr Klarheit? Aufgelöst in Schritt 3.02)
     105  * `parameters:` (per Hand angelegt, immer wenn es nötig ist; Beispiel `reg.additionalWordlist = URL`. Aufgelöst in Schritt 3.05, wo es in <echo:parameters> umgewandelt wird.)
    104106  * `log:` (per Hand angelegt, immer wenn es nötig ist. Aufgelöst in Schritt 3.05, wo es in <dcterms:description> umgewandelt wird.)
    105107
     
    332334Das Skript
    333335[source:trunk/schema/scripts/workflow/Filter_3_05_add_basic_xml.pl Filter_3_05_add_basic_xml]
    334 ergänzt die XML-Präambel `<?xml version="1.0" encoding="UTF-8"?>` und fügt das root element `<echo>` sowie `<metadata>` und `<text type="free">` ein. Der Text im `log`-Block wird zu `<dcterms:description>`.
     336ergänzt die XML-Präambel `<?xml version="1.0" encoding="UTF-8"?>` und fügt das root element `<echo>` sowie `<metadata>` und `<text type="free">` ein. Der Text im `log`-Block wird zu `<dcterms:description>` (oder `<echo:log>`?). Genauso wird der Text im `parameters`-Block `<echo:parameters>`.
    335337
    336338  * Das Skript fügt auch ein DTD-Fragment ein, das den Text schemakonform macht, ohne dass man `xml:space="preserve"` in alle `<s>` schreiben muss. Auf die Skript hat dies keinen Einfluss, aber es erleichtert das Bearbeiten des Textes in einem XML-Editor. Das Skript in Schritt 5.06, und allgemein jedes beliebige XSLT-Skript, löst als Nebeneffekt das DTD-Fragment wieder auf. Ein weiteres Skript wird das DTD-Fragment wieder einfügen können.
     
    437439
    438440  * Automatisch erstellte `<div>` sind alle auf demselben level. Für eine hierarchische <div>-Struktur (z.B. mit front, body, back) muss die automatische <div>-Struktur per Hand nachbearbeitet werden.
    439   * `n` und `level` werden mit `n="0"` und `level="0"` gefüllt und erst im Schritt 5.06 korrekt durchnumeriert.
     441  * `n` und `level` werden mit `n="0"` und `level="0"` gefüllt und erst im Schritt 6.01 korrekt durchnumeriert. Das Skript sollte die Skripte 6.01 und 6.02 intern aufrufen. (Problem, dass 4.07 bereits vom Schritt-4-Metafilter augerufen wird?)
    440442  * Korrigiere <div> (automatisch?) bei den `<head>`, die eigentlich Footer sind.
    441443
    442 Es muss möglich sein, bereits im raw text <div type="body"> einzufügen (beachte: dann sollte auch der type in <text> geändert werden). Braucht man dazu ein tool, oder geht das so? Was ist die Verbindung zum <div>-Skript? Braucht man ein tool zur manuellen Nachbearbeitung der automatisch erstellten <div>?
     444Man kann bereits im raw text zum Beispiel <div type="body"> einzufügen (beachte: dann sollte auch der type in <text> geändert werden). Braucht man dazu ein tool, oder geht das so? Was ist die Verbindung zum <div>-Skript? Braucht man ein tool zur manuellen Nachbearbeitung der automatisch erstellten <div>?
    443445
    444446
     
    450452=== 5. Textanalyse ===
    451453
    452 Hier gibt es einen Einschnitt im workflow: Der schemakonforme xml-Text wird bearbeitet. Es ist dann nicht mehr möglich, einfach zum raw text zurückzukehren und alle Bearbeitungsschritte noch einmal zu machen. Dies fällt, wie schon in Schritt 2 gesagt, idealerweise mit dem Beginn des scholarly workflow zusammen.
     454Hier gibt es einen Einschnitt im workflow: Der schemakonforme xml-Text wird bearbeitet. Es ist dann nicht mehr möglich, einfach zum raw text zurückzukehren und alle Bearbeitungsschritte noch einmal zu machen. Dies fällt, wie schon in Schritt 2 gesagt, idealerweise mit dem Beginn des (automatiserbaren Teils des) scholarly workflow zusammen.
    453455
    454456Die Nummern dieser Skripte in diesem Schritt können sich noch ändern. Die Hierarchie der inline-Elemente (z.B. <var> in plaintext, <ref> im inline model) legt vermutlich noch keine Verarbeitungsreihenfolge nahe.
     
    472474  * Problem der Wort-Abkürzungen mit Kasus, zum Beispiel `ex .7. quinti Eucl.`. Verwende dort `<ref>`, falls möglich.
    473475
    474 Das Skript erwartet und hinterlässt den Text in NRC-Normalform. Escape sequences wie `&apos;`, die manche Text-Editor für `'` verwenden, werden aufgelöst.
    475 
    476 Für dieses Skript gibt es einen [source:trunk/schema/scripts/script-tests/reg-testparcours.txt testparcours].
     476Das Skript erwartet und hinterlässt den Text in NRC-Normalform. Escape sequences wie `&apos;`, die manche Text-Editoren für `'` substituieren, werden aufgelöst.
     477
     478Für dieses Skript gibt es einen [source:trunk/schema/scripts/script-tests/reg-testparcours.txt testparcours].
     479
     480Für diesen Schritt wäre ein interaktives tool besonders wichtig: Beispielsweise zeigt das Test-Skript Stellen an, wo noch unerwünschte Zeichen wie ę im Text stehen, der User ergänzt die Form, und sie wird automatisch im Text und in der entsprechenden Hilfsdatei nachgetragen.
    477481
    478482
     
    501505
    502506
    503 ==== 5.06 div-Attribute ====
    504 
    505 Das Skript [source:trunk/schema/scripts/workflow/Filter_5_06_number_divs.pl Filter_5_06_number_divs] numeriert die Attribute `<div level="." n=".">` korrekt durch. (Das Skript ist ein Wrapper für das XSLT-Skript `number-divs.xsl`, das die eigentliche Arbeit macht.)
    506 
    507 
    508 ==== 5.07 GIS ====
     507==== 5.06 GIS ====
    509508
    510509Füge GIS-Elemente in ausgewählte Texte ein, also in etwa `<person>`, `<place>`, `<time>`, `<event>`. Für eine ausführlichere Diskussion siehe [wiki:"2010-04-15 GIS meeting" hier].
    511510
    512511
    513 ==== 5.08 Abgleich mit Donatus ====
     512==== 5.07 Abgleich mit Donatus ====
    514513
    515514In Zukunft soll die Textqualität durch linguistische Analysewerkzeuge verbessert werden (siehe auch Schritt 5.05). Einige Verbesserungen sind mit Hilfe von Donatus zumindest teilweise automatisierbar:
     
    521520
    522521
    523 ==== 5.09 allgemeines Test-Skript ====
     522==== 5.08 allgemeines Test-Skript ====
    524523
    525524Brauchen wir ein allgemeines Test-Skript? Zum Beispiel kann es nach Anwenden eines Skriptes zwei Spaces hintereinander geben. Das muss kein Fehler des Skriptes sein, aber es deutet auf ein Problem hin.
     
    531530
    532531
    533 === 6. scholarly workflow ===
     532=== 6. weitere Skripte ===
     533
     534==== 6.01 div-Attribute ====
     535
     536Das Skript [source:trunk/schema/scripts/workflow/Filter_5_06_number_divs.pl Filter_5_06_number_divs] numeriert die Attribute `<div level="." n=".">` korrekt durch. (Das Skript ist ein Wrapper für das XSLT-Skript `number-divs.xsl`, das die eigentliche Arbeit macht.)
     537
     538(Nummer anpassen)
     539
     540
     541=== 6.02 Nebenwirkungen von XSLT ausgleichen ===
     542
     543Ein Skript, das nach Anwenden eines XSLT-Skripts das DTD-Fragment wieder einfügt und weitere Nebeneffekte von XSLT-Skripten rückgängig macht, insbesondere die Formatierung der Präambel.
     544
     545
     546=== 7. scholarly workflow ===
    534547
    535548Einige Standard-Aufgaben des scholarly workflow, die teilweise bereits im Schema angelegt sind:
     
    565578
    566579  * beachte die in [source:trunk/schema/schema/echo/modules/echo-chinese-text.rnc echo-chinese-text] definierten Attribute
     580  * andersherum sind einige Schritte für chinesische Texte unnötig, zumindest wenn der Text keine westlichen Textstücke enthält
    567581  * lateinische Zeichen können durch ihre full-width-Version ersetzt sein, zum Beispiel im tag „<?>“
    568582  * Beispiel aus Schritt 2.03: ○ (white circle U+25CB) statt 〇 (ideographic number zero U+3007)