Changes between Version 38 and Version 39 of workflow
- Timestamp:
- May 31, 2010, 11:55:00 AM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
workflow
v38 v39 154 154 Bei Dateinamen wie `zzzz.jpg` und `.DS_Store` im `pageimg`-Block bricht das Skript mit einer Fehlermeldung ab. 155 155 156 Für diesen Schritt gibt es auchein Helfer-Skript `compare_pb_with_images.pl`, das von jeder Seite die ersten Zeilen anzeigt und den offset zwischen der Nummer im JPG-Dateinamen und der Seitenzahl im Buch berechnet. Wenn der offset längere Zeit kostant bleibt und sich dann ändert, deutet das darauf hin, dass an dieser Stelle im Text ein <pb> fehlt. (Eine andere mögliche Ursache ist eine fehlerhafte Paginierung im Buch.)156 Wenn es <pb> im Text fehlt, ist es manchmal sehr zeitraubend herauszufinden, wo genau es fehlt. Für diesen Schritt gibt es daher ein Helfer-Skript `compare_pb_with_images.pl`, das von jeder Seite die ersten Zeilen anzeigt und den offset zwischen der Nummer im JPG-Dateinamen und der Seitenzahl im Buch berechnet. Wenn der offset längere Zeit kostant bleibt und sich dann ändert, deutet das darauf hin, dass an dieser Stelle im Text ein <pb> fehlt. (Eine andere mögliche Ursache ist eine fehlerhafte Paginierung im Buch.) 157 157 158 158 … … 334 334 Das Skript 335 335 [source:trunk/schema/scripts/workflow/Filter_3_05_add_basic_xml.pl Filter_3_05_add_basic_xml] 336 ergänzt die XML-Präambel `<?xml version="1.0" encoding="UTF-8"?>` und fügt das root element `<echo>` sowie `<metadata>` und `<text type="free">` ein. Der Text im `log`-Block wird zu `<dcterms:description>` (oder `<echo:log>`?). Genauso wird der Text im `parameters`-Block `<echo:parameters>`.337 338 * Das Skript fügt auch ein DTD-Fragment ein, das den Text schemakonform macht, ohne dass man `xml:space="preserve"` in alle `<s>` schreiben muss. Auf die Skript hat dies keinen Einfluss, aber es erleichtert das Bearbeiten des Textes in einem XML-Editor. Das Skript in Schritt 5.06, und allgemein jedes beliebige XSLT-Skript, löst als Nebeneffekt das DTD-Fragment wieder auf. Ein weiteres Skript wird das DTD-Fragment wieder einfügen können.336 ergänzt die XML-Präambel `<?xml version="1.0" encoding="UTF-8"?>` und fügt das root element `<echo>` sowie `<metadata>` und `<text type="free">` ein. Der Text im `log`-Block wird zu `<dcterms:description>` (oder `<echo:log>`?). Genauso wird der Text im `parameters`-Block zu (einem einzigen) `<echo:parameters>`. Alle nachfolgenden Skript finden daher ihre Parameter nicht mehr im `parameters`-Block, sondern in `<echo:parameters>`. 337 338 * Das Skript fügt auch ein DTD-Fragment ein, das den Text schemakonform macht, ohne dass man `xml:space="preserve"` in alle `<s>` schreiben muss. Auf die Skript hat dies keinen Einfluss, aber es erleichtert das Bearbeiten des Textes in einem XML-Editor. Das Skript in Schritt 6.01, und allgemein jedes beliebige XSLT-Skript, löst als Nebeneffekt das DTD-Fragment wieder auf. Ein weiteres Skript wird das DTD-Fragment wieder einfügen können. 339 339 340 340 … … 459 459 ==== 5.01 <reg> ==== 460 460 461 Das Skript [source:trunk/schema/scripts/workflow/Filter_5_01_insert_reg.pl Filter_5_01_insert_reg] regularisiert den Text. Für eine ausführlichere Diskussion von <reg> siehe [wiki:regularisierung hier]. Wie beim <s>-Skript kann man hier einige Parameter wählen. Die Details der Parameter stehen noch nicht fest. Das Skript verwendet Hilfsdateien wie `reg-wordlist-lat.txt`. 461 Das Skript [source:trunk/schema/scripts/workflow/Filter_5_01_insert_reg.pl Filter_5_01_insert_reg] regularisiert den Text. Für eine ausführlichere Diskussion von <reg> siehe [wiki:regularisierung hier]. Wie beim <s>-Skript kann man hier einige Parameter wählen. Die Details der Parameter stehen noch nicht fest. 462 463 Das Skript verwendet Hilfsdateien wie `reg-wordlist-lat.txt` und `reg-abbreviations-ger.txt`. Eventuell gehen die Hilfsdateien auch über reine Wortlisten hinaus. Beispielsweise könnte es möglich sein, einzelne Abkürzungen mit etwas wie `add abbr z.B.` hinzuzunehmen und mit `ignore abbr z.B.` aus der Standard-Liste zu streichen. 462 464 463 465 Kein Zeichen, das normalisiert werden soll, darf hinterher noch im Text (außerhalb von `<reg>`) sein, zum Beispiel kein Zeichen mit Tilde (mit Ausnahmen in manchen Sprachen). Für !Latein/Benedetti: … … 539 541 540 542 541 === 6.02 Nebenwirkungen von XSLT ausgleichen===543 ==== 6.02 Nebenwirkungen von XSLT ausgleichen ==== 542 544 543 545 Ein Skript, das nach Anwenden eines XSLT-Skripts das DTD-Fragment wieder einfügt und weitere Nebeneffekte von XSLT-Skripten rückgängig macht, insbesondere die Formatierung der Präambel. … … 608 610 == Andere Workflows == 609 611 610 Wir erwarten, bald auch reinen Text ohne tags sowie Word-Texte in einem automatischen workflow in schemakonforme XML-Dokumente umwandeln zu können. Es muss sich noch zeigen, ob es praktischer ist, den Workflow anzupassen oder die unmarkierten Texte erst in ein DESpecs-konformes Zwischenformat zu bringen. 611 612 612 Wir erwarten, bald auch reinen Text ohne tags sowie Word-Texte in einem automatischen workflow in schemakonforme XML-Dokumente umwandeln zu können. Es muss sich noch zeigen, ob es praktischer ist, den Workflow anzupassen oder die unmarkierten Texte erst in ein DESpecs-konformes Zwischenformat zu bringen. Wenn Zwischenformet: Nützt es etwas, die doc-Datei als "Office Open XML"-Text abspeichern, oder ist es einfacher, ihn anders zu bearbeiten? 613 614 615