Changes between Version 37 and Version 38 of workflow
- Timestamp:
- May 31, 2010, 10:22:51 AM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
workflow
v37 v38 37 37 * Die Namen der Arbeitschritte sind nur guidelines. Beispielsweise sind die Teilschritte 3.03 (ersetze escape sequences) und 3.04 (ersetze italics) technisch gesehen nicht nötig für einen wohlgeformten Text und 4.07 (füge <div> ein) nicht nötig für einen schemakonformen Text, aber sie sind an den jeweiligen Stellen sinnvoll. 38 38 * Bei Skripten mit Parametern werden die Parameterwerte in den raw text eingetragen, und anpassbare Listen wie Wortabkürzungen werden aus Hilfsdateien eingelesen. Die Skripte selbst müssen daher nur selten angepasst werden. 39 * Für einige Skripte wäre eine interaktive GUI sinnvoll. Wir prüfen zurzeit, ob es bereits geeignete tools gibt, die wir dafür verwenden können. 39 40 * Im Gegensatz zu den früheren Skripten dürfen die hier beschriebenen Bearbeitungsschritte die Zeilenstruktur verändern, zum Beispiel eine Zeile hinzufügen. 40 41 * Beachte, dass Work Orders 1 bis 5 mit den [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/despecs/DESpecs.pdf/DESpecs_V1.pdf DESpecs 1.1.2] und Work Orders 6 bis 9 mit den [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/despecs/DESpecs.pdf/DESpecs_V2.pdf DESpecs 2.0] geschickt wurden. Unterschiede sind zum Beispiel das Format von Figures und von Tabellen. … … 102 103 * `unknown:` (angelegt in Schritt 2.04, aufgelöst in Schritt 3.01) 103 104 * `replacements:` (angelegt per Hand; könnte man noch aufteilen in forbidden characters aus Schritt 2.03, escape sequences aus Schritt 2.05, special instructions aus Schritt 2.10; aber bringt das mehr Klarheit? Aufgelöst in Schritt 3.02) 105 * `parameters:` (per Hand angelegt, immer wenn es nötig ist; Beispiel `reg.additionalWordlist = URL`. Aufgelöst in Schritt 3.05, wo es in <echo:parameters> umgewandelt wird.) 104 106 * `log:` (per Hand angelegt, immer wenn es nötig ist. Aufgelöst in Schritt 3.05, wo es in <dcterms:description> umgewandelt wird.) 105 107 … … 332 334 Das Skript 333 335 [source:trunk/schema/scripts/workflow/Filter_3_05_add_basic_xml.pl Filter_3_05_add_basic_xml] 334 ergänzt die XML-Präambel `<?xml version="1.0" encoding="UTF-8"?>` und fügt das root element `<echo>` sowie `<metadata>` und `<text type="free">` ein. Der Text im `log`-Block wird zu `<dcterms:description>` .336 ergänzt die XML-Präambel `<?xml version="1.0" encoding="UTF-8"?>` und fügt das root element `<echo>` sowie `<metadata>` und `<text type="free">` ein. Der Text im `log`-Block wird zu `<dcterms:description>` (oder `<echo:log>`?). Genauso wird der Text im `parameters`-Block `<echo:parameters>`. 335 337 336 338 * Das Skript fügt auch ein DTD-Fragment ein, das den Text schemakonform macht, ohne dass man `xml:space="preserve"` in alle `<s>` schreiben muss. Auf die Skript hat dies keinen Einfluss, aber es erleichtert das Bearbeiten des Textes in einem XML-Editor. Das Skript in Schritt 5.06, und allgemein jedes beliebige XSLT-Skript, löst als Nebeneffekt das DTD-Fragment wieder auf. Ein weiteres Skript wird das DTD-Fragment wieder einfügen können. … … 437 439 438 440 * Automatisch erstellte `<div>` sind alle auf demselben level. Für eine hierarchische <div>-Struktur (z.B. mit front, body, back) muss die automatische <div>-Struktur per Hand nachbearbeitet werden. 439 * `n` und `level` werden mit `n="0"` und `level="0"` gefüllt und erst im Schritt 5.06 korrekt durchnumeriert.441 * `n` und `level` werden mit `n="0"` und `level="0"` gefüllt und erst im Schritt 6.01 korrekt durchnumeriert. Das Skript sollte die Skripte 6.01 und 6.02 intern aufrufen. (Problem, dass 4.07 bereits vom Schritt-4-Metafilter augerufen wird?) 440 442 * Korrigiere <div> (automatisch?) bei den `<head>`, die eigentlich Footer sind. 441 443 442 Es muss möglich sein, bereits im raw text<div type="body"> einzufügen (beachte: dann sollte auch der type in <text> geändert werden). Braucht man dazu ein tool, oder geht das so? Was ist die Verbindung zum <div>-Skript? Braucht man ein tool zur manuellen Nachbearbeitung der automatisch erstellten <div>?444 Man kann bereits im raw text zum Beispiel <div type="body"> einzufügen (beachte: dann sollte auch der type in <text> geändert werden). Braucht man dazu ein tool, oder geht das so? Was ist die Verbindung zum <div>-Skript? Braucht man ein tool zur manuellen Nachbearbeitung der automatisch erstellten <div>? 443 445 444 446 … … 450 452 === 5. Textanalyse === 451 453 452 Hier gibt es einen Einschnitt im workflow: Der schemakonforme xml-Text wird bearbeitet. Es ist dann nicht mehr möglich, einfach zum raw text zurückzukehren und alle Bearbeitungsschritte noch einmal zu machen. Dies fällt, wie schon in Schritt 2 gesagt, idealerweise mit dem Beginn des scholarly workflow zusammen.454 Hier gibt es einen Einschnitt im workflow: Der schemakonforme xml-Text wird bearbeitet. Es ist dann nicht mehr möglich, einfach zum raw text zurückzukehren und alle Bearbeitungsschritte noch einmal zu machen. Dies fällt, wie schon in Schritt 2 gesagt, idealerweise mit dem Beginn des (automatiserbaren Teils des) scholarly workflow zusammen. 453 455 454 456 Die Nummern dieser Skripte in diesem Schritt können sich noch ändern. Die Hierarchie der inline-Elemente (z.B. <var> in plaintext, <ref> im inline model) legt vermutlich noch keine Verarbeitungsreihenfolge nahe. … … 472 474 * Problem der Wort-Abkürzungen mit Kasus, zum Beispiel `ex .7. quinti Eucl.`. Verwende dort `<ref>`, falls möglich. 473 475 474 Das Skript erwartet und hinterlässt den Text in NRC-Normalform. Escape sequences wie `'`, die manche Text-Editor für `'` verwenden, werden aufgelöst. 475 476 Für dieses Skript gibt es einen [source:trunk/schema/scripts/script-tests/reg-testparcours.txt testparcours]. 476 Das Skript erwartet und hinterlässt den Text in NRC-Normalform. Escape sequences wie `'`, die manche Text-Editoren für `'` substituieren, werden aufgelöst. 477 478 Für dieses Skript gibt es einen [source:trunk/schema/scripts/script-tests/reg-testparcours.txt testparcours]. 479 480 Für diesen Schritt wäre ein interaktives tool besonders wichtig: Beispielsweise zeigt das Test-Skript Stellen an, wo noch unerwünschte Zeichen wie ę im Text stehen, der User ergänzt die Form, und sie wird automatisch im Text und in der entsprechenden Hilfsdatei nachgetragen. 477 481 478 482 … … 501 505 502 506 503 ==== 5.06 div-Attribute ==== 504 505 Das Skript [source:trunk/schema/scripts/workflow/Filter_5_06_number_divs.pl Filter_5_06_number_divs] numeriert die Attribute `<div level="." n=".">` korrekt durch. (Das Skript ist ein Wrapper für das XSLT-Skript `number-divs.xsl`, das die eigentliche Arbeit macht.) 506 507 508 ==== 5.07 GIS ==== 507 ==== 5.06 GIS ==== 509 508 510 509 Füge GIS-Elemente in ausgewählte Texte ein, also in etwa `<person>`, `<place>`, `<time>`, `<event>`. Für eine ausführlichere Diskussion siehe [wiki:"2010-04-15 GIS meeting" hier]. 511 510 512 511 513 ==== 5.0 8Abgleich mit Donatus ====512 ==== 5.07 Abgleich mit Donatus ==== 514 513 515 514 In Zukunft soll die Textqualität durch linguistische Analysewerkzeuge verbessert werden (siehe auch Schritt 5.05). Einige Verbesserungen sind mit Hilfe von Donatus zumindest teilweise automatisierbar: … … 521 520 522 521 523 ==== 5.0 9allgemeines Test-Skript ====522 ==== 5.08 allgemeines Test-Skript ==== 524 523 525 524 Brauchen wir ein allgemeines Test-Skript? Zum Beispiel kann es nach Anwenden eines Skriptes zwei Spaces hintereinander geben. Das muss kein Fehler des Skriptes sein, aber es deutet auf ein Problem hin. … … 531 530 532 531 533 === 6. scholarly workflow === 532 === 6. weitere Skripte === 533 534 ==== 6.01 div-Attribute ==== 535 536 Das Skript [source:trunk/schema/scripts/workflow/Filter_5_06_number_divs.pl Filter_5_06_number_divs] numeriert die Attribute `<div level="." n=".">` korrekt durch. (Das Skript ist ein Wrapper für das XSLT-Skript `number-divs.xsl`, das die eigentliche Arbeit macht.) 537 538 (Nummer anpassen) 539 540 541 === 6.02 Nebenwirkungen von XSLT ausgleichen === 542 543 Ein Skript, das nach Anwenden eines XSLT-Skripts das DTD-Fragment wieder einfügt und weitere Nebeneffekte von XSLT-Skripten rückgängig macht, insbesondere die Formatierung der Präambel. 544 545 546 === 7. scholarly workflow === 534 547 535 548 Einige Standard-Aufgaben des scholarly workflow, die teilweise bereits im Schema angelegt sind: … … 565 578 566 579 * beachte die in [source:trunk/schema/schema/echo/modules/echo-chinese-text.rnc echo-chinese-text] definierten Attribute 580 * andersherum sind einige Schritte für chinesische Texte unnötig, zumindest wenn der Text keine westlichen Textstücke enthält 567 581 * lateinische Zeichen können durch ihre full-width-Version ersetzt sein, zum Beispiel im tag „<?>“ 568 582 * Beispiel aus Schritt 2.03: ○ (white circle U+25CB) statt 〇 (ideographic number zero U+3007)