Context Navigation

Changes between Version 21 and Version 22 of workflow

Timestamp:: May 25, 2010, 2:02:26 PM (15 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

workflow

-                      v21
+                      v22
 ==== 2.01 Metadaten ====
 …
 ==== 2.08 prüfe <s> ====
+Das Skript [source:trunk/schema/scripts/workflow/Filter_2_08_check_s.pl Filter_2_08_check_s] soll prüfen, ob beim Einfügen von <s> etwas schiefgehen wird. Wie das genau funktionieren soll, ist noch nicht klar. Kann man hier das s-Skript aufrufen, oder kommt man dann durcheinander, weil so viele Skripte dazwischen den Text verändern? Eventuell kann man hier diese Skript gleich mit aufrufen.
+Das Skript [source:trunk/schema/scripts/workflow/Filter_2_08_check_s.pl Filter_2_08_check_s] soll prüfen, ob beim Einfügen von <s> in Schritt 4.04 etwas schiefgehen wird. Zum Beispiel:
+  * verdächtig kurze <s>
+  * Zeichen, die normalerweise nicht am Anfang von <s> stehen sollten:
+{{{
+Drei Punkte ... sind keine Satzpunkte.
+<s>Drei Punkte .</s><s>.. sind keine Satzpunkte. </s>
+}}}
+(Kann man hier das s-Skript aufrufen, oder kommt man dann durcheinander, weil so viele Skripte dazwischen den Text verändern? Eventuell kann man hier diese Skripte gleich mit aufrufen. Ausgangspunkt ist jedenfalls das alte Skript {{{Filter_4_04a_test_s.pl}}}.)
 …
 === 3. Schritte bis zu wohlgeformtem xml ===
+Diese Skripte in diesem Arbeitsschritt sollten problemlos durchlaufen und können daher in einem Meta-Skript [source:trunk/schema/scripts/workflow/Filter_3_make_wellformed.pl Filter_3_make_wellformed] zusammengefasst werden. Das Skript [source:trunk/schema/scripts/workflow/Filter_3_test_wellformedness.pl Filter_3_test_wellformedness]
+prüft anschließend, ob das Ergebnis wohlgeformt ist. Wenn der Text wohlgeformtes XML ist, sollte man ihn mit Dateiendung in {{{xml}}} (im Verzeichnis {{{xml/}}} statt {{{raw/}}}) abspeichern.
+Diese Skripte in diesem Arbeitsschritt sollten problemlos durchlaufen und können daher in einem Meta-Skript [source:trunk/schema/scripts/workflow/Filter_3_make_wellformed.pl Filter_3_make_wellformed] zusammengefasst werden.
+Das Skript [source:trunk/schema/scripts/workflow/Filter_3_test_wellformedness.pl Filter_3_test_wellformedness]
+prüft anschließend, ob das Ergebnis wohlgeformt ist. (Dieses Skript ist zurzeit ein Wrapper für xmllint. Ich werde es wahrscheinlich noch auf ein Perl-Modul statt xmllint umstellen.)
+Wenn der Text wohlgeformtes XML ist, sollte man ihn mit Dateiendung in {{{xml}}} (im Verzeichnis {{{xml/}}} statt {{{raw/}}}) abspeichern.
 …
 === 4. schema-konform machen ===
+Wie in Schritt 3 sollten diese Skripte problemlos durchlaufen und können daher in einem Meta-Skript [source:trunk/schema/scripts/workflow/Filter_4_make_valid.pl Filter_4_make_valid] zusammengefasst werden. Das Skript  [source:trunk/schema/scripts/workflow/Filter_4_test_validity.pl Filter_4_test_validity] test dann, ob das Ergebnis schemakonform ist.
+Wie in Schritt 3 sollten diese Skripte problemlos durchlaufen und können daher in einem Meta-Skript [source:trunk/schema/scripts/workflow/Filter_4_make_valid.pl Filter_4_make_valid] zusammengefasst werden.
+Das Skript  [source:trunk/schema/scripts/workflow/Filter_4_test_validity.pl Filter_4_test_validity] test dann, ob das Ergebnis schemakonform ist. (Dieses Skript ist ein Wrapper für Jing, das die eigentliche Validierung macht.)
 Eine Ausnahme für das problemlose Durchlaufen kann das Skript für <s> sein.
 …
 ==== 4.06 tables ====
+[source:trunk/schema/scripts/workflow/Filter_4_06_tables.pl Filter_4_06_tables]
+wann werden die tables bearbeitet? zwei Schritte: überhaupt syntaktisch korrekt, und dann größtmögliche Annäherung an das Original (erst im scholarly workflow).
+beachte DESpecs 1.1.2 versus 2.0
+Das Skript [source:trunk/schema/scripts/workflow/Filter_4_06_tables.pl Filter_4_06_tables], das in Schritt 2.09 vorbereitet wurde, verwandelt die Tabellen-Syntax der DESpecs in gültiges xhtml.
+Wie schon in Schritt 2.09 wird hier nicht geprüft, ob die Tabelle tatsächlich dem Original nahekommt. Dies passiert erst im scholarly workflow.
+Beachte die unterschiedlichen Anweisungen in den DESpecs 1.1.2 und 2.0.
 ==== 4.07 <div> ====
+[source:trunk/schema/scripts/workflow/Filter_4_07_insert_div.pl Filter_4_07_insert_div]
 {{{<div>}}}-Struktur für das Inhaltsverzeichnis erstellen: Erstmal {{{<div>}}} von einer {{{<head>}}}-Gruppe bis zum nächsten. Automatisch erstellte {{{<div>}}} sind alle auf demselben level. {{{n}}} und {{{level}}} werden mit {{{n="0"}}} und {{{level="0"}}} gefüllt. Korrigiere anschließend (automatisch?) bei den {{{<head>}}}, die eigentlich Footer sind.
+(Dieser Schritt ist nicht wirklich nötig für einen schemakonformen, aber man bekommt es quasi geschenkt.)
+Das Skript [source:trunk/schema/scripts/workflow/Filter_4_07_insert_div.pl Filter_4_07_insert_div] fügt eine simple <div>-Struktur in den Text ein, indem es bei jeder <head>-Gruppe ein <div> beginnen lässt. Dadurch bekommt der Text ein rudimentäres Inhaltsverzeichnis. (Dieser Schritt ist nicht wirklich nötig für einen schemakonformen, aber man bekommt es quasi geschenkt.)
+  * Automatisch erstellte {{{<div>}}} sind alle auf demselben level. Für eine hierarchische <div>-Struktur muss die automatische <div>-Struktur per Hand nachbearbeitet werden.
+  * {{{n}}} und {{{level}}} werden mit {{{n="0"}}} und {{{level="0"}}} gefüllt und erst im Schritt 5.06 korrekt durchnumeriert.
+  * Korrigiere <div> (automatisch?) bei den {{{<head>}}}, die eigentlich Footer sind.
 …
+=== 5. weitere Schritte ===
+Hier gibt es einen Einschnitt im workflow: Der schemakonforme xml-Text wird bearbeitet. Es ist dann nicht mehr möglich, einfach zum raw text zurückzukehren und alle Bearbeitungsschritte noch einmal zu machen.
+Die Nummern dieser Skripte können sich noch ändern. Legt die Hierarchie der inline-Elemente (z.B. <var> in plaintext, <ref> im inline model) eine Verarbeitungsreihenfolge nahe?
+=== 5. weitere Schritte und scholarly workflow ===
+Hier gibt es einen Einschnitt im workflow: Der schemakonforme xml-Text wird bearbeitet. Es ist dann nicht mehr möglich, einfach zum raw text zurückzukehren und alle Bearbeitungsschritte noch einmal zu machen. Dies fällt, wie schon in Schritt 2 gesagt, idealerweise mit dem Beginn des scholarly workflow zusammen.
+Die Nummern dieser Skripte in diesem Schritt skönnen sich noch ändern. Legt die Hierarchie der inline-Elemente (z.B. <var> in plaintext, <ref> im inline model) eine Verarbeitungsreihenfolge nahe?
 ==== 5.01 <reg> ====
+[source:trunk/schema/scripts/workflow/Filter_5_01_insert_reg.pl Filter_5_01_insert_reg] (mit Parametern)
 Problem der Wort-Abkürzungen mit Kasus. Verwende dort {{{<ref>}}}, falls möglich.
 Test: Kein Zeichen, das normalisiert werden soll, darf hinterher noch im Text (außerhalb von {{{<reg>}}}) sein, zum Beispiel kein Zeichen mit Tilde (mit Ausnahmen in manchen Sprachen). Für !Latein/Benedetti:
   * Zeichen mit Tilde (ã ẽ ĩ õ ũ ñ)
   * combining tilde (insbesondere p̃ t̃ q̃ r̃)
   * combining acute (insbesondere q́)
   * medievalist characters: ꝑ ꝓ ꝗ ꝗ̃ ꝙ ꝰ  ́ ꝯ
+Das Skript [source:trunk/schema/scripts/workflow/Filter_5_01_insert_reg.pl Filter_5_01_insert_reg] regularisiert den Text. Für eine ausführlichere Diskussion von <reg> siehe [wiki:regularisierung hier].
+Wie beim <s>-Skript kann man hier einige Parameter wählen. Details stehen noch nicht fest.
+Kein Zeichen, das normalisiert werden soll, darf hinterher noch im Text (außerhalb von {{{<reg>}}}) sein, zum Beispiel kein Zeichen mit Tilde (mit Ausnahmen in manchen Sprachen). Für !Latein/Benedetti:
+  * Zeichen mit Tilde: ã ẽ ĩ õ ũ ñ
+  * combining tilde, insbesondere p̃ t̃ q̃ r̃ (viele Fonts zeigen solche combining characters nicht über, sondern neben dem Zeichen an; dann muss der User einen Font wähen, der sich besser an die Unicode-Vorgaben hält)
+  * combining acute, insbesondere q́
+  * medievalist characters: ꝑ ꝓ ꝗ ꝗ̃ ꝙ ꝰ  ́ ꝯ (geeignete Fonts sind Andron, Junicode und Palemonas, die man [http://www.mufi.info/fonts/ hier] bekommt)
   * weitere: ę ĺ
+  * Apostroph: insbesondere wird ꝰ manchmal für {{{'}}} gehalten (in den Abschnitten in Benedetti mit {{{xml:lang="it"}}} bzw. {{{xml:lang="ita"}}} ist {{{'}}} dagegen erlaubt)
+mit [source:trunk/schema/scripts/script-tests/reg-testparcours.txt testparcours]
+  * Apostroph: in den Abschnitten in Benedetti mit {{{xml:lang="it"}}} bzw. {{{xml:lang="ita"}}} ist {{{'}}} dagegen erlaubt
+Beachte:
+  * der modifier letter us ꝰ wird manchmal für {{{'}}} gehalten
+  * Problem der Wort-Abkürzungen mit Kasus, zum Beispiel {{{ex .7. quinti Eucl.}}}. Verwende dort {{{<ref>}}}, falls möglich.
+Für dieses Skript gibt es einen [source:trunk/schema/scripts/script-tests/reg-testparcours.txt testparcours].
 ==== 5.02 <var> ====
+[source:trunk/schema/scripts/workflow/Filter_5_02_insert_var.pl Filter_5_02_insert_var] (mit Parametern)
+Ziel: verberge den Inhalt vor der morphologischen Analyse
 Entferne {{{<emph>}}} in Variablen.
+mit [source:trunk/schema/scripts/script-tests/var-testparcours.txt testparcours]
+Das Skript [source:trunk/schema/scripts/workflow/Filter_5_02_insert_var.pl Filter_5_02_insert_var] fügt <var> um Variablen ein. Ein Ziel ist, den Inhalt vor der morphologischen Analyse zu verbergen.
+Eventuell hat dieses Skript ebenfalls Parameter, nämlich wie Variablen im Text aussehen.
+Entferne {{{<emph>}}} in Variablen.
+Für das Skript gibt es einen [source:trunk/schema/scripts/script-tests/var-testparcours.txt testparcours].
 ==== 5.03 <num> ====
+[source:trunk/schema/scripts/workflow/Filter_5_03_insert_num.pl Filter_5_03_insert_num]
+Ziel wieder: verberge den Inhalt vor der morphologischen Analyse
+[source:trunk/schema/scripts/workflow/Filter_roman_numbers.pl Filter_roman_numbers] (nicht im repository): <num value="..."> für römische Zahlen, wird eventuell Teil des num-Skriptes.
+Das Skript [source:trunk/schema/scripts/workflow/Filter_5_03_insert_num.pl Filter_5_03_insert_num] fügt <num> um Zahlen ein, die nicht in der in modernen westlichen Texten üblichen Weise geschrieben sind. Deshalb werden zum Beispiel wohl auch chinesische Zahlen in chinesischen Texten markiert. Ein Ziel ist wieder, den Inhalt vor der morphologischen Analyse zu verbergen.
+(Verwende das Skript {{{Filter_roman_numbers.pl}}}: <num value="..."> für römische Zahlen. Es gibt auch ein Skript, um chinesische Seitenzahlen in westliche Zahlen umzuwandeln.)
 ==== 5.04 Formeln ====
+[source:trunk/schema/scripts/workflow/Filter_5_04_formulae.pl Filter_5_04_formulae]
+?
+Das Skript [source:trunk/schema/scripts/workflow/Filter_5_04_formulae.pl Filter_5_04_formulae] soll korrektes MathML (oder zumindest korrektes TeX) erzeugen. Inwieweit das realistisch ist, weiß ich noch nicht.
 ==== 5.05 <foreign> ====
+[source:trunk/schema/scripts/workflow/Filter_5_05_insert_foreign.pl Filter_5_05_insert_foreign]
 Füge {{{<foreign>}}} zumindest für griechischen Text (erkennbar an den verwendeten Zeichen) ein, und {{{xml:lang}}}.
+Das Skript [source:trunk/schema/scripts/workflow/Filter_5_05_insert_foreign.pl Filter_5_05_insert_foreign] soll fremdsprachliche Textstellen markieren.
+Füge {{{<foreign xml:lang="el">}}} zumindest für griechischen Text (erkennbar an den verwendeten Zeichen) ein. Durch eine minimale linguistische Analyse des Textes kann man sicher auch weitere fremdsprachliche Textstücke korrekt erkennen.
 ==== 5.06 div-Attribute ====
+[source:trunk/schema/scripts/workflow/Filter_5_06_number_divs.pl Filter_5_06_number_divs]
+Das Skript [source:trunk/schema/scripts/workflow/Filter_5_06_number_divs.pl Filter_5_06_number_divs] numeriert die Attribute {{{<div level="..." n="...">}}} korrekt durch. (Das Skript ist ein Wrapper für das xslt-Skript {{{number-divs.xsl}}}, das die eigentliche Arbeit macht.)
 Es muss möglich sein, bereits im raw text korrektes XML zu verwenden, ohne dass die Skripte darüber stolpern. Beispielsweise muss man <div type="body"> einfügen können (beachte: dann sollte auch der type in <text> geändert werden). Braucht man dazu ein tool, oder geht das so? Was ist die Verbindung zum <div>-Skript? Braucht man ein tool zur manuellen Nachbearbeitung der automatisch erstellten <div>?
+==== Abgleich mit Donatus ====
+==== 5.07 GIS ====
+Füge GIS-Elemente in ausgewählte Texte ein: {{{<person>}}}, {{{<place>}}}, {{{<time>}}}, {{{<event>}}}. Für eine ausführlichere Diskussion siehe [wiki:"2010-04-15 GIS meeting" hier].
+==== 5.08 Abgleich mit Donatus ====
+In Zukunft soll die Textqualität durch linguistische Analysewerkzeuge verbessert werden (siehe auch Schritt 5.05). Einige Verbesserungen sind mit Hilfe von Donatus zumindest teilweise automatisierbar:
   * Einfügen fehlender Bindestriche
   * Korrektur von fehlenden/überflüssigen Spaces
 …
 ==== allgemeines Test-Skript ====
 Allgemeines Test-Skript? z.B. gibt es nach Anwenden des Skript zwei Spaces hintereinander? Das muss kein Fehler des Skriptes sein, aber es deutet auf ein Problem hin.
 Gesamt-Test: Keine Punkte mehr im Text, die nicht
+==== 5.09 allgemeines Test-Skript ====
+Brauchen wir ein allgemeines Test-Skript? Zum Beispiel kann es nach Anwenden eines Skriptes zwei Spaces hintereinander geben. Das muss kein Fehler des Skriptes sein, aber es deutet auf ein Problem hin.
+Ein möglicher Gesamt-Test für einen sorgfältig annotierten Text: Keine Punkte mehr im Text, die nicht
   * Satzende-Punkte sind ({{{<s>Bla bla bla. </s>}}})
   * in einem Tag verschwinden ({{{<ref>ex .7. quinti Eucl.</ref>}}})
 …
+=== scholarly workflow ===
+==== 5.10 scholarly workflow ====
+Einige Standard-Aufgaben des scholarly workflow, die teilweise bereits im Schema angelegt sind:
+  * IDs einfügen (es könnte ein Modul geben, in dem das {{{id}}}-Attribut gefordet wird, und das mit der Zwiebelstruktur in diesem Stadium in Aktion tritt. Dann müssen wir nicht in den usage guide schreiben: Es ist zwar formal optional, aber es sollte verwendet werden.)
   * ersetze {{{<wrong/>}}} durch {{{<sic/>}}} oder entferne es; löse {{{<unsure/>}}} auf
   * weitere {{{<reg>}}}, Korrekturen von bestehenden {{{<reg>}}}
 …
   * Wörter mit einzelnen Großbuchstaben mitten im Wort ({{{ClaZomenius}}}). Häufig ist die Ursache ein fehlendes Space vor dem Großbuchstaben.
+Diese Aufgaben sollten durch interaktive tools unterstützt werden.
 === Reste ===
+[source:trunk/schema/scripts/workflow/Filter_template.pl Filter_template]
+Das Grundgerüst für alle Filter ist
+[source:trunk/schema/scripts/workflow/Filter_template.pl dieses template].
 Figures nachbearbeiten; beachte DESpecs 1.1.2 versus 2.0
+IDs einfügen (es könnte ein Modul geben, in dem das {{{id}}}-Attribut gefordet wird, und das mit der Zwiebelstruktur in diesem Stadium in Aktion tritt. Dann müssen wir nicht in den usage guide schreiben: Es ist zwar formal optional, aber es sollte verwendet werden.)
+GIS: {{{<person>}}}, {{{<place>}}}, {{{<time>}}}, {{{<event>}}}
+[source:trunk/schema/scripts/workflow/Filter_punctuation.pl Filter_punctuation] (nicht im repository): Das Skript zur Normalisierung der Interpunktion habe ich vorläufig weggelassen, weil es vermutlich merkwürdige Nebenwirkungen hat. Zum Beispiel spaces vor „:“ weg. (Hier ist die Frage, ob wir Information verlieren, die wir gerne konservieren würden. Beispiel „EPISTOL AE“). Ziel ist wieder, dass sich die folgenden Skripte auf ein einheitliches Format verlassen können. Beispielsweise müsste das reg-Skript, das unter anderem {{{q;}}} durch {{{que}}} ersetzt, nicht noch prüfen, ob es {{{q ;}}} gibt.
+[source:trunk/schema/scripts/workflow/Filter_Archimedes_to_ECHO.pl Filter_Archimedes_to_ECHO] (nicht im repository): Dieses Skript habe ich für die Umwandlung von Song Yingxing verwendet. Für europäische Texte müsste es überarbeitet werden.
+[source:trunk/schema/scripts/workflow/Filter_4_04a_test_s.pl Filter_4_04a_test_s] ??
+Filter_punctuation.pl: Das Skript zur Normalisierung der Interpunktion habe ich vorläufig weggelassen, weil es vermutlich merkwürdige Nebenwirkungen hat. Zum Beispiel spaces vor „:“ weg. (Hier ist die Frage, ob wir Information verlieren, die wir gerne konservieren würden. Beispiel „EPISTOL AE“). Ziel ist wieder, dass sich die folgenden Skripte auf ein einheitliches Format verlassen können. Beispielsweise müsste das reg-Skript, das unter anderem {{{q;}}} durch {{{que}}} ersetzt, nicht noch prüfen, ob es {{{q ;}}} gibt.
+Filter_Archimedes_to_ECHO.pl: Dieses Skript habe ich für die Umwandlung von Song Yingxing verwendet. Für europäische Texte müsste es überarbeitet werden.