Context Navigation

Changes between Version 12 and Version 13 of workflow

Timestamp:: May 24, 2010, 10:52:28 AM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

workflow

-                      v12
+                      v13
 (Alle in getrennte Dateien? Oder ist das dann auch wieder übertrieben? Getrennte Datei doof für Skripte, weil sie die Datei dann finden müssen? Also doch gleich in den raw text?)
+Das Skript zur Normalisierung der Interpunktion habe ich vorläufig weggelassen, weil es vermutlich merkwürdige Nebenwirkungen hat. Zum Beispiel spaces vor „:“ weg. (Hier ist die Frage, ob wir Information verlieren, die wir gerne konservieren würden. Beispiel „EPISTOL AE“). Ziel ist wieder, dass sich die folgenden Skripte auf ein einheitliches Format verlassen können. Beispielsweise müsste das reg-Skript, das unter anderem {{{q;}}} durch {{{que}}} ersetzt, nicht noch prüfen, ob es {{{q ;}}} gibt.
+Es muss möglich sein, bereits im raw text korrektes XML zu verwenden, ohne dass die Skripte darüber stolpern. Beispielsweise muss man <div type="body"> einfügen können.
 …
 [source:trunk/schema/scripts/workflow/Filter_2_06_check_underscores.pl Filter_2_06_check_underscores]
 {{{_ _}}} werden erst später in <it> verwandelt, aber hier wird bereits geprüft, ob es Probleme geben wird (bzw. die Fehler werden per Hand korrigiert)
+{{{_ _}}} werden erst in Schritt 3.04 in <it> verwandelt, aber hier wird bereits geprüft, ob es Probleme geben wird (bzw. die Fehler werden per Hand korrigiert)
 ==== 2.07 prüfe tags ====
+Das Skript
 [source:trunk/schema/scripts/workflow/Filter_2_07_check_tags.pl Filter_2_07_check_tags]
+prüft ein paar Fälle, die nicht vorkommen sollten und auf Fehler bei der Transkription hindeuten. Der Sinn dieser Prüfung ist auch, dass sich die weiteren Skripte auf die Einhaltung dieser formalen Dinge verlassen können.
+  * {{{<h>}}}, {{{<mgl>}}}, {{{<mgr>}}}, {{{<fig>}}} jeweils nicht in allein in einer Zeile, bei {{{<pb>}}} nur noch {{{<rh>}}} erlaubt
+  * nicht-existente Elemente, wie z.B. in {{{<scG</sc>}}}, oder auch {{{<sup>9</sup>}}} statt {{{<^>9</^>}}} (aber siehe unten)
+  * verschachtelte {{{<p>}}} (vermutlich ein {{{<p>}}} zuviel), und entsprechend für {{{<h>}}} etc.
+  * {{{</p>}}} ohne vorhergehendes {{{<p>}}}, und entsprechend für {{{<h>}}} etc.
+  * zusammengehörende Tags wie {{{<p>}}} und {{{</p>}}} liegen sehr weit auseinander
+  * zusammengehörende Tags wie {{{<rh>}}} und {{{</rh>}}} sind nicht in der gleichen Zeile
+(noch nicht vollständig umgesetzt, funktioniert aber in der Praxis schon sehr gut)
 ⟶ replacements zum Beispiel: << « (lines 41 to 43)
 …
 --> das Skript sollte alles vor dem ersten <pb> ignorieren
+mit [source:trunk/schema/scripts/script-tests/check_tags-testparcours.txt testparcours]
 …
 [source:trunk/schema/scripts/workflow/Filter_3_make_wellformed.pl Filter_3_make_wellformed]. Das Skript [source:trunk/schema/scripts/workflow/Filter_3_test_wellformedness.pl Filter_3_test_wellformedness]
 prüft anschließend, ob das Ergebnis wohlgeformt ist.
+Wenn der Text wohlgeformtes XML ist, sollte man ihn mit Dateiendung in {{{xml}}} im Verzeichnis {{{xml/}}} statt {{{raw/}}} abspeichern.
 …
 [source:trunk/schema/scripts/workflow/Filter_3_04_replace_underscores.pl Filter_3_04_replace_underscores]
+Ersetze {{{_ _}}} für {{{style="it"}}}. Diese Ersetzung ist nicht Teil des emph-Skriptes, weil sie vor <s> passieren sollte und in Schritt 1 bereits vorbereitet wurde.
 ==== 3.05 Metadaten, root element ====
+Das Skript
 [source:trunk/schema/scripts/workflow/Filter_3_05_add_basic_xml.pl Filter_3_05_add_basic_xml]
+auch: log !
+ergänzt {{{<?xml version="1.0" encoding="UTF-8"?>}}}, und fügt das root element {{{<echo>}}} sowie {{{<metadata>}}} und {{{<text type="free">}}} ein.
+auch: log wird zu {{{<dcterms:description>}}}
 …
 [source:trunk/schema/scripts/workflow/Filter_3_06_make_tags_wellformed.pl Filter_3_06_make_tags_wellformed]
+  * reservierte Zeichen in XML: {{{&}}} wird zu {{{&amp;}}}. Das Skript kann mehrere Male aufgerufen werden, es wird also aus {{{&amp;}}} nicht {{{&amp;amp;}}}.
+  * Attribute: {{{<... it>}}} wird zu {{{<... style="it">}}}, genauso für {{{fr}}}
+  * ändere die Element-Namen der DESpecs in ihre Gegenstücke im ECHO Schema. Konzeptionell gibt es mehrere Teile: 1. ergänze „{{{/}}}“ in den ungeschlossenen Elementen wie {{{<pb>}}} und {{{<hd>}}}, 2. korrigiere verbotene Element-Namen wie {{{<^>}}}, 3. benenne die Elemente so, wie sie im Schema heißen.
 === 4. schema-konform machen ===
 …
 [source:trunk/schema/scripts/workflow/Filter_4_01_pb.pl Filter_4_01_pb]
+verwandle {{{<rh>}}} in ein Attribut {{{rhead}}} in {{{<pb>}}}, ignoriere dabei alle Formatierungen wie kursiv, gesperrt, etc.
 ==== 4.02 floats herausziehen ====
 …
 auch aus <h>, oder lieber Fehler provozieren?
+Floats aus Absätzen herausziehen (vor "{{{<s>}}} bestimmen" !):{{{<anchor>}}}, {{{<div type="float">}}} nach dem Absatz.
+Vorsicht bei anchored marginal notes. Prüfe bei anchors im Text, ob es eine zugehörige note gibt. Akzeptiere kleine Abweichungen der Symbole voneinander, zum Beispiel {{{3)}}} im Text und {{{3}}} in der Fußnote
 ==== 4.03 <lb> ====
+[source:trunk/schema/scripts/workflow/Filter_4_03_insert_lb.pl Filter_4_03_insert_lb]
+Das Skript [source:trunk/schema/scripts/workflow/Filter_4_03_insert_lb.pl Filter_4_03_insert_lb] verwandelt Zeilenumbrüche in <lb/>.
 ==== 4.04 <s> ====
+[source:trunk/schema/scripts/workflow/Filter_4_04_insert_s.pl Filter_4_04_insert_s] (eventuell mit Parameter-Wahl; eventuelle manuelle Korrekturen im raw text!)
+Das Skript [source:trunk/schema/scripts/workflow/Filter_4_04_insert_s.pl Filter_4_04_insert_s] fügt <s> ein. Beachte Fälle wie:
+  * et.a.b.hoc est
+  * .a.b:c.d:e.f.
+  * .{{{<lb/>}}}a.b.
+  * Wort-Abkürzungen (hier wäre es einerseits hilfreich, wenn Wortabkürzungen bereits in {{{<reg>}}} wären; andererseits wird der Punkt am Ende von {{{<reg>}}} zum Beispiel in {{{ex .7. quinti <reg>Eucl.</reg>}}} oft noch als Satzendepunkt gebraucht)
+  * {{{&c.}}} etc.
+(eventuell mit Parameter-Wahl; eventuelle manuelle Korrekturen im raw text!)
+==== 4.05 <emph> ====
+[source:trunk/schema/scripts/workflow/Filter_4_05_emph.pl Filter_4_05_emph]
+Ersetze Fomatierungs-Elemente durch {{{<emph style="...">}}}. Denke an {{{<sub>}}} und {{{<super>}}}. Verschiebe style-Informationen so wie wie möglich nach oben im xml, zum Beispiel \\ {{{<p><emph style="it">text</emph>.</p>}}} wird zu \\ {{{<p style="it">text.</p>}}}. Anderes Beispiel: \\ {{{<mgl>_eine kur-_<lb/>_ze Notiz._</mgl>}}}
+mit [source:trunk/schema/scripts/script-tests/emph-testparcours.txt testparcours]
+==== 4.06 tables ====
+[source:trunk/schema/scripts/workflow/Filter_4_06_tables.pl Filter_4_06_tables]
+wann werden die tables bearbeitet? zwei Schritte: überhaupt syntaktisch korrekt, und dann größtmögliche Annäherung an das Original (erst im scholarly workflow).
+beachte DESpecs 1.1.2 versus 2.0
+==== 4.07 <div> ====
+[source:trunk/schema/scripts/workflow/Filter_4_07_insert_div.pl Filter_4_07_insert_div]
+{{{<div>}}}-Struktur für das Inhaltsverzeichnis erstellen: Erstmal {{{<div>}}} von einer {{{<head>}}}-Gruppe bis zum nächsten. Automatisch erstellte {{{<div>}}} sind alle auf demselben level. {{{n}}} und {{{level}}} werden mit {{{n="0"}}} und {{{level="0"}}} gefüllt. Korrigiere anschließend (automatisch?) bei den {{{<head>}}}, die eigentlich Footer sind.
+(Dieser Schritt ist nicht wirklich nötig für einen schemakonformen, aber man bekommt es quasi geschenkt.)
+==== 4.08 Formatieren ====
+Wenn der Text schemakonform ist, kann man ihn neu formatieren. Es müssen keine Zeilen umgebrochen werden, sondern nur die Anzahl der Leerzeichen am Anfang normalisiert werden.
+=== 5. weitere Schritte ===
+Hier gibt es einen Einschnitt im workflow: Der schemakonforme xml-Text wird bearbeitet. Es ist dann nicht mehr möglich, einfach zum raw text zurückzukehren und alle Bearbeitungsschritte noch einmal zu machen.
+Die Nummern dieser Skripte können sich noch ändern. Legt die Hierarchie der inline-Elemente (z.B. <var> in plaintext, <ref> im inline model) eine Verarbeitungsreihenfolge nahe?
+==== 5.01 <reg> ====
+[source:trunk/schema/scripts/workflow/Filter_5_01_insert_reg.pl Filter_5_01_insert_reg] (mit Parametern)
+Problem der Wort-Abkürzungen mit Kasus. Verwende dort {{{<ref>}}}, falls möglich.
+Test: Kein Zeichen, das normalisiert werden soll, darf hinterher noch im Text (außerhalb von {{{<reg>}}}) sein, zum Beispiel kein Zeichen mit Tilde (mit Ausnahmen in manchen Sprachen). Für !Latein/Benedetti:
+  * Zeichen mit Tilde (ã ẽ ĩ õ ũ ñ)
+  * combining tilde (insbesondere p̃ t̃ q̃ r̃)
+  * combining acute (insbesondere q́)
+  * medievalist characters: ꝑ ꝓ ꝗ ꝗ̃ ꝙ ꝰ  ́ ꝯ
+  * weitere: ę ĺ
+  * Apostroph: insbesondere wird ꝰ manchmal für {{{'}}} gehalten (in den Abschnitten in Benedetti mit {{{xml:lang="it"}}} bzw. {{{xml:lang="ita"}}} ist {{{'}}} dagegen erlaubt)
+mit [source:trunk/schema/scripts/script-tests/reg-testparcours.txt testparcours]
+==== 5.02 <var> ====
+[source:trunk/schema/scripts/workflow/Filter_5_02_insert_var.pl Filter_5_02_insert_var] (mit Parametern)
+Ziel: verberge den Inhalt vor der morphologischen Analyse
+Entferne {{{<emph>}}} in Variablen.
+mit [source:trunk/schema/scripts/script-tests/var-testparcours.txt testparcours]
+==== 5.03 <num> ====
+[source:trunk/schema/scripts/workflow/Filter_5_03_insert_num.pl Filter_5_03_insert_num]
+Ziel wieder: verberge den Inhalt vor der morphologischen Analyse
+[source:trunk/schema/scripts/workflow/Filter_roman_numbers.pl Filter_roman_numbers] (nicht im repository): <num value="..."> für römische Zahlen, wird eventuell Teil des num-Skriptes.
+==== 5.04 Formeln ====
+[source:trunk/schema/scripts/workflow/Filter_5_04_formulae.pl Filter_5_04_formulae]
+?
+==== 5.05 <foreign> ====
+[source:trunk/schema/scripts/workflow/Filter_5_05_insert_foreign.pl Filter_5_05_insert_foreign]
+Füge {{{<foreign>}}} zumindest für griechischen Text (erkennbar an den verwendeten Zeichen) ein, und {{{xml:lang}}}.
+==== 5.06 div-Attribute ====
+[source:trunk/schema/scripts/workflow/Filter_5_06_number_divs.pl Filter_5_06_number_divs]
+Es muss möglich sein, bereits im raw text korrektes XML zu verwenden, ohne dass die Skripte darüber stolpern. Beispielsweise muss man <div type="body"> einfügen können (beachte: dann sollte auch der type in <text> geändert werden). Braucht man dazu ein tool, oder geht das so? Was ist die Verbindung zum <div>-Skript? Braucht man ein tool zur manuellen Nachbearbeitung der automatisch erstellten <div>?
+==== Abgleich mit Donatus ====
+  * Einfügen fehlender Bindestriche
+  * Korrektur von fehlenden/überflüssigen Spaces
+  * korrigiere Standardfehler wie fumptis, fint, bumanitate in kursiv
+==== allgemeines Test-Skript ====
+Allgemeines Test-Skript? z.B. gibt es nach Anwenden des Skript zwei Spaces hintereinander? Das muss kein Fehler des Skriptes sein, aber es deutet auf ein Problem hin.
+Gesamt-Test: Keine Punkte mehr im Text, die nicht
+  * Satzende-Punkte sind ({{{<s>Bla bla bla. </s>}}})
+  * in einem Tag verschwinden ({{{<ref>ex .7. quinti Eucl.</ref>}}})
+  * zu einer Zahl gehören ({{{.11.}}})
+=== scholarly workflow ===
+  * ersetze {{{<wrong/>}}} durch {{{<sic/>}}} oder entferne es; löse {{{<unsure/>}}} auf
+  * weitere {{{<reg>}}}, Korrekturen von bestehenden {{{<reg>}}}
+  * {{{<ref>}}}
+  * weitere {{{<foreign>}}}
+  * entferne library stamps
+  * „old-style numerals typed as letters“, zum Beispiel {{{ex .II.}}} statt {{{ex .11.}}}, aber auch andersherum: {{{10. BENEDETTI}}} statt {{{IO. BENEDETTI}}}
+  * Wörter mit einzelne griechischen oder einzelnen lateinischen Buchstaben (automatisierbar?)
+  * Wörter mit einzelnen Großbuchstaben mitten im Wort ({{{ClaZomenius}}}). Häufig ist die Ursache ein fehlendes Space vor dem Großbuchstaben.
+=== Reste ===
+[source:trunk/schema/scripts/workflow/Filter_template.pl Filter_template]
+Figures nachbearbeiten; beachte DESpecs 1.1.2 versus 2.0
+IDs einfügen (es könnte ein Modul geben, in dem das {{{id}}}-Attribut gefordet wird, und das mit der Zwiebelstruktur in diesem Stadium in Aktion tritt. Dann müssen wir nicht in den usage guide schreiben: Es ist zwar formal optional, aber es sollte verwendet werden.)
+GIS: {{{<person>}}}, {{{<place>}}}, {{{<time>}}}, {{{<event>}}}
+[source:trunk/schema/scripts/workflow/Filter_punctuation.pl Filter_punctuation] (nicht im repository): Das Skript zur Normalisierung der Interpunktion habe ich vorläufig weggelassen, weil es vermutlich merkwürdige Nebenwirkungen hat. Zum Beispiel spaces vor „:“ weg. (Hier ist die Frage, ob wir Information verlieren, die wir gerne konservieren würden. Beispiel „EPISTOL AE“). Ziel ist wieder, dass sich die folgenden Skripte auf ein einheitliches Format verlassen können. Beispielsweise müsste das reg-Skript, das unter anderem {{{q;}}} durch {{{que}}} ersetzt, nicht noch prüfen, ob es {{{q ;}}} gibt.
+[source:trunk/schema/scripts/workflow/Filter_Archimedes_to_ECHO.pl Filter_Archimedes_to_ECHO] (nicht im repository): Dieses Skript habe ich für die Umwandlung von Song Yingxing verwendet. Für europäische Texte müsste es überarbeitet werden.
 [source:trunk/schema/scripts/workflow/Filter_4_04a_test_s.pl Filter_4_04a_test_s] ??
-==== 4.05 <emph> ====
-[source:trunk/schema/scripts/workflow/Filter_4_05_emph.pl Filter_4_05_emph]
-==== 4.06 tables ====
-[source:trunk/schema/scripts/workflow/Filter_4_06_tables.pl Filter_4_06_tables]
-wann werden die tables bearbeitet? zwei Schritte: überhaupt syntaktisch korrekt, und dann größtmögliche Annäherung an das Original (erst im scholarly workflow).
-==== 4.07 <div> ====
-[source:trunk/schema/scripts/workflow/Filter_4_07_insert_div.pl Filter_4_07_insert_div] (nicht wirklich nötig für Schema-konform, aber bekommt man quasi geschenkt)
-=== 5. weitere Schritte ===
-Legt die Hierarchie der inline-Elemente (z.B. <var> in plaintext, <ref> im inline model) eine Verarbeitungsreihenfolge nahe?
-==== 5.01 <reg> ====
-[source:trunk/schema/scripts/workflow/Filter_5_01_insert_reg.pl Filter_5_01_insert_reg] (mit Parametern)
-==== 5.02 <var> ====
-[source:trunk/schema/scripts/workflow/Filter_5_02_insert_var.pl Filter_5_02_insert_var] (mit Parametern)
-==== 5.03 Formeln ====
-[source:trunk/schema/scripts/workflow/Filter_5_03_formulae.pl Filter_5_03_formulae]
+?
-==== 5.04 div-Attribute ====
-[source:trunk/schema/scripts/workflow/Filter_5_04_number_divs.pl Filter_5_04_number_divs]
-=== Reste ===
-[source:trunk/schema/scripts/workflow/Filter_template.pl Filter_template]
-[source:trunk/schema/scripts/workflow/Filter_1_6_punctuation.pl Filter_1_6_punctuation]
-[source:trunk/schema/scripts/workflow/Filter_Archimedes_to_ECHO.pl Filter_Archimedes_to_ECHO]
-[source:trunk/schema/scripts/workflow/Filter_roman_numbers.pl Filter_roman_numbers]
 == Besonderheiten bei chinesischen Texten ==
+  * beachte die in {{{echo-chinese-text}}} definierten Attribute
+  * lateinische Zeichen können durch ihre full-width-Version ersetzt sein, zum Beispiel „?“ durch „？“
+  * verarbeite character variants automatisiert
+  * verarbeite character variants im scholarly workflow so gut wie möglich. Beispielsweise würde \国 durch die Unicode-Zeichenfolge ⿴口玉 angenähert werden.
+  * Wort- und Satzgrenzen markieren (bzw. andersrum: invisible spaces innerhalb von Wörtern entfernen)
 Wie der automatisierte Workflow für chinesische Texte aussehen wird, ist noch nicht völlig klar. Wenn zum Beispiel im Text <獘V> getippt wurde, kann man das automatisiert nur zu <reg norm="獘" type="V">獘</reg> mit vorläufigem Typ "V" machen, wo also das getippte Zeichen einfach wiederholt wird. Die Variante im Text kann dann nur eine studentische Hilfskraft anhand der von !ZhongYi erstellten Excel-Tabellen "herstellen". Ziel ist eine Zeichenfolge, die das Zeichen im Text beschreibt. Hier: ⿱敝大. Und dann: