manchmal in Wirklichkeit sind?
* Beachte Fußnoten auf zwei Seiten.
==== 4.03 ====
Das ist normalerweise geradlinig. Beachte Ausnahmen bei und .
==== 4.04 ====
Details und die Syntax dafür habe ich mir noch nicht überlegt.
Beachte Fälle wie:
* et.a.b.hoc est (hier normalisieren wir bisher die spaces, also „`et .a.b. hoc est`“)
* .a.b:c.d:e.f.
* .`
`a.b.
* Wort-Abkürzungen
* `&c.` etc.
Das Skript kann sich darauf verlassen, dass die Floats bereits aus dem Absatz herausgezogen sind. Dadurch wird das Markieren von in Floats erleichtert. Das Skript kann sich aber nicht darauf verlassen, dass Wortabkürzungen bereits in `` sind. Der Punkt am Ende von `` zum Beispiel in ex `.7. quinti Eucl.` wird außerdem oft noch als Satzendepunkt gebraucht.
==== 4.05 ====
Beachte:
* `<_>` und `<^>` wurden in Schritt 3.06 in `` und `` umbenannt.
* in einem Absatz in italics ergibt wieder upright.
* Kombinationen wie `it bf`
==== 4.06 tables ====
Beachte die unterschiedlichen Anweisungen in den DESpecs 1.1.2 und 2.0.
==== 4.07 ====
* Automatisch erstellte `
` sind alle auf demselben level. Für eine hierarchische
-Struktur (z.B. mit front, body, back) muss die automatische
-Struktur per Hand nachbearbeitet werden.
* `n` und `level` werden mit `n="0"` und `level="0"` gefüllt und erst im Schritt 6.01 korrekt durchnumeriert. Das Skript sollte die Skripte 6.01 und 6.02 intern aufrufen. (Problem, dass 4.07 bereits vom Schritt-4-Metafilter augerufen wird?)
* Korrigiere
(automatisch?) bei den ``, die eigentlich Footer sind.
Man kann bereits im raw text zum Beispiel
einzufügen (beachte: dann sollte auch der type in
geändert werden). Braucht man dazu ein tool, oder geht das so? Was ist die Verbindung zum -Skript? Braucht man ein tool zur manuellen Nachbearbeitung der automatisch erstellten
?
==== 4.08 Formatieren ====
=== 5. Textanalyse ===
Die Hierarchie der inline-Elemente (z.B. in plaintext, [ im inline model) legt vermutlich noch keine Verarbeitungsreihenfolge nahe.
==== 5.01 ====
Beachte:
* der modifier letter us ꝰ wird manchmal für `'` gehalten
* Problem der Wort-Abkürzungen mit Kasus, zum Beispiel `ex .7. quinti Eucl.`. Verwende dort `][`, falls möglich.
Das Skript erwartet und hinterlässt den Text in NRC-Normalform. Escape sequences wie `'`, die manche Text-Editoren für `'` substituieren, werden aufgelöst.
==== 5.02 ====
==== 5.03 ====
(Verwende das Skript `Filter_roman_numbers.pl`: für römische Zahlen.)
==== 5.04 Formeln ====
Das Skript [source:trunk/schema/scripts/workflow/Filter_5_04_formulae.pl Filter_5_04_formulae] soll korrektes MathML erzeugen (oder zumindest korrektes TeX, das dann umgewandelt werden kann). Inwieweit das realistisch ist, weiß ich noch nicht. Zumindest bei einfachen Brüchen wie {5/8} sollte das jedoch möglich sein.
==== 5.05 ====
==== 5.06 GIS ====
==== 5.07 Abgleich mit Donatus ====
==== 5.08 allgemeines Test-Skript ====
=== 6. weitere Skripte ===
==== 6.01 div-Attribute ====
(Nummer anpassen)
==== 6.02 Nebenwirkungen von XSLT ausgleichen ====
Ein Skript, das nach Anwenden eines XSLT-Skripts das DTD-Fragment wieder einfügt und weitere Nebeneffekte von XSLT-Skripten rückgängig macht, insbesondere die Formatierung der Präambel.
=== 7. scholarly workflow ===
=== Anmerkungen ===
* Das Grundgerüst für die Skripte ist [source:trunk/schema/scripts/workflow/Filter_template.pl dieses template].
* Figures nachbearbeiten und ausschneiden: Sollte das ans Ende von Schritt 2? (und beachte DESpecs 1.1.2 versus 2.0)
* Wo werden sich überschneidende Hierarchien aufgelöst? Zum Beispiel Fußnoten, die auf der nächsten Seite weitergehen; Text flows mit getrennten Seitennumerierungen wie im Eipo-Text und den Conimbricenses; Absätze, die in einer column anfangen und in der nächsten column aufhören
* Das Skript zur Normalisierung der Interpunktion (Filter_punctuation.pl) habe ich vorläufig weggelassen, weil es vermutlich merkwürdige Nebenwirkungen hat. Zum Beispiel spaces vor „:“ weg. (Hier ist die Frage, ob wir Information verlieren, die wir gerne konservieren würden. Beispiel „EPISTOL AE“). Ziel ist wieder, dass sich die folgenden Skripte auf ein einheitliches Format verlassen können. Beispielsweise müsste das reg-Skript, das unter anderem `q;` durch `que` ersetzt, nicht noch prüfen, ob es `q ;` gibt.
* Filter_Archimedes_to_ECHO.pl: Dieses Skript habe ich für die Umwandlung von Song Yingxing verwendet. Für europäische Texte müsste es überarbeitet werden.
== Besonderheiten bei chinesischen Texten ==
=== Zeichenvarianten ===
== Andere Workflows ==
Wenn Zwischenformet: Nützt es etwas, die doc-Datei als "Office Open XML"-Text abspeichern, oder ist es einfacher, ihn anders zu bearbeiten?
]