= Der Stand beim XML-Workflow

Februar 2011 

[[PageOutline(1-4,,pullout)]]

== 1. DESpecs

Data Entry Specifications (DESpecs) für europäische Texte und für chinesische Texte
 * über 100 Texte damit geschickt: [wiki:OverviewWorkOrders Übersicht]
 * erste Versionen abgeschlossen; werden weiterentwickelt
 * Regeln: einfach formuliert versus semantisch und linguistisch korrekt
 * wir wollen semantisch relevante Eigenschaften, wir bekommen optisch erkennbare Dinge
 * im Zweifelsfall: markieren lassen, hinterher prüfen und eventuell verwerfen (z.B. <col>)
 * eventuell Neubewertung, seitdem man die fertigen Texte wirklich sehen kann
 * absichtlich kein echtes XML; definierte Schnittstelle für verschiedene Transkriptionsfirmen
 * reine Textdateien, Unicode
 * escape sequences, auch für seltene Unicode-Zeichen: sonst Stochern in der Unicode-Tabelle
 * Dokumentation: 
  * die DESpecs sind im wesentlichen selbsterklärend
  * aber Designentscheidungen
  * und linguistischer Hintergrund, muss noch aufgeschrieben werden

Europäische Specs: 
 * mit Malcolm und Klaus
 * sprachunabhängige Regeln für Textstruktur
  * Seiten-Struktur
  * Textblöcke
  * Spalten
  * Tabellen im weitesten Sinne
  * Marginalien und Fußnoten
  * Abbildungen
  * nicht identifizierbare Zeichen (unbekannt, unleserlich)
 * Transkriptionsregeln für das lateinische Alphabet
  * Interpunktion
  * Zeichen
  * Schriftstile
 * Regeln für andere Sprachen und Schriftsysteme
  * Griechisch
  * Fraktur
  * Mathematik (typischer Fall: <math> von Special Instruction in die Specs)
  * Symbole
  * weiteres  Ziel war Arabisch (mit Mark), davon gibt es noch Ansätze von Specs für Arabisch

Chinesische Specs:
 * mit Martina
 * europäische Specs zwar sprachunabhängig, aber implizite Voraussetzung Alphabetschrift
 * Regeln für Textstruktur angepasst
 * killer feature: Regeln für Zeichenvarianten
 * in der Pipeline: Überarbeitung der Regeln für Zeichenvarianten 
 
Außerdem diverse [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/special-instructions Special Instructions] für europäische und chinesische Texte
 * mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg
 * etc.

technische Hilfe beim Aufbau einer vergleichbaren Gruppe bei der Partnergruppe
 * aus politischen Gründen gescheitert
 * neuen Versuch starten?
 
In der Pipeline:
 * Heytesbury
 * Cathleen-Texte (das sind nicht die Heidelberg Texte)
 * Mingli tan (klären mit Joachim)
 
== 2. ECHO-Schema

Echo-Schema 1.0
 * mit Malcolm
 * Nachfolger von Archimedes-DTD
 * geschrieben in RELAX NG compact
 * modulare Struktur
 * konsequent Unicode
 * Design-Entscheidungen:
  * ein Schema für alle texte
  * unabhängige Module
  * tags in den DESpecs sollten möglichst ein Gegenstück im Schema haben
  * aber das Schema soll die DESpecs nicht sklavisch nachmachen (die DESpecs sind nur aus pragmatischen Gründen vor dem Schema entstanden)
 * lange Liste von Ergänzungen fertig, muss hochgeladen werden

[wiki:echo-schema Dokumentation]:
 * Übersicht über Module: Gruppen von Modulen
  * Standard-Module
  * Grobstrukturierung des Textes
  * Feinstrukturierung des Textes
  * Textauszeichnung
 * damit verwandt: Module und XML-Hierarchie
 * Abhängigkeiten zwischen den Modulen
 * zeitlicher Ablauf:
  * automatisisiert und semi-automatisiert
  * scholarly workflow
 * die einzelnen tags 
  * sortiert nach Schema-Modulen
  * Verwendung, best practices z.B. bei <lb>
  * Verhältnis DESpecs-tags und Schema-tags
  * Darstellung im Anzeigesystem

Beziehung zu / Abgrenzung von TEI:
 * systematischer als TEI (korrigiert historischen Wildwuchs)
 * strikter als TEI
 * <s>: wissenschaftliches Arbeiten
 * nur das, was wir konkret verwenden / anzeigen
 * TEI ist kein einheitlicher Standard, sondern eine Familie von Standards
 * trotzdem TEI als Austauschformat

== 3. Workflow

Konzept des Workflows: Schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten
 * [wiki:workflow Dokumentation]
 * Skripte in Perl und XSLT
 * Umsetzung als Textfilter
 * so lange wie möglich: Arbeiten mit .txt statt .xml
 * Beziehung zwischen DESpecs, Schema, Workflow: berücksichtige verschiedene DESpecs-Versionen
 * Es gibt fast nie Rückmeldungen zu den erstellten XML-Texten. Arbeitet eigentlich jemand mit den Texten, z.B. mit den 20 Vitruv-Texten?

Schritte bis zur endgültigen Transkription:
 * Klaus: vorbereiten, überprüfen
 * Fragen beantworte meistens ich. 
  * Letzter Work Order (WO 10) bestand aus besonders schwierigen Texten, die bisher liegengeblieben waren. Großer Aufwand bei der Beantwortung der Fragen. 
  * Müssen noch in die DESpecs überführt werden. 
  * Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel Wimmelbilder-Figures. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können.

Schritte nach Erhalt der endgültigen Transkription:
 * Konzept und Implementation
 * Workflow durchführen: meistens Klaus
 * zusätzlich: Figures ausschneiden: Beschreibung von Klaus, durchgeführt von Student
 * Im [wiki:workflow#a1.Vorbereitungen ersten Schritt] werden alle Vorbereitungen getroffen, um mit dem raw text arbeiten zu können. 
  * Text in das repository
  * Abstimmung mit Foxridge: index.meta
 * Im [wiki:workflow#a2.rawtextbearbeiten zweiten Schritt] wird der raw text annotiert und korrigiert. 
  * Metadaten ergänzen: Skript von Klaus
  * <pb> synchronisieren als Voraussetzung für die weitere Arbeit
  * verbotene Zeichen im Text ersetzen
  * unknown characters durchgehen
  * escape sequences prüfen
  * italics prüfen ("_ _")
  * tags prüfen: <h> hat ein </h>, aber auch <tb> steht auf eigener Zeile. Grundlag für weitere Skripte
  * prüfe <s>: wende das <s>-Skript testweise an und finde Merkwürdigkeiten im Ergebnis
  * prüfe Tabellen (fehlt noch)
  * eventuell Skripte für Special Instructions
 * Im [wiki:workflow#a3.Schrittebiszuwohlgeformtemxml dritten Schritt] wird der annotierte raw text in wohlgeformtes XML verwandelt. Weitgehend automatisch.
  * ersetze unknown characters, replacements (Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics
  * XML: ergänze Metadaten, erzeuge wohlgeformtes XML
 * Im [wiki:workflow#a4.schema-konformmachen vierten Schritt] wird der XML-Text schemakonform gemacht. Weitgehend automatisch.
  * <pb> nachbearbeiten
  * Floats aus den Absätzen herausziehen
  * <lb>
  * <emph>
  * Tabellen (fehlt noch)
  * <div>
 * Scholarly Workflow / Texanalyse: 
  * <reg>
 * weitere Skripte für den Scholarly Workflow sind noch im Konzept-Stadium: 
  * <var>, <num>, Formeln
  * <foreign>
  * <place> etc.
  * Textkorrektur durch Abgleich mit Donatus
  * allgemeines Test-Skript
  * echo-de: <wrong> etc.
  * Hilfe bei der Korrektur typischer Transkriptionsfehler
 * weitere Skripte (schon vorhanden):
  * <div>durchnumerieren (auch für DTD-Fragment)
  * Wrapper für XSLT-Skripte, um Nebenwirkungen zu korrigieren
 * Chinesischer Workflow:
  * Skript für Zeichenvarianten

Bearbeitungsstand
  * Konzept fertig
  * die Grundstruktur ist implementiert und verwendbar
  * müssen überarbeitet werden: s, emph, ...
  * fehlen noch: Tabellen, Fußnoten, ...
  * kurzfristiges Ziel: Skripte so einfach wie möglich verwendbar machen
  * <place> und allgemein overlays weiter ausarbeiten

Problem der Fehlerkorrektur: 
 * interessant sind nur echte Satzfehler
 * Transkriptionsfehler werden stillschweigend korrigiert

Konzept: Editionssystem
 * killer feature
 * geht über klassische Text-Editionen hinaus
 * Werkzeug zur Beseitigung von Transkriptionsfehlern
 * Regularisierung: <reg>-Skript, Zusammenarbeit mit Paul
 * Normalisierung: Lex-Skripte, Koordinierung mit Josef und Robert
  * was wird übergeben
  * Zeilenumbrüche

== 4. Zusammenspiel XML und Anzeigesystem

Mitarbeit am Konzept für die Anzeige von:
 * Buchstruktur 
 * Textseite
 * Bildseite
 * Anzeige-Optionen
 * Wörterbuch-Informationen
 * Suchergebnissen
 * Besonderheiten bei chinesischem Text
 * statische Versionen, Lite-Version, URLs, etc.
 
[wiki:ticket-overview Überblick] über die Tickets 
 * für Frontend, Backend, GIS
 * Umsetzungen des Konzepts, und Bugs

Liste: Verhalten für jedes tag, im Text und im Inhaltsverzeichnis
 * Beispiele für Darstellung von tags: 
  * CSS-level: optisch erkennbar
  * Sprachtechnologie: wird nicht oder anders analysiert: <var>, <reg>

[wiki:normalization Normalisierung]:
 * genaue Analyse des Ist-Zustands in Arboreal und im Backend
 * Übersicht über das Zusammenspiel von Regularisierung und Normalisierung
 * Regularisierung im Detail:
  * Ziele
  * Zusammenhang mit Anzeige-Modi
  * @faithul-Attribut für "überschüssige" Information, Abgrenzung von Orig und faithful
  * Umgang mit PUA-Zeichen
  * Umgang mit Abkürzungen im Text
  * automatische Fehlerkorrektur
  * Sprachübergreifende Regularisierungen
  * Regularisierungen für einzelne Sprachen
 * Normalisierung im Detail:
  * Ziele
  * Textgestalt, die die Normalisierung vorfindet
  * Normalisierung für die Textanzeige
  * Normalisierung für Wörterbücher (sprachimmanent und technisch bedingt)
  * Normalisierung für die Suche
  * Verhältnis von Wortform und Grundform
  * Diakritika
  * Sprachschichten
  * sprachübergreifende Normalisierungen
  * Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten
 * Umsetzung
  * Liste: konkret zu tun
  * [source:trunk/schema/scripts/MpdlNormalizerLex Lex] für jede Sprache (mit Java-Testerklassse)

== 5. Zusammenspiel XML und GIS

 * Übergang vom alten Frontend (Falk) zum neuen Frontend (!Christopher/Robert) angestoßen und begleitet
 * Konzept: Verknüpfung Frontend mit GIS
 * <place>: mit Dagmar und Grace: Konzept für 
  * overlay mit Tabelle (GIS-System als Prototyp für overlay)
  * Inhalt der Tabelle
  * Struktur des authority file

== 6. Vorzeigetexte

Latein
 * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=/mpiwg/online/permanent/library/163127KK&pn=5 Benedetti]: europäischer Vorzeigetext; für Jürgen
 * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=/mpiwg/online/permanent/library/YHKVZ7B4&pn=5 Alvarus]: früher gedruckter Text mit vielen Abkürzungen; für Paul
 * Clavius-Euklid: für das Euklid-Projekt

Chinesisch
 * Song Yingxing: chinesischer Vorzeigetext; places; für Dagmar
 * chinesischer Euklid: für das Euklid-Projekt

Deutsch
 * Heeschen (mit Eipomek): Textflows; für Martin T.
 * Abruzzen: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt.

Diverse Skripte für Einzeltexte, insbesondere bei den ersten Texten und für Nachbearbeitungen

== 7. Wiki

 * Dokumentation: DESpecs (fehlt), [wiki:echo-schema Schema], [wiki:workflow Workflow]
  * werde ich in ein Unterverzeichnis documentation/de bzw. documentation/en verschieben
 * Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können.

Beispiele

== 8. Scholarly workflow

 * im Schema bereits angelegt
 * Anfänge sind gemacht mit <reg>-Skript

nächster Projektabschnitt:
  * Skripte für scholarly workflow
   * zusätzliche Auszeichnungen wie <num>
   * Korrektur von bestehenden Auszeichnungen wie <s>
  * Skripte für Texte aus anderen Quellen, z.B. Stabi
  * Interaktivität insbesondere im scholarly workflow, aber auch in den Schritten davor
  * Web-Services