wiki:workflow-stand

Version 1 (modified by Wolfgang Schmidle, 14 years ago) (diff)

--

Der Stand beim XML-Workflow

Februar 2011

1. DESpecs

Data Entry Specifications (DESpecs) für europäische Texte und für chinesische Texte

  • über 100 Texte damit geschickt: Übersicht
  • erste Versionen abgeschlossen; werden weiterentwickelt
  • Regeln: einfach formuliert versus semantisch und linguistisch korrekt
  • wir wollen semantisch relevante Eigenschaften, wir bekommen optisch erkennbare Dinge
  • im Zweifelsfall: markieren lassen, hinterher prüfen und eventuell verwerfen (z.B. <col>)
  • eventuell Neubewertung, seitdem man die fertigen Texte wirklich sehen kann
  • absichtlich kein echtes XML; definierte Schnittstelle für verschiedene Transkriptionsfirmen
  • reine Textdateien, Unicode
  • escape sequences, auch für seltene Unicode-Zeichen: sonst Stochern in der Unicode-Tabelle
  • Dokumentation:
    • die DESpecs sind im wesentlichen selbsterklärend
    • aber Designentscheidungen
    • und linguistischer Hintergrund, muss noch aufgeschrieben werden

Europäische Specs:

  • mit Malcolm und Klaus
  • sprachunabhängige Regeln für Textstruktur
    • Seiten-Struktur
    • Textblöcke
    • Spalten
    • Tabellen im weitesten Sinne
    • Marginalien und Fußnoten
    • Abbildungen
    • nicht identifizierbare Zeichen (unbekannt, unleserlich)
  • Transkriptionsregeln für das lateinische Alphabet
    • Interpunktion
    • Zeichen
    • Schriftstile
  • Regeln für andere Sprachen und Schriftsysteme
    • Griechisch
    • Fraktur
    • Mathematik (typischer Fall: <math> von Special Instruction in die Specs)
    • Symbole
    • weiteres Ziel war Arabisch (mit Mark), davon gibt es noch Ansätze von Specs für Arabisch

Chinesische Specs:

  • mit Martina
  • europäische Specs zwar sprachunabhängig, aber implizite Voraussetzung Alphabetschrift
  • Regeln für Textstruktur angepasst
  • killer feature: Regeln für Zeichenvarianten
  • in der Pipeline: Überarbeitung der Regeln für Zeichenvarianten

Außerdem diverse Special Instructions für europäische und chinesische Texte

  • mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg
  • etc.

technische Hilfe beim Aufbau einer vergleichbaren Gruppe bei der Partnergruppe

  • aus politischen Gründen gescheitert
  • neuen Versuch starten?

In der Pipeline:

  • Heytesbury
  • Cathleen-Texte (das sind nicht die Heidelberg Texte)
  • Mingli tan (klären mit Joachim)

2. ECHO-Schema

Echo-Schema 1.0

  • mit Malcolm
  • Nachfolger von Archimedes-DTD
  • geschrieben in RELAX NG compact
  • modulare Struktur
  • konsequent Unicode
  • Design-Entscheidungen:
    • ein Schema für alle texte
    • unabhängige Module
    • tags in den DESpecs sollten möglichst ein Gegenstück im Schema haben
    • aber das Schema soll die DESpecs nicht sklavisch nachmachen (die DESpecs sind nur aus pragmatischen Gründen vor dem Schema entstanden)
  • lange Liste von Ergänzungen fertig, muss hochgeladen werden

Dokumentation:

  • Übersicht über Module: Gruppen von Modulen
    • Standard-Module
    • Grobstrukturierung des Textes
    • Feinstrukturierung des Textes
    • Textauszeichnung
  • damit verwandt: Module und XML-Hierarchie
  • Abhängigkeiten zwischen den Modulen
  • zeitlicher Ablauf:
    • automatisisiert und semi-automatisiert
    • scholarly workflow
  • die einzelnen tags
    • sortiert nach Schema-Modulen
    • Verwendung, best practices z.B. bei <lb>
    • Verhältnis DESpecs-tags und Schema-tags
    • Darstellung im Anzeigesystem

Beziehung zu / Abgrenzung von TEI:

  • systematischer als TEI (korrigiert historischen Wildwuchs)
  • strikter als TEI
  • <s>: wissenschaftliches Arbeiten
  • nur das, was wir konkret verwenden / anzeigen
  • TEI ist kein einheitlicher Standard, sondern eine Familie von Standards
  • trotzdem TEI als Austauschformat

3. Workflow

Konzept des Workflows: Schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten

  • Dokumentation
  • Skripte in Perl und XSLT
  • Umsetzung als Textfilter
  • so lange wie möglich: Arbeiten mit .txt statt .xml
  • Beziehung zwischen DESpecs, Schema, Workflow: berücksichtige verschiedene DESpecs-Versionen
  • Es gibt fast nie Rückmeldungen zu den erstellten XML-Texten. Arbeitet eigentlich jemand mit den Texten, z.B. mit den 20 Vitruv-Texten?

Schritte bis zur endgültigen Transkription:

  • Klaus: vorbereiten, überprüfen
  • Fragen beantworte meistens ich.
    • Letzter Work Order (WO 10) bestand aus besonders schwierigen Texten, die bisher liegengeblieben waren. Großer Aufwand bei der Beantwortung der Fragen.
    • Müssen noch in die DESpecs überführt werden.
    • Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel Wimmelbilder-Figures. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können.

Schritte nach Erhalt der endgültigen Transkription:

  • Konzept und Implementation
  • Workflow durchführen: meistens Klaus
  • zusätzlich: Figures ausschneiden: Beschreibung von Klaus, durchgeführt von Student
  • Im ersten Schritt werden alle Vorbereitungen getroffen, um mit dem raw text arbeiten zu können.
    • Text in das repository
    • Abstimmung mit Foxridge: index.meta
  • Im zweiten Schritt wird der raw text annotiert und korrigiert.
    • Metadaten ergänzen: Skript von Klaus
    • <pb> synchronisieren als Voraussetzung für die weitere Arbeit
    • verbotene Zeichen im Text ersetzen
    • unknown characters durchgehen
    • escape sequences prüfen
    • italics prüfen ("_ _")
    • tags prüfen: <h> hat ein </h>, aber auch <tb> steht auf eigener Zeile. Grundlag für weitere Skripte
    • prüfe <s>: wende das <s>-Skript testweise an und finde Merkwürdigkeiten im Ergebnis
    • prüfe Tabellen (fehlt noch)
    • eventuell Skripte für Special Instructions
  • Im dritten Schritt wird der annotierte raw text in wohlgeformtes XML verwandelt. Weitgehend automatisch.
    • ersetze unknown characters, replacements (Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics
    • XML: ergänze Metadaten, erzeuge wohlgeformtes XML
  • Im vierten Schritt wird der XML-Text schemakonform gemacht. Weitgehend automatisch.
    • <pb> nachbearbeiten
    • Floats aus den Absätzen herausziehen
    • <lb>
    • <emph>
    • Tabellen (fehlt noch)
    • <div>
  • Scholarly Workflow / Texanalyse:
    • <reg>
  • weitere Skripte für den Scholarly Workflow sind noch im Konzept-Stadium:
    • <var>, <num>, Formeln
    • <foreign>
    • <place> etc.
    • Textkorrektur durch Abgleich mit Donatus
    • allgemeines Test-Skript
    • echo-de: <wrong> etc.
    • Hilfe bei der Korrektur typischer Transkriptionsfehler
  • weitere Skripte (schon vorhanden):
    • <div>durchnumerieren (auch für DTD-Fragment)
    • Wrapper für XSLT-Skripte, um Nebenwirkungen zu korrigieren
  • Chinesischer Workflow:
    • Skript für Zeichenvarianten

Bearbeitungsstand

  • Konzept fertig
  • die Grundstruktur ist implementiert und verwendbar
  • müssen überarbeitet werden: s, emph, ...
  • fehlen noch: Tabellen, Fußnoten, ...
  • kurzfristiges Ziel: Skripte so einfach wie möglich verwendbar machen
  • <place> und allgemein overlays weiter ausarbeiten

Problem der Fehlerkorrektur:

  • interessant sind nur echte Satzfehler
  • Transkriptionsfehler werden stillschweigend korrigiert

Konzept: Editionssystem

  • killer feature
  • geht über klassische Text-Editionen hinaus
  • Werkzeug zur Beseitigung von Transkriptionsfehlern
  • Regularisierung: <reg>-Skript, Zusammenarbeit mit Paul
  • Normalisierung: Lex-Skripte, Koordinierung mit Josef und Robert
    • was wird übergeben
    • Zeilenumbrüche

4. Zusammenspiel XML und Anzeigesystem

Mitarbeit am Konzept für die Anzeige von:

  • Buchstruktur
  • Textseite
  • Bildseite
  • Anzeige-Optionen
  • Wörterbuch-Informationen
  • Suchergebnissen
  • Besonderheiten bei chinesischem Text
  • statische Versionen, Lite-Version, URLs, etc.

Überblick über die Tickets

  • für Frontend, Backend, GIS
  • Umsetzungen des Konzepts, und Bugs

Liste: Verhalten für jedes tag, im Text und im Inhaltsverzeichnis

  • Beispiele für Darstellung von tags:
    • CSS-level: optisch erkennbar
    • Sprachtechnologie: wird nicht oder anders analysiert: <var>, <reg>

Normalisierung:

  • genaue Analyse des Ist-Zustands in Arboreal und im Backend
  • Übersicht über das Zusammenspiel von Regularisierung und Normalisierung
  • Regularisierung im Detail:
    • Ziele
    • Zusammenhang mit Anzeige-Modi
    • @faithul-Attribut für "überschüssige" Information, Abgrenzung von Orig und faithful
    • Umgang mit PUA-Zeichen
    • Umgang mit Abkürzungen im Text
    • automatische Fehlerkorrektur
    • Sprachübergreifende Regularisierungen
    • Regularisierungen für einzelne Sprachen
  • Normalisierung im Detail:
    • Ziele
    • Textgestalt, die die Normalisierung vorfindet
    • Normalisierung für die Textanzeige
    • Normalisierung für Wörterbücher (sprachimmanent und technisch bedingt)
    • Normalisierung für die Suche
    • Verhältnis von Wortform und Grundform
    • Diakritika
    • Sprachschichten
    • sprachübergreifende Normalisierungen
    • Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten
  • Umsetzung
    • Liste: konkret zu tun
    • Lex für jede Sprache (mit Java-Testerklassse)

5. Zusammenspiel XML und GIS

  • Übergang vom alten Frontend (Falk) zum neuen Frontend (Christopher/Robert) angestoßen und begleitet
  • Konzept: Verknüpfung Frontend mit GIS
  • <place>: mit Dagmar und Grace: Konzept für
    • overlay mit Tabelle (GIS-System als Prototyp für overlay)
    • Inhalt der Tabelle
    • Struktur des authority file

6. Vorzeigetexte

Latein

  • Benedetti: europäischer Vorzeigetext; für Jürgen
  • Alvarus: früher gedruckter Text mit vielen Abkürzungen; für Paul
  • Clavius-Euklid: für das Euklid-Projekt

Chinesisch

  • Song Yingxing: chinesischer Vorzeigetext; places; für Dagmar
  • chinesischer Euklid: für das Euklid-Projekt

Deutsch

  • Heeschen (mit Eipomek): Textflows; für Martin T.
  • Abruzzen: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt.

Diverse Skripte für Einzeltexte, insbesondere bei den ersten Texten und für Nachbearbeitungen

7. Wiki

  • Dokumentation: DESpecs (fehlt), Schema, Workflow
    • werde ich in ein Unterverzeichnis documentation/de bzw. documentation/en verschieben
  • Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können.

Beispiele

8. Scholarly workflow

  • im Schema bereits angelegt
  • Anfänge sind gemacht mit <reg>-Skript

nächster Projektabschnitt:

  • Skripte für scholarly workflow
    • zusätzliche Auszeichnungen wie <num>
    • Korrektur von bestehenden Auszeichnungen wie <s>
  • Skripte für Texte aus anderen Quellen, z.B. Stabi
  • Interaktivität insbesondere im scholarly workflow, aber auch in den Schritten davor
  • Web-Services