Context Navigation

← Previous Version
View Latest Version
Next Version →

Version 1 (modified by Wolfgang Schmidle, 14 years ago) (diff)
--

Der Stand beim XML-Workflow

Februar 2011

Der Stand beim XML-Workflow

1. DESpecs

Data Entry Specifications (DESpecs) für europäische Texte und für chinesische Texte

über 100 Texte damit geschickt: Übersicht
erste Versionen abgeschlossen; werden weiterentwickelt
Regeln: einfach formuliert versus semantisch und linguistisch korrekt
wir wollen semantisch relevante Eigenschaften, wir bekommen optisch erkennbare Dinge
im Zweifelsfall: markieren lassen, hinterher prüfen und eventuell verwerfen (z.B. <col>)
eventuell Neubewertung, seitdem man die fertigen Texte wirklich sehen kann
absichtlich kein echtes XML; definierte Schnittstelle für verschiedene Transkriptionsfirmen
reine Textdateien, Unicode
escape sequences, auch für seltene Unicode-Zeichen: sonst Stochern in der Unicode-Tabelle
Dokumentation:
- die DESpecs sind im wesentlichen selbsterklärend
- aber Designentscheidungen
- und linguistischer Hintergrund, muss noch aufgeschrieben werden

Europäische Specs:

mit Malcolm und Klaus
sprachunabhängige Regeln für Textstruktur
- Seiten-Struktur
- Textblöcke
- Spalten
- Tabellen im weitesten Sinne
- Marginalien und Fußnoten
- Abbildungen
- nicht identifizierbare Zeichen (unbekannt, unleserlich)
Transkriptionsregeln für das lateinische Alphabet
- Interpunktion
- Zeichen
- Schriftstile
Regeln für andere Sprachen und Schriftsysteme
- Griechisch
- Fraktur
- Mathematik (typischer Fall: <math> von Special Instruction in die Specs)
- Symbole
- weiteres Ziel war Arabisch (mit Mark), davon gibt es noch Ansätze von Specs für Arabisch

Chinesische Specs:

mit Martina
europäische Specs zwar sprachunabhängig, aber implizite Voraussetzung Alphabetschrift
Regeln für Textstruktur angepasst
killer feature: Regeln für Zeichenvarianten
in der Pipeline: Überarbeitung der Regeln für Zeichenvarianten

Außerdem diverse Special Instructions für europäische und chinesische Texte

mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg
etc.

technische Hilfe beim Aufbau einer vergleichbaren Gruppe bei der Partnergruppe

aus politischen Gründen gescheitert
neuen Versuch starten?

In der Pipeline:

Heytesbury
Cathleen-Texte (das sind nicht die Heidelberg Texte)
Mingli tan (klären mit Joachim)

2. ECHO-Schema

Echo-Schema 1.0

mit Malcolm
Nachfolger von Archimedes-DTD
geschrieben in RELAX NG compact
modulare Struktur
konsequent Unicode
Design-Entscheidungen:
- ein Schema für alle texte
- unabhängige Module
- tags in den DESpecs sollten möglichst ein Gegenstück im Schema haben
- aber das Schema soll die DESpecs nicht sklavisch nachmachen (die DESpecs sind nur aus pragmatischen Gründen vor dem Schema entstanden)
lange Liste von Ergänzungen fertig, muss hochgeladen werden

Dokumentation:

Übersicht über Module: Gruppen von Modulen
- Standard-Module
- Grobstrukturierung des Textes
- Feinstrukturierung des Textes
- Textauszeichnung
damit verwandt: Module und XML-Hierarchie
Abhängigkeiten zwischen den Modulen
zeitlicher Ablauf:
- automatisisiert und semi-automatisiert
- scholarly workflow
die einzelnen tags
- sortiert nach Schema-Modulen
- Verwendung, best practices z.B. bei <lb>
- Verhältnis DESpecs-tags und Schema-tags
- Darstellung im Anzeigesystem

Beziehung zu / Abgrenzung von TEI:

systematischer als TEI (korrigiert historischen Wildwuchs)
strikter als TEI
<s>: wissenschaftliches Arbeiten
nur das, was wir konkret verwenden / anzeigen
TEI ist kein einheitlicher Standard, sondern eine Familie von Standards
trotzdem TEI als Austauschformat

3. Workflow

Konzept des Workflows: Schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten

Dokumentation
Skripte in Perl und XSLT
Umsetzung als Textfilter
so lange wie möglich: Arbeiten mit .txt statt .xml
Beziehung zwischen DESpecs, Schema, Workflow: berücksichtige verschiedene DESpecs-Versionen
Es gibt fast nie Rückmeldungen zu den erstellten XML-Texten. Arbeitet eigentlich jemand mit den Texten, z.B. mit den 20 Vitruv-Texten?

Schritte bis zur endgültigen Transkription:

Klaus: vorbereiten, überprüfen
Fragen beantworte meistens ich.
- Letzter Work Order (WO 10) bestand aus besonders schwierigen Texten, die bisher liegengeblieben waren. Großer Aufwand bei der Beantwortung der Fragen.
- Müssen noch in die DESpecs überführt werden.
- Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel Wimmelbilder-Figures. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können.

Schritte nach Erhalt der endgültigen Transkription:

Konzept und Implementation
Workflow durchführen: meistens Klaus
zusätzlich: Figures ausschneiden: Beschreibung von Klaus, durchgeführt von Student
Im ersten Schritt werden alle Vorbereitungen getroffen, um mit dem raw text arbeiten zu können.
- Text in das repository
- Abstimmung mit Foxridge: index.meta
Im zweiten Schritt wird der raw text annotiert und korrigiert.
- Metadaten ergänzen: Skript von Klaus
- <pb> synchronisieren als Voraussetzung für die weitere Arbeit
- verbotene Zeichen im Text ersetzen
- unknown characters durchgehen
- escape sequences prüfen
- italics prüfen ("_ _")
- tags prüfen: <h> hat ein </h>, aber auch <tb> steht auf eigener Zeile. Grundlag für weitere Skripte
- prüfe <s>: wende das <s>-Skript testweise an und finde Merkwürdigkeiten im Ergebnis
- prüfe Tabellen (fehlt noch)
- eventuell Skripte für Special Instructions
Im dritten Schritt wird der annotierte raw text in wohlgeformtes XML verwandelt. Weitgehend automatisch.
- ersetze unknown characters, replacements (Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics
- XML: ergänze Metadaten, erzeuge wohlgeformtes XML
Im vierten Schritt wird der XML-Text schemakonform gemacht. Weitgehend automatisch.
- <pb> nachbearbeiten
- Floats aus den Absätzen herausziehen
- <lb>
- <emph>
- Tabellen (fehlt noch)
- <div>
Scholarly Workflow / Texanalyse:
- <reg>
weitere Skripte für den Scholarly Workflow sind noch im Konzept-Stadium:
- <var>, <num>, Formeln
- <foreign>
- <place> etc.
- Textkorrektur durch Abgleich mit Donatus
- allgemeines Test-Skript
- echo-de: <wrong> etc.
- Hilfe bei der Korrektur typischer Transkriptionsfehler
weitere Skripte (schon vorhanden):
- <div>durchnumerieren (auch für DTD-Fragment)
- Wrapper für XSLT-Skripte, um Nebenwirkungen zu korrigieren
Chinesischer Workflow:
- Skript für Zeichenvarianten

Bearbeitungsstand

Konzept fertig
die Grundstruktur ist implementiert und verwendbar
müssen überarbeitet werden: s, emph, ...
fehlen noch: Tabellen, Fußnoten, ...
kurzfristiges Ziel: Skripte so einfach wie möglich verwendbar machen
<place> und allgemein overlays weiter ausarbeiten

Problem der Fehlerkorrektur:

interessant sind nur echte Satzfehler
Transkriptionsfehler werden stillschweigend korrigiert

Konzept: Editionssystem

killer feature
geht über klassische Text-Editionen hinaus
Werkzeug zur Beseitigung von Transkriptionsfehlern
Regularisierung: <reg>-Skript, Zusammenarbeit mit Paul
Normalisierung: Lex-Skripte, Koordinierung mit Josef und Robert
- was wird übergeben
- Zeilenumbrüche

4. Zusammenspiel XML und Anzeigesystem

Mitarbeit am Konzept für die Anzeige von:

Buchstruktur
Textseite
Bildseite
Anzeige-Optionen
Wörterbuch-Informationen
Suchergebnissen
Besonderheiten bei chinesischem Text
statische Versionen, Lite-Version, URLs, etc.

Überblick über die Tickets

für Frontend, Backend, GIS
Umsetzungen des Konzepts, und Bugs

Liste: Verhalten für jedes tag, im Text und im Inhaltsverzeichnis

Beispiele für Darstellung von tags:
- CSS-level: optisch erkennbar
- Sprachtechnologie: wird nicht oder anders analysiert: <var>, <reg>

Normalisierung:

genaue Analyse des Ist-Zustands in Arboreal und im Backend
Übersicht über das Zusammenspiel von Regularisierung und Normalisierung
Regularisierung im Detail:
- Ziele
- Zusammenhang mit Anzeige-Modi
- @faithul-Attribut für "überschüssige" Information, Abgrenzung von Orig und faithful
- Umgang mit PUA-Zeichen
- Umgang mit Abkürzungen im Text
- automatische Fehlerkorrektur
- Sprachübergreifende Regularisierungen
- Regularisierungen für einzelne Sprachen
Normalisierung im Detail:
- Ziele
- Textgestalt, die die Normalisierung vorfindet
- Normalisierung für die Textanzeige
- Normalisierung für Wörterbücher (sprachimmanent und technisch bedingt)
- Normalisierung für die Suche
- Verhältnis von Wortform und Grundform
- Diakritika
- Sprachschichten
- sprachübergreifende Normalisierungen
- Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten
Umsetzung
- Liste: konkret zu tun
- Lex für jede Sprache (mit Java-Testerklassse)

5. Zusammenspiel XML und GIS

Übergang vom alten Frontend (Falk) zum neuen Frontend (Christopher/Robert) angestoßen und begleitet
Konzept: Verknüpfung Frontend mit GIS
<place>: mit Dagmar und Grace: Konzept für
- overlay mit Tabelle (GIS-System als Prototyp für overlay)
- Inhalt der Tabelle
- Struktur des authority file

6. Vorzeigetexte

Latein

Benedetti: europäischer Vorzeigetext; für Jürgen
Alvarus: früher gedruckter Text mit vielen Abkürzungen; für Paul
Clavius-Euklid: für das Euklid-Projekt

Chinesisch

Song Yingxing: chinesischer Vorzeigetext; places; für Dagmar
chinesischer Euklid: für das Euklid-Projekt

Deutsch

Heeschen (mit Eipomek): Textflows; für Martin T.
Abruzzen: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt.

Diverse Skripte für Einzeltexte, insbesondere bei den ersten Texten und für Nachbearbeitungen

7. Wiki

Dokumentation: DESpecs (fehlt), Schema, Workflow
- werde ich in ein Unterverzeichnis documentation/de bzw. documentation/en verschieben
Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können.

Beispiele

8. Scholarly workflow

im Schema bereits angelegt
Anfänge sind gemacht mit <reg>-Skript

nächster Projektabschnitt:

Skripte für scholarly workflow
- zusätzliche Auszeichnungen wie <num>
- Korrektur von bestehenden Auszeichnungen wie <s>
Skripte für Texte aus anderen Quellen, z.B. Stabi
Interaktivität insbesondere im scholarly workflow, aber auch in den Schritten davor
Web-Services

Download in other formats:

Plain Text