Version 1 (modified by 14 years ago) (diff) | ,
---|
Der Stand beim XML-Workflow
Februar 2011
1. DESpecs
Data Entry Specifications (DESpecs) für europäische Texte und für chinesische Texte
- über 100 Texte damit geschickt: Übersicht
- erste Versionen abgeschlossen; werden weiterentwickelt
- Regeln: einfach formuliert versus semantisch und linguistisch korrekt
- wir wollen semantisch relevante Eigenschaften, wir bekommen optisch erkennbare Dinge
- im Zweifelsfall: markieren lassen, hinterher prüfen und eventuell verwerfen (z.B. <col>)
- eventuell Neubewertung, seitdem man die fertigen Texte wirklich sehen kann
- absichtlich kein echtes XML; definierte Schnittstelle für verschiedene Transkriptionsfirmen
- reine Textdateien, Unicode
- escape sequences, auch für seltene Unicode-Zeichen: sonst Stochern in der Unicode-Tabelle
- Dokumentation:
- die DESpecs sind im wesentlichen selbsterklärend
- aber Designentscheidungen
- und linguistischer Hintergrund, muss noch aufgeschrieben werden
Europäische Specs:
- mit Malcolm und Klaus
- sprachunabhängige Regeln für Textstruktur
- Seiten-Struktur
- Textblöcke
- Spalten
- Tabellen im weitesten Sinne
- Marginalien und Fußnoten
- Abbildungen
- nicht identifizierbare Zeichen (unbekannt, unleserlich)
- Transkriptionsregeln für das lateinische Alphabet
- Interpunktion
- Zeichen
- Schriftstile
- Regeln für andere Sprachen und Schriftsysteme
- Griechisch
- Fraktur
- Mathematik (typischer Fall: <math> von Special Instruction in die Specs)
- Symbole
- weiteres Ziel war Arabisch (mit Mark), davon gibt es noch Ansätze von Specs für Arabisch
Chinesische Specs:
- mit Martina
- europäische Specs zwar sprachunabhängig, aber implizite Voraussetzung Alphabetschrift
- Regeln für Textstruktur angepasst
- killer feature: Regeln für Zeichenvarianten
- in der Pipeline: Überarbeitung der Regeln für Zeichenvarianten
Außerdem diverse Special Instructions für europäische und chinesische Texte
- mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg
- etc.
technische Hilfe beim Aufbau einer vergleichbaren Gruppe bei der Partnergruppe
- aus politischen Gründen gescheitert
- neuen Versuch starten?
In der Pipeline:
- Heytesbury
- Cathleen-Texte (das sind nicht die Heidelberg Texte)
- Mingli tan (klären mit Joachim)
2. ECHO-Schema
Echo-Schema 1.0
- mit Malcolm
- Nachfolger von Archimedes-DTD
- geschrieben in RELAX NG compact
- modulare Struktur
- konsequent Unicode
- Design-Entscheidungen:
- ein Schema für alle texte
- unabhängige Module
- tags in den DESpecs sollten möglichst ein Gegenstück im Schema haben
- aber das Schema soll die DESpecs nicht sklavisch nachmachen (die DESpecs sind nur aus pragmatischen Gründen vor dem Schema entstanden)
- lange Liste von Ergänzungen fertig, muss hochgeladen werden
- Übersicht über Module: Gruppen von Modulen
- Standard-Module
- Grobstrukturierung des Textes
- Feinstrukturierung des Textes
- Textauszeichnung
- damit verwandt: Module und XML-Hierarchie
- Abhängigkeiten zwischen den Modulen
- zeitlicher Ablauf:
- automatisisiert und semi-automatisiert
- scholarly workflow
- die einzelnen tags
- sortiert nach Schema-Modulen
- Verwendung, best practices z.B. bei <lb>
- Verhältnis DESpecs-tags und Schema-tags
- Darstellung im Anzeigesystem
Beziehung zu / Abgrenzung von TEI:
- systematischer als TEI (korrigiert historischen Wildwuchs)
- strikter als TEI
- <s>: wissenschaftliches Arbeiten
- nur das, was wir konkret verwenden / anzeigen
- TEI ist kein einheitlicher Standard, sondern eine Familie von Standards
- trotzdem TEI als Austauschformat
3. Workflow
Konzept des Workflows: Schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten
- Dokumentation
- Skripte in Perl und XSLT
- Umsetzung als Textfilter
- so lange wie möglich: Arbeiten mit .txt statt .xml
- Beziehung zwischen DESpecs, Schema, Workflow: berücksichtige verschiedene DESpecs-Versionen
- Es gibt fast nie Rückmeldungen zu den erstellten XML-Texten. Arbeitet eigentlich jemand mit den Texten, z.B. mit den 20 Vitruv-Texten?
Schritte bis zur endgültigen Transkription:
- Klaus: vorbereiten, überprüfen
- Fragen beantworte meistens ich.
- Letzter Work Order (WO 10) bestand aus besonders schwierigen Texten, die bisher liegengeblieben waren. Großer Aufwand bei der Beantwortung der Fragen.
- Müssen noch in die DESpecs überführt werden.
- Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel Wimmelbilder-Figures. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können.
Schritte nach Erhalt der endgültigen Transkription:
- Konzept und Implementation
- Workflow durchführen: meistens Klaus
- zusätzlich: Figures ausschneiden: Beschreibung von Klaus, durchgeführt von Student
- Im ersten Schritt werden alle Vorbereitungen getroffen, um mit dem raw text arbeiten zu können.
- Text in das repository
- Abstimmung mit Foxridge: index.meta
- Im zweiten Schritt wird der raw text annotiert und korrigiert.
- Metadaten ergänzen: Skript von Klaus
- <pb> synchronisieren als Voraussetzung für die weitere Arbeit
- verbotene Zeichen im Text ersetzen
- unknown characters durchgehen
- escape sequences prüfen
- italics prüfen ("_ _")
- tags prüfen: <h> hat ein </h>, aber auch <tb> steht auf eigener Zeile. Grundlag für weitere Skripte
- prüfe <s>: wende das <s>-Skript testweise an und finde Merkwürdigkeiten im Ergebnis
- prüfe Tabellen (fehlt noch)
- eventuell Skripte für Special Instructions
- Im dritten Schritt wird der annotierte raw text in wohlgeformtes XML verwandelt. Weitgehend automatisch.
- ersetze unknown characters, replacements (Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics
- XML: ergänze Metadaten, erzeuge wohlgeformtes XML
- Im vierten Schritt wird der XML-Text schemakonform gemacht. Weitgehend automatisch.
- <pb> nachbearbeiten
- Floats aus den Absätzen herausziehen
- <lb>
- <emph>
- Tabellen (fehlt noch)
- <div>
- Scholarly Workflow / Texanalyse:
- <reg>
- weitere Skripte für den Scholarly Workflow sind noch im Konzept-Stadium:
- <var>, <num>, Formeln
- <foreign>
- <place> etc.
- Textkorrektur durch Abgleich mit Donatus
- allgemeines Test-Skript
- echo-de: <wrong> etc.
- Hilfe bei der Korrektur typischer Transkriptionsfehler
- weitere Skripte (schon vorhanden):
- <div>durchnumerieren (auch für DTD-Fragment)
- Wrapper für XSLT-Skripte, um Nebenwirkungen zu korrigieren
- Chinesischer Workflow:
- Skript für Zeichenvarianten
Bearbeitungsstand
- Konzept fertig
- die Grundstruktur ist implementiert und verwendbar
- müssen überarbeitet werden: s, emph, ...
- fehlen noch: Tabellen, Fußnoten, ...
- kurzfristiges Ziel: Skripte so einfach wie möglich verwendbar machen
- <place> und allgemein overlays weiter ausarbeiten
Problem der Fehlerkorrektur:
- interessant sind nur echte Satzfehler
- Transkriptionsfehler werden stillschweigend korrigiert
Konzept: Editionssystem
- killer feature
- geht über klassische Text-Editionen hinaus
- Werkzeug zur Beseitigung von Transkriptionsfehlern
- Regularisierung: <reg>-Skript, Zusammenarbeit mit Paul
- Normalisierung: Lex-Skripte, Koordinierung mit Josef und Robert
- was wird übergeben
- Zeilenumbrüche
4. Zusammenspiel XML und Anzeigesystem
Mitarbeit am Konzept für die Anzeige von:
- Buchstruktur
- Textseite
- Bildseite
- Anzeige-Optionen
- Wörterbuch-Informationen
- Suchergebnissen
- Besonderheiten bei chinesischem Text
- statische Versionen, Lite-Version, URLs, etc.
Überblick über die Tickets
- für Frontend, Backend, GIS
- Umsetzungen des Konzepts, und Bugs
Liste: Verhalten für jedes tag, im Text und im Inhaltsverzeichnis
- Beispiele für Darstellung von tags:
- CSS-level: optisch erkennbar
- Sprachtechnologie: wird nicht oder anders analysiert: <var>, <reg>
- genaue Analyse des Ist-Zustands in Arboreal und im Backend
- Übersicht über das Zusammenspiel von Regularisierung und Normalisierung
- Regularisierung im Detail:
- Ziele
- Zusammenhang mit Anzeige-Modi
- @faithul-Attribut für "überschüssige" Information, Abgrenzung von Orig und faithful
- Umgang mit PUA-Zeichen
- Umgang mit Abkürzungen im Text
- automatische Fehlerkorrektur
- Sprachübergreifende Regularisierungen
- Regularisierungen für einzelne Sprachen
- Normalisierung im Detail:
- Ziele
- Textgestalt, die die Normalisierung vorfindet
- Normalisierung für die Textanzeige
- Normalisierung für Wörterbücher (sprachimmanent und technisch bedingt)
- Normalisierung für die Suche
- Verhältnis von Wortform und Grundform
- Diakritika
- Sprachschichten
- sprachübergreifende Normalisierungen
- Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten
- Umsetzung
- Liste: konkret zu tun
- Lex für jede Sprache (mit Java-Testerklassse)
5. Zusammenspiel XML und GIS
- Übergang vom alten Frontend (Falk) zum neuen Frontend (Christopher/Robert) angestoßen und begleitet
- Konzept: Verknüpfung Frontend mit GIS
- <place>: mit Dagmar und Grace: Konzept für
- overlay mit Tabelle (GIS-System als Prototyp für overlay)
- Inhalt der Tabelle
- Struktur des authority file
6. Vorzeigetexte
Latein
- Benedetti: europäischer Vorzeigetext; für Jürgen
- Alvarus: früher gedruckter Text mit vielen Abkürzungen; für Paul
- Clavius-Euklid: für das Euklid-Projekt
Chinesisch
- Song Yingxing: chinesischer Vorzeigetext; places; für Dagmar
- chinesischer Euklid: für das Euklid-Projekt
Deutsch
- Heeschen (mit Eipomek): Textflows; für Martin T.
- Abruzzen: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt.
Diverse Skripte für Einzeltexte, insbesondere bei den ersten Texten und für Nachbearbeitungen
7. Wiki
- Dokumentation: DESpecs (fehlt), Schema, Workflow
- werde ich in ein Unterverzeichnis documentation/de bzw. documentation/en verschieben
- Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können.
Beispiele
8. Scholarly workflow
- im Schema bereits angelegt
- Anfänge sind gemacht mit <reg>-Skript
nächster Projektabschnitt:
- Skripte für scholarly workflow
- zusätzliche Auszeichnungen wie <num>
- Korrektur von bestehenden Auszeichnungen wie <s>
- Skripte für Texte aus anderen Quellen, z.B. Stabi
- Interaktivität insbesondere im scholarly workflow, aber auch in den Schritten davor
- Web-Services