Context Navigation

← Previous Change
Wiki History
Next Change →

Changes between Initial Version and Version 1 of workflow-stand

Timestamp:: Feb 24, 2011, 1:29:50 PM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

workflow-stand

                       v1
+= Der Stand beim XML-Workflow
+Februar 2011
+[[PageOutline(1-4,,pullout)]]
+== 1. DESpecs
+Data Entry Specifications (DESpecs) für europäische Texte und für chinesische Texte
+ * über 100 Texte damit geschickt: [wiki:OverviewWorkOrders Übersicht]
+ * erste Versionen abgeschlossen; werden weiterentwickelt
+ * Regeln: einfach formuliert versus semantisch und linguistisch korrekt
+ * wir wollen semantisch relevante Eigenschaften, wir bekommen optisch erkennbare Dinge
+ * im Zweifelsfall: markieren lassen, hinterher prüfen und eventuell verwerfen (z.B. <col>)
+ * eventuell Neubewertung, seitdem man die fertigen Texte wirklich sehen kann
+ * absichtlich kein echtes XML; definierte Schnittstelle für verschiedene Transkriptionsfirmen
+ * reine Textdateien, Unicode
+ * escape sequences, auch für seltene Unicode-Zeichen: sonst Stochern in der Unicode-Tabelle
+ * Dokumentation:
+  * die DESpecs sind im wesentlichen selbsterklärend
+  * aber Designentscheidungen
+  * und linguistischer Hintergrund, muss noch aufgeschrieben werden
+Europäische Specs:
+ * mit Malcolm und Klaus
+ * sprachunabhängige Regeln für Textstruktur
+  * Seiten-Struktur
+  * Textblöcke
+  * Spalten
+  * Tabellen im weitesten Sinne
+  * Marginalien und Fußnoten
+  * Abbildungen
+  * nicht identifizierbare Zeichen (unbekannt, unleserlich)
+ * Transkriptionsregeln für das lateinische Alphabet
+  * Interpunktion
+  * Zeichen
+  * Schriftstile
+ * Regeln für andere Sprachen und Schriftsysteme
+  * Griechisch
+  * Fraktur
+  * Mathematik (typischer Fall: <math> von Special Instruction in die Specs)
+  * Symbole
+  * weiteres  Ziel war Arabisch (mit Mark), davon gibt es noch Ansätze von Specs für Arabisch
+Chinesische Specs:
+ * mit Martina
+ * europäische Specs zwar sprachunabhängig, aber implizite Voraussetzung Alphabetschrift
+ * Regeln für Textstruktur angepasst
+ * killer feature: Regeln für Zeichenvarianten
+ * in der Pipeline: Überarbeitung der Regeln für Zeichenvarianten
+Außerdem diverse [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/special-instructions Special Instructions] für europäische und chinesische Texte
+ * mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg
+ * etc.
+technische Hilfe beim Aufbau einer vergleichbaren Gruppe bei der Partnergruppe
+ * aus politischen Gründen gescheitert
+ * neuen Versuch starten?
+In der Pipeline:
+ * Heytesbury
+ * Cathleen-Texte (das sind nicht die Heidelberg Texte)
+ * Mingli tan (klären mit Joachim)
+== 2. ECHO-Schema
+Echo-Schema 1.0
+ * mit Malcolm
+ * Nachfolger von Archimedes-DTD
+ * geschrieben in RELAX NG compact
+ * modulare Struktur
+ * konsequent Unicode
+ * Design-Entscheidungen:
+  * ein Schema für alle texte
+  * unabhängige Module
+  * tags in den DESpecs sollten möglichst ein Gegenstück im Schema haben
+  * aber das Schema soll die DESpecs nicht sklavisch nachmachen (die DESpecs sind nur aus pragmatischen Gründen vor dem Schema entstanden)
+ * lange Liste von Ergänzungen fertig, muss hochgeladen werden
+[wiki:echo-schema Dokumentation]:
+ * Übersicht über Module: Gruppen von Modulen
+  * Standard-Module
+  * Grobstrukturierung des Textes
+  * Feinstrukturierung des Textes
+  * Textauszeichnung
+ * damit verwandt: Module und XML-Hierarchie
+ * Abhängigkeiten zwischen den Modulen
+ * zeitlicher Ablauf:
+  * automatisisiert und semi-automatisiert
+  * scholarly workflow
+ * die einzelnen tags
+  * sortiert nach Schema-Modulen
+  * Verwendung, best practices z.B. bei <lb>
+  * Verhältnis DESpecs-tags und Schema-tags
+  * Darstellung im Anzeigesystem
+Beziehung zu / Abgrenzung von TEI:
+ * systematischer als TEI (korrigiert historischen Wildwuchs)
+ * strikter als TEI
+ * <s>: wissenschaftliches Arbeiten
+ * nur das, was wir konkret verwenden / anzeigen
+ * TEI ist kein einheitlicher Standard, sondern eine Familie von Standards
+ * trotzdem TEI als Austauschformat
+== 3. Workflow
+Konzept des Workflows: Schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten
+ * [wiki:workflow Dokumentation]
+ * Skripte in Perl und XSLT
+ * Umsetzung als Textfilter
+ * so lange wie möglich: Arbeiten mit .txt statt .xml
+ * Beziehung zwischen DESpecs, Schema, Workflow: berücksichtige verschiedene DESpecs-Versionen
+ * Es gibt fast nie Rückmeldungen zu den erstellten XML-Texten. Arbeitet eigentlich jemand mit den Texten, z.B. mit den 20 Vitruv-Texten?
+Schritte bis zur endgültigen Transkription:
+ * Klaus: vorbereiten, überprüfen
+ * Fragen beantworte meistens ich.
+  * Letzter Work Order (WO 10) bestand aus besonders schwierigen Texten, die bisher liegengeblieben waren. Großer Aufwand bei der Beantwortung der Fragen.
+  * Müssen noch in die DESpecs überführt werden.
+  * Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel Wimmelbilder-Figures. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können.
+Schritte nach Erhalt der endgültigen Transkription:
+ * Konzept und Implementation
+ * Workflow durchführen: meistens Klaus
+ * zusätzlich: Figures ausschneiden: Beschreibung von Klaus, durchgeführt von Student
+ * Im [wiki:workflow#a1.Vorbereitungen ersten Schritt] werden alle Vorbereitungen getroffen, um mit dem raw text arbeiten zu können.
+  * Text in das repository
+  * Abstimmung mit Foxridge: index.meta
+ * Im [wiki:workflow#a2.rawtextbearbeiten zweiten Schritt] wird der raw text annotiert und korrigiert.
+  * Metadaten ergänzen: Skript von Klaus
+  * <pb> synchronisieren als Voraussetzung für die weitere Arbeit
+  * verbotene Zeichen im Text ersetzen
+  * unknown characters durchgehen
+  * escape sequences prüfen
+  * italics prüfen ("_ _")
+  * tags prüfen: <h> hat ein </h>, aber auch <tb> steht auf eigener Zeile. Grundlag für weitere Skripte
+  * prüfe <s>: wende das <s>-Skript testweise an und finde Merkwürdigkeiten im Ergebnis
+  * prüfe Tabellen (fehlt noch)
+  * eventuell Skripte für Special Instructions
+ * Im [wiki:workflow#a3.Schrittebiszuwohlgeformtemxml dritten Schritt] wird der annotierte raw text in wohlgeformtes XML verwandelt. Weitgehend automatisch.
+  * ersetze unknown characters, replacements (Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics
+  * XML: ergänze Metadaten, erzeuge wohlgeformtes XML
+ * Im [wiki:workflow#a4.schema-konformmachen vierten Schritt] wird der XML-Text schemakonform gemacht. Weitgehend automatisch.
+  * <pb> nachbearbeiten
+  * Floats aus den Absätzen herausziehen
+  * <lb>
+  * <emph>
+  * Tabellen (fehlt noch)
+  * <div>
+ * Scholarly Workflow / Texanalyse:
+  * <reg>
+ * weitere Skripte für den Scholarly Workflow sind noch im Konzept-Stadium:
+  * <var>, <num>, Formeln
+  * <foreign>
+  * <place> etc.
+  * Textkorrektur durch Abgleich mit Donatus
+  * allgemeines Test-Skript
+  * echo-de: <wrong> etc.
+  * Hilfe bei der Korrektur typischer Transkriptionsfehler
+ * weitere Skripte (schon vorhanden):
+  * <div>durchnumerieren (auch für DTD-Fragment)
+  * Wrapper für XSLT-Skripte, um Nebenwirkungen zu korrigieren
+ * Chinesischer Workflow:
+  * Skript für Zeichenvarianten
+Bearbeitungsstand
+  * Konzept fertig
+  * die Grundstruktur ist implementiert und verwendbar
+  * müssen überarbeitet werden: s, emph, ...
+  * fehlen noch: Tabellen, Fußnoten, ...
+  * kurzfristiges Ziel: Skripte so einfach wie möglich verwendbar machen
+  * <place> und allgemein overlays weiter ausarbeiten
+Problem der Fehlerkorrektur:
+ * interessant sind nur echte Satzfehler
+ * Transkriptionsfehler werden stillschweigend korrigiert
+Konzept: Editionssystem
+ * killer feature
+ * geht über klassische Text-Editionen hinaus
+ * Werkzeug zur Beseitigung von Transkriptionsfehlern
+ * Regularisierung: <reg>-Skript, Zusammenarbeit mit Paul
+ * Normalisierung: Lex-Skripte, Koordinierung mit Josef und Robert
+  * was wird übergeben
+  * Zeilenumbrüche
+== 4. Zusammenspiel XML und Anzeigesystem
+Mitarbeit am Konzept für die Anzeige von:
+ * Buchstruktur
+ * Textseite
+ * Bildseite
+ * Anzeige-Optionen
+ * Wörterbuch-Informationen
+ * Suchergebnissen
+ * Besonderheiten bei chinesischem Text
+ * statische Versionen, Lite-Version, URLs, etc.
+[wiki:ticket-overview Überblick] über die Tickets
+ * für Frontend, Backend, GIS
+ * Umsetzungen des Konzepts, und Bugs
+Liste: Verhalten für jedes tag, im Text und im Inhaltsverzeichnis
+ * Beispiele für Darstellung von tags:
+  * CSS-level: optisch erkennbar
+  * Sprachtechnologie: wird nicht oder anders analysiert: <var>, <reg>
+[wiki:normalization Normalisierung]:
+ * genaue Analyse des Ist-Zustands in Arboreal und im Backend
+ * Übersicht über das Zusammenspiel von Regularisierung und Normalisierung
+ * Regularisierung im Detail:
+  * Ziele
+  * Zusammenhang mit Anzeige-Modi
+  * @faithul-Attribut für "überschüssige" Information, Abgrenzung von Orig und faithful
+  * Umgang mit PUA-Zeichen
+  * Umgang mit Abkürzungen im Text
+  * automatische Fehlerkorrektur
+  * Sprachübergreifende Regularisierungen
+  * Regularisierungen für einzelne Sprachen
+ * Normalisierung im Detail:
+  * Ziele
+  * Textgestalt, die die Normalisierung vorfindet
+  * Normalisierung für die Textanzeige
+  * Normalisierung für Wörterbücher (sprachimmanent und technisch bedingt)
+  * Normalisierung für die Suche
+  * Verhältnis von Wortform und Grundform
+  * Diakritika
+  * Sprachschichten
+  * sprachübergreifende Normalisierungen
+  * Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten
+ * Umsetzung
+  * Liste: konkret zu tun
+  * [source:trunk/schema/scripts/MpdlNormalizerLex Lex] für jede Sprache (mit Java-Testerklassse)
+== 5. Zusammenspiel XML und GIS
+ * Übergang vom alten Frontend (Falk) zum neuen Frontend (!Christopher/Robert) angestoßen und begleitet
+ * Konzept: Verknüpfung Frontend mit GIS
+ * <place>: mit Dagmar und Grace: Konzept für
+  * overlay mit Tabelle (GIS-System als Prototyp für overlay)
+  * Inhalt der Tabelle
+  * Struktur des authority file
+== 6. Vorzeigetexte
+Latein
+ * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=/mpiwg/online/permanent/library/163127KK&pn=5 Benedetti]: europäischer Vorzeigetext; für Jürgen
+ * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=/mpiwg/online/permanent/library/YHKVZ7B4&pn=5 Alvarus]: früher gedruckter Text mit vielen Abkürzungen; für Paul
+ * Clavius-Euklid: für das Euklid-Projekt
+Chinesisch
+ * Song Yingxing: chinesischer Vorzeigetext; places; für Dagmar
+ * chinesischer Euklid: für das Euklid-Projekt
+Deutsch
+ * Heeschen (mit Eipomek): Textflows; für Martin T.
+ * Abruzzen: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt.
+Diverse Skripte für Einzeltexte, insbesondere bei den ersten Texten und für Nachbearbeitungen
+== 7. Wiki
+ * Dokumentation: DESpecs (fehlt), [wiki:echo-schema Schema], [wiki:workflow Workflow]
+  * werde ich in ein Unterverzeichnis documentation/de bzw. documentation/en verschieben
+ * Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können.
+Beispiele
+== 8. Scholarly workflow
+ * im Schema bereits angelegt
+ * Anfänge sind gemacht mit <reg>-Skript
+nächster Projektabschnitt:
+  * Skripte für scholarly workflow
+   * zusätzliche Auszeichnungen wie <num>
+   * Korrektur von bestehenden Auszeichnungen wie <s>
+  * Skripte für Texte aus anderen Quellen, z.B. Stabi
+  * Interaktivität insbesondere im scholarly workflow, aber auch in den Schritten davor
+  * Web-Services