Changes between Initial Version and Version 1 of workflow-stand


Ignore:
Timestamp:
Feb 24, 2011, 1:29:50 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • workflow-stand

    v1 v1  
     1= Der Stand beim XML-Workflow
     2
     3Februar 2011
     4
     5[[PageOutline(1-4,,pullout)]]
     6
     7== 1. DESpecs
     8
     9Data Entry Specifications (DESpecs) für europäische Texte und für chinesische Texte
     10 * über 100 Texte damit geschickt: [wiki:OverviewWorkOrders Übersicht]
     11 * erste Versionen abgeschlossen; werden weiterentwickelt
     12 * Regeln: einfach formuliert versus semantisch und linguistisch korrekt
     13 * wir wollen semantisch relevante Eigenschaften, wir bekommen optisch erkennbare Dinge
     14 * im Zweifelsfall: markieren lassen, hinterher prüfen und eventuell verwerfen (z.B. <col>)
     15 * eventuell Neubewertung, seitdem man die fertigen Texte wirklich sehen kann
     16 * absichtlich kein echtes XML; definierte Schnittstelle für verschiedene Transkriptionsfirmen
     17 * reine Textdateien, Unicode
     18 * escape sequences, auch für seltene Unicode-Zeichen: sonst Stochern in der Unicode-Tabelle
     19 * Dokumentation:
     20  * die DESpecs sind im wesentlichen selbsterklärend
     21  * aber Designentscheidungen
     22  * und linguistischer Hintergrund, muss noch aufgeschrieben werden
     23
     24Europäische Specs:
     25 * mit Malcolm und Klaus
     26 * sprachunabhängige Regeln für Textstruktur
     27  * Seiten-Struktur
     28  * Textblöcke
     29  * Spalten
     30  * Tabellen im weitesten Sinne
     31  * Marginalien und Fußnoten
     32  * Abbildungen
     33  * nicht identifizierbare Zeichen (unbekannt, unleserlich)
     34 * Transkriptionsregeln für das lateinische Alphabet
     35  * Interpunktion
     36  * Zeichen
     37  * Schriftstile
     38 * Regeln für andere Sprachen und Schriftsysteme
     39  * Griechisch
     40  * Fraktur
     41  * Mathematik (typischer Fall: <math> von Special Instruction in die Specs)
     42  * Symbole
     43  * weiteres  Ziel war Arabisch (mit Mark), davon gibt es noch Ansätze von Specs für Arabisch
     44
     45Chinesische Specs:
     46 * mit Martina
     47 * europäische Specs zwar sprachunabhängig, aber implizite Voraussetzung Alphabetschrift
     48 * Regeln für Textstruktur angepasst
     49 * killer feature: Regeln für Zeichenvarianten
     50 * in der Pipeline: Überarbeitung der Regeln für Zeichenvarianten
     51 
     52Außerdem diverse [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/special-instructions Special Instructions] für europäische und chinesische Texte
     53 * mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg
     54 * etc.
     55
     56technische Hilfe beim Aufbau einer vergleichbaren Gruppe bei der Partnergruppe
     57 * aus politischen Gründen gescheitert
     58 * neuen Versuch starten?
     59 
     60In der Pipeline:
     61 * Heytesbury
     62 * Cathleen-Texte (das sind nicht die Heidelberg Texte)
     63 * Mingli tan (klären mit Joachim)
     64 
     65== 2. ECHO-Schema
     66
     67Echo-Schema 1.0
     68 * mit Malcolm
     69 * Nachfolger von Archimedes-DTD
     70 * geschrieben in RELAX NG compact
     71 * modulare Struktur
     72 * konsequent Unicode
     73 * Design-Entscheidungen:
     74  * ein Schema für alle texte
     75  * unabhängige Module
     76  * tags in den DESpecs sollten möglichst ein Gegenstück im Schema haben
     77  * aber das Schema soll die DESpecs nicht sklavisch nachmachen (die DESpecs sind nur aus pragmatischen Gründen vor dem Schema entstanden)
     78 * lange Liste von Ergänzungen fertig, muss hochgeladen werden
     79
     80[wiki:echo-schema Dokumentation]:
     81 * Übersicht über Module: Gruppen von Modulen
     82  * Standard-Module
     83  * Grobstrukturierung des Textes
     84  * Feinstrukturierung des Textes
     85  * Textauszeichnung
     86 * damit verwandt: Module und XML-Hierarchie
     87 * Abhängigkeiten zwischen den Modulen
     88 * zeitlicher Ablauf:
     89  * automatisisiert und semi-automatisiert
     90  * scholarly workflow
     91 * die einzelnen tags
     92  * sortiert nach Schema-Modulen
     93  * Verwendung, best practices z.B. bei <lb>
     94  * Verhältnis DESpecs-tags und Schema-tags
     95  * Darstellung im Anzeigesystem
     96
     97Beziehung zu / Abgrenzung von TEI:
     98 * systematischer als TEI (korrigiert historischen Wildwuchs)
     99 * strikter als TEI
     100 * <s>: wissenschaftliches Arbeiten
     101 * nur das, was wir konkret verwenden / anzeigen
     102 * TEI ist kein einheitlicher Standard, sondern eine Familie von Standards
     103 * trotzdem TEI als Austauschformat
     104
     105== 3. Workflow
     106
     107Konzept des Workflows: Schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten
     108 * [wiki:workflow Dokumentation]
     109 * Skripte in Perl und XSLT
     110 * Umsetzung als Textfilter
     111 * so lange wie möglich: Arbeiten mit .txt statt .xml
     112 * Beziehung zwischen DESpecs, Schema, Workflow: berücksichtige verschiedene DESpecs-Versionen
     113 * Es gibt fast nie Rückmeldungen zu den erstellten XML-Texten. Arbeitet eigentlich jemand mit den Texten, z.B. mit den 20 Vitruv-Texten?
     114
     115Schritte bis zur endgültigen Transkription:
     116 * Klaus: vorbereiten, überprüfen
     117 * Fragen beantworte meistens ich.
     118  * Letzter Work Order (WO 10) bestand aus besonders schwierigen Texten, die bisher liegengeblieben waren. Großer Aufwand bei der Beantwortung der Fragen.
     119  * Müssen noch in die DESpecs überführt werden.
     120  * Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel Wimmelbilder-Figures. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können.
     121
     122Schritte nach Erhalt der endgültigen Transkription:
     123 * Konzept und Implementation
     124 * Workflow durchführen: meistens Klaus
     125 * zusätzlich: Figures ausschneiden: Beschreibung von Klaus, durchgeführt von Student
     126 * Im [wiki:workflow#a1.Vorbereitungen ersten Schritt] werden alle Vorbereitungen getroffen, um mit dem raw text arbeiten zu können.
     127  * Text in das repository
     128  * Abstimmung mit Foxridge: index.meta
     129 * Im [wiki:workflow#a2.rawtextbearbeiten zweiten Schritt] wird der raw text annotiert und korrigiert.
     130  * Metadaten ergänzen: Skript von Klaus
     131  * <pb> synchronisieren als Voraussetzung für die weitere Arbeit
     132  * verbotene Zeichen im Text ersetzen
     133  * unknown characters durchgehen
     134  * escape sequences prüfen
     135  * italics prüfen ("_ _")
     136  * tags prüfen: <h> hat ein </h>, aber auch <tb> steht auf eigener Zeile. Grundlag für weitere Skripte
     137  * prüfe <s>: wende das <s>-Skript testweise an und finde Merkwürdigkeiten im Ergebnis
     138  * prüfe Tabellen (fehlt noch)
     139  * eventuell Skripte für Special Instructions
     140 * Im [wiki:workflow#a3.Schrittebiszuwohlgeformtemxml dritten Schritt] wird der annotierte raw text in wohlgeformtes XML verwandelt. Weitgehend automatisch.
     141  * ersetze unknown characters, replacements (Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics
     142  * XML: ergänze Metadaten, erzeuge wohlgeformtes XML
     143 * Im [wiki:workflow#a4.schema-konformmachen vierten Schritt] wird der XML-Text schemakonform gemacht. Weitgehend automatisch.
     144  * <pb> nachbearbeiten
     145  * Floats aus den Absätzen herausziehen
     146  * <lb>
     147  * <emph>
     148  * Tabellen (fehlt noch)
     149  * <div>
     150 * Scholarly Workflow / Texanalyse:
     151  * <reg>
     152 * weitere Skripte für den Scholarly Workflow sind noch im Konzept-Stadium:
     153  * <var>, <num>, Formeln
     154  * <foreign>
     155  * <place> etc.
     156  * Textkorrektur durch Abgleich mit Donatus
     157  * allgemeines Test-Skript
     158  * echo-de: <wrong> etc.
     159  * Hilfe bei der Korrektur typischer Transkriptionsfehler
     160 * weitere Skripte (schon vorhanden):
     161  * <div>durchnumerieren (auch für DTD-Fragment)
     162  * Wrapper für XSLT-Skripte, um Nebenwirkungen zu korrigieren
     163 * Chinesischer Workflow:
     164  * Skript für Zeichenvarianten
     165
     166Bearbeitungsstand
     167  * Konzept fertig
     168  * die Grundstruktur ist implementiert und verwendbar
     169  * müssen überarbeitet werden: s, emph, ...
     170  * fehlen noch: Tabellen, Fußnoten, ...
     171  * kurzfristiges Ziel: Skripte so einfach wie möglich verwendbar machen
     172  * <place> und allgemein overlays weiter ausarbeiten
     173
     174Problem der Fehlerkorrektur:
     175 * interessant sind nur echte Satzfehler
     176 * Transkriptionsfehler werden stillschweigend korrigiert
     177
     178Konzept: Editionssystem
     179 * killer feature
     180 * geht über klassische Text-Editionen hinaus
     181 * Werkzeug zur Beseitigung von Transkriptionsfehlern
     182 * Regularisierung: <reg>-Skript, Zusammenarbeit mit Paul
     183 * Normalisierung: Lex-Skripte, Koordinierung mit Josef und Robert
     184  * was wird übergeben
     185  * Zeilenumbrüche
     186
     187== 4. Zusammenspiel XML und Anzeigesystem
     188
     189Mitarbeit am Konzept für die Anzeige von:
     190 * Buchstruktur
     191 * Textseite
     192 * Bildseite
     193 * Anzeige-Optionen
     194 * Wörterbuch-Informationen
     195 * Suchergebnissen
     196 * Besonderheiten bei chinesischem Text
     197 * statische Versionen, Lite-Version, URLs, etc.
     198 
     199[wiki:ticket-overview Überblick] über die Tickets
     200 * für Frontend, Backend, GIS
     201 * Umsetzungen des Konzepts, und Bugs
     202
     203Liste: Verhalten für jedes tag, im Text und im Inhaltsverzeichnis
     204 * Beispiele für Darstellung von tags:
     205  * CSS-level: optisch erkennbar
     206  * Sprachtechnologie: wird nicht oder anders analysiert: <var>, <reg>
     207
     208[wiki:normalization Normalisierung]:
     209 * genaue Analyse des Ist-Zustands in Arboreal und im Backend
     210 * Übersicht über das Zusammenspiel von Regularisierung und Normalisierung
     211 * Regularisierung im Detail:
     212  * Ziele
     213  * Zusammenhang mit Anzeige-Modi
     214  * @faithul-Attribut für "überschüssige" Information, Abgrenzung von Orig und faithful
     215  * Umgang mit PUA-Zeichen
     216  * Umgang mit Abkürzungen im Text
     217  * automatische Fehlerkorrektur
     218  * Sprachübergreifende Regularisierungen
     219  * Regularisierungen für einzelne Sprachen
     220 * Normalisierung im Detail:
     221  * Ziele
     222  * Textgestalt, die die Normalisierung vorfindet
     223  * Normalisierung für die Textanzeige
     224  * Normalisierung für Wörterbücher (sprachimmanent und technisch bedingt)
     225  * Normalisierung für die Suche
     226  * Verhältnis von Wortform und Grundform
     227  * Diakritika
     228  * Sprachschichten
     229  * sprachübergreifende Normalisierungen
     230  * Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten
     231 * Umsetzung
     232  * Liste: konkret zu tun
     233  * [source:trunk/schema/scripts/MpdlNormalizerLex Lex] für jede Sprache (mit Java-Testerklassse)
     234
     235== 5. Zusammenspiel XML und GIS
     236
     237 * Übergang vom alten Frontend (Falk) zum neuen Frontend (!Christopher/Robert) angestoßen und begleitet
     238 * Konzept: Verknüpfung Frontend mit GIS
     239 * <place>: mit Dagmar und Grace: Konzept für
     240  * overlay mit Tabelle (GIS-System als Prototyp für overlay)
     241  * Inhalt der Tabelle
     242  * Struktur des authority file
     243
     244== 6. Vorzeigetexte
     245
     246Latein
     247 * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=/mpiwg/online/permanent/library/163127KK&pn=5 Benedetti]: europäischer Vorzeigetext; für Jürgen
     248 * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=/mpiwg/online/permanent/library/YHKVZ7B4&pn=5 Alvarus]: früher gedruckter Text mit vielen Abkürzungen; für Paul
     249 * Clavius-Euklid: für das Euklid-Projekt
     250
     251Chinesisch
     252 * Song Yingxing: chinesischer Vorzeigetext; places; für Dagmar
     253 * chinesischer Euklid: für das Euklid-Projekt
     254
     255Deutsch
     256 * Heeschen (mit Eipomek): Textflows; für Martin T.
     257 * Abruzzen: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt.
     258
     259Diverse Skripte für Einzeltexte, insbesondere bei den ersten Texten und für Nachbearbeitungen
     260
     261== 7. Wiki
     262
     263 * Dokumentation: DESpecs (fehlt), [wiki:echo-schema Schema], [wiki:workflow Workflow]
     264  * werde ich in ein Unterverzeichnis documentation/de bzw. documentation/en verschieben
     265 * Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können.
     266
     267Beispiele
     268
     269== 8. Scholarly workflow
     270
     271 * im Schema bereits angelegt
     272 * Anfänge sind gemacht mit <reg>-Skript
     273
     274nächster Projektabschnitt:
     275  * Skripte für scholarly workflow
     276   * zusätzliche Auszeichnungen wie <num>
     277   * Korrektur von bestehenden Auszeichnungen wie <s>
     278  * Skripte für Texte aus anderen Quellen, z.B. Stabi
     279  * Interaktivität insbesondere im scholarly workflow, aber auch in den Schritten davor
     280  * Web-Services