Changes between Version 3 and Version 4 of workflow-stand


Ignore:
Timestamp:
Mar 3, 2011, 11:59:08 AM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • workflow-stand

    v3 v4  
    1010
    1111Data Entry Specifications (DESpecs) für europäische Texte und für chinesische Texte
    12  * über 100 Texte damit geschickt: [wiki:OverviewWorkOrders Übersicht]
    13  * erste Versionen abgeschlossen; werden weiterentwickelt
     12 * [wiki:OverviewWorkOrders Übersicht]: über 100 Texte damit geschickt
     13 * erste Versionen abgeschlossen
     14 * werden weiterentwickelt nach den Erfahrungen mit den geschickten Texten
    1415 * Regeln: einfach formuliert versus semantisch und linguistisch korrekt
    1516 * wir wollen semantisch relevante Eigenschaften, wir bekommen optisch erkennbare Dinge
    1617 * im Zweifelsfall: markieren lassen, hinterher prüfen und eventuell verwerfen (z.B. <col>)
    1718 * eventuell Neubewertung, seitdem man die fertigen Texte wirklich sehen kann
    18  * absichtlich kein echtes XML; definierte Schnittstelle für verschiedene Transkriptionsfirmen
     19 * absichtlich [wiki:despecs kein echtes XML]; definierte Schnittstelle für verschiedene Transkriptionsfirmen
    1920 * reine Textdateien, Unicode
    2021 * escape sequences, auch für seltene Unicode-Zeichen: sonst Stochern in der Unicode-Tabelle
    2122 * Dokumentation:
    2223  * die DESpecs sind im wesentlichen selbsterklärend
    23   * aber Designentscheidungen
    24   * und linguistischer Hintergrund, muss noch aufgeschrieben werden
     24  * aber Designentscheidungen und linguistischer Hintergrund
     25  * muss noch aufgeschrieben werden
    2526
    2627Europäische Specs (mit Malcolm und Klaus):
    27  * sprachunabhängige Regeln für Textstruktur
    28   * Seiten-Struktur
     28 * (korrekter wäre wohl: Specs für Alphabetschriften, auch Arabisch)
     29 * sprachunabhängige Regeln, hauptsächlich für Textstruktur
     30  * Seiten-Struktur, und Spalten
    2931  * Textblöcke
    30   * Spalten
    3132  * Tabellen im weitesten Sinne
    3233  * Marginalien und Fußnoten
     
    3536 * Transkriptionsregeln für das lateinische Alphabet
    3637  * Interpunktion
    37   * Zeichen
     38  * Zeichen, escape sequences
    3839  * Schriftstile
    3940 * Regeln für andere Sprachen und Schriftsysteme
     
    4849 * Regeln für Textstruktur angepasst
    4950 * killer feature: Regeln für Zeichenvarianten
    50  * in der Pipeline: Überarbeitung der Regeln für Zeichenvarianten
    51  
    52 Außerdem diverse [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/special-instructions Special Instructions] für europäische und chinesische Texte
    53  * mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg
    54  * etc.
     51 * in der Pipeline: überarbeitete Regeln für Zeichenvarianten einbauen
     52 
     53Außerdem diverse [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/special-instructions Special Instructions] für europäische und chinesische Texte, und beantwortete Fragen von Formax
     54 * aktuell mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg
    5555
    5656technische Hilfe beim Aufbau einer vergleichbaren Gruppe bei der Partnergruppe
     
    5959 
    6060In der Pipeline:
    61  * Cathleen-Texte (das sind nicht die Heidelberg Texte)
    62  * Heytesbury, Swineshead
     61 * Cathleen-Texte (Bibliothekskataloge; das sind nicht die Heidelberg-Texte)
     62 * Paul: Heytesbury, Swineshead
    6363 * Mingli tan (klären mit Joachim)
    6464 
     
    7272  * chinesische Specs: von Martina überarbeiteten Umgang mit Zeichenvarianten einbauen
    7373  * europäische Specs: u.a. <math> und Antworten von WO 10; Juttas Anmerkungen
    74   * DESpecs nachträglich ins repository
    7574  * 1 Woche
    7675 
     
    8483 * Design-Entscheidungen:
    8584  * ein Schema für alle Texte
    86   * unabhängige Module
     85  * möglichst unabhängige Module
    8786  * tags in den DESpecs sollten möglichst ein Gegenstück im Schema haben
    8887  * aber das Schema soll die DESpecs nicht sklavisch nachmachen (die DESpecs sind nur aus pragmatischen Gründen vor dem Schema entstanden)
     
    9089
    9190[wiki:echo-schema Dokumentation]:
    92  * Übersicht über Module: Gruppen von Modulen
     91 * Einteilung der Module in Gruppen
    9392  * Standard-Module
    9493  * Grobstrukturierung des Textes
    9594  * Feinstrukturierung des Textes
    9695  * Textauszeichnung
    97  * damit verwandt: Module und XML-Hierarchie
     96 * damit verwandt: Zuordnung der Module zur XML-Hierarchie
    9897 * Abhängigkeiten zwischen den Modulen
    99  * zeitlicher Ablauf:
     98 * Module sortiert nach zeitlichem Ablauf:
    10099  * automatisisiert und semi-automatisiert
    101100  * scholarly workflow
     
    104103  * Verwendung, best practices z.B. bei <lb>
    105104  * Verhältnis DESpecs-tags und Schema-tags
    106   * Darstellung im Anzeigesystem
     105  * Darstellung im Anzeigesystem und in GIS
    107106
    108107Beziehung zu / Abgrenzung von TEI:
    109  * systematischer als TEI (korrigiert historischen Wildwuchs)
     108 * systematischer als TEI (weniger historisch bedingter Wildwuchs)
    110109 * strikter als TEI
    111110 * <s>: wissenschaftliches Arbeiten
     
    121120für Version 1.x:
    122121 * Zwiebelstruktur des Schemas
     122 * Vorgehen bei Schema-Änderungen; verschiedene Schema-Versionen
    123123
    124124== 3. Workflow
    125125
    126 Konzept des Workflows: Schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten
     126Konzept des Workflows: Texte schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten
    127127 * [wiki:workflow Dokumentation]
    128128 * Skripte in Perl und XSLT
     
    132132 * Es gibt fast nie Rückmeldungen zu den erstellten XML-Texten. Arbeitet eigentlich jemand mit den Texten, z.B. mit den 20 Vitruv-Texten?
    133133
    134 Schritte bis zur endgültigen Transkription:
     134Schritte bis zur fertigen Transkription:
    135135 * Klaus: vorbereiten, überprüfen
    136136 * Fragen beantworte meistens ich.
    137137  * Letzter Work Order (WO 10) bestand aus besonders schwierigen Texten, die bisher liegengeblieben waren. Großer Aufwand bei der Beantwortung der Fragen.
    138   * Müssen noch in die DESpecs überführt werden.
    139   * Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel Wimmelbilder-Figures. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können.
    140 
    141 Schritte nach Erhalt der endgültigen Transkription:
     138  * Antworten müssen noch in die DESpecs überführt werden.
     139  * Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel [wiki:WO10_Bion_1723 Wimmelbilder-Figures]. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können. (Ich muss noch prüfen, ob es in WO 10 funktioniert hat.)
     140
     141Schritte nach Erhalt der fertigen Transkription:
    142142 * Konzept und Implementation
    143143 * Workflow durchführen: meistens Klaus
     
    153153  * escape sequences prüfen
    154154  * italics prüfen ("_ _")
    155   * tags prüfen: <h> hat ein </h>, aber auch <tb> steht auf eigener Zeile. Grundlag für weitere Skripte
     155  * tags prüfen: Wichtig als Grundlage für weitere Skripte. Beispiele:
     156   * zu <h> gibt es ein </h>
     157   * <tb> steht auf eigener Zeile
     158   * Elemente sind korrekt verschachtelt
    156159  * prüfe <s>: wende das <s>-Skript testweise an und finde Merkwürdigkeiten im Ergebnis
    157160  * prüfe Tabellen (fehlt noch)
    158   * eventuell Skripte für Special Instructions
     161  * eventuell Skripte für tags aus Special Instructions
    159162 * Im [wiki:workflow#a3.Schrittebiszuwohlgeformtemxml dritten Schritt] wird der annotierte raw text in wohlgeformtes XML verwandelt. Weitgehend automatisch.
    160   * ersetze unknown characters, replacements (Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics
    161   * XML: ergänze Metadaten, erzeuge wohlgeformtes XML
     163  * ersetze unknown characters, replacements (d.h. Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics
     164  * XML: wandle die Metadaten in XML um, erzeuge aus dem Pseudo-XML im Textteil wohlgeformtes XML
    162165 * Im [wiki:workflow#a4.schema-konformmachen vierten Schritt] wird der XML-Text schemakonform gemacht. Weitgehend automatisch.
    163166  * <pb> nachbearbeiten
     
    187190  * die Grundstruktur ist implementiert und verwendbar
    188191  * müssen überarbeitet werden: s, emph, ...
    189   * fehlen noch: Tabellen, Fußnoten, ...
     192  * fehlen noch: korrekte Verarbeitung von Tabellen, Fußnoten, ...
    190193  * kurzfristiges Ziel: Skripte so einfach wie möglich verwendbar machen
    191194  * <place> und allgemein overlays weiter ausarbeiten
     
    202205 * Normalisierung: Lex-Skripte, Koordinierung mit Josef und Robert
    203206  * was wird übergeben
     207  * was kommt zurück
    204208  * Zeilenumbrüche
    205209
     
    217221 * Workflow anwenden:
    218222  * chinesische Texte mit neuen Specs nach China schicken
    219   * überarbeitete Skripte anwenden auf die vorhandenen Texte
     223  * überarbeitete Skripte anwenden auf die vorhandenen Texte (Klaus)
    220224  * aber zuerst, dringend: Texte von WO 10 prüfen
    221225  * 0,5 Wochen
     
    226230 * schwierigere Texte fertig umwandeln
    227231 * chinesische Texte umwandeln
    228  * Skripte glatter machen, damit es nicht so unübersichtlich wie in Arboreal ist
     232 * Programm-Code der Skripte glatter machen, damit es nicht so unübersichtlich wie in Arboreal ist
    229233 * Textflow-Skript
    230234 * Konzept für overlays aus XML-Sicht
    231235
    232236für Version 2.0:
     237 * Einfaches Paket, das von interessierten Forschern leicht verwendet werden kann. (siehe auch 8. Scholarly Workflow)
    233238 * Umgang mit Formeln
    234239
     
    249254 * Umsetzungen des Konzepts, und Bugs
    250255
    251 Liste: Verhalten für jedes tag, im Text und im Inhaltsverzeichnis
     256Liste: Verhalten für jedes tag, [wiki:echo-schema#a3.UmsetzungderXML-tags im Text] und [source:"trunk/papers/discussion_papers/Regeln zum Erstellen eines Inhaltsverzeichnisses.pdf" im Inhaltsverzeichnis]
    252257 * Beispiele für Darstellung von tags:
    253258  * CSS-level: optisch erkennbar
     
    256261[wiki:normalization Normalisierung]:
    257262 * genaue Analyse des Ist-Zustands in Arboreal und im Backend
    258  * Übersicht über das Zusammenspiel von Regularisierung und Normalisierung
    259  * Regularisierung im Detail:
     263 * [wiki:normalization/4 Übersicht] über das Zusammenspiel von Regularisierung und Normalisierung
     264 * [wiki:normalization/5 Regularisierung] im Detail:
    260265  * Ziele
    261266  * Zusammenhang mit Anzeige-Modi
    262   * @faithul-Attribut für "überschüssige" Information, Abgrenzung von Orig und faithful
    263   * Umgang mit PUA-Zeichen
     267  * @faithul-Attribut
     268   * für "überschüssige" Information und zur Unterstützung bei der Korrektur von Transkriptionsfehlern
     269   * Abgrenzung von Orig und faithful
     270   * Umgang mit PUA-Zeichen
    264271  * Umgang mit Abkürzungen im Text
    265   * automatische Fehlerkorrektur
     272  * Aussicht: automatische Fehlerkorrektur
    266273  * Sprachübergreifende Regularisierungen
    267274  * Regularisierungen für einzelne Sprachen
    268  * Normalisierung im Detail:
     275 * [wiki:normalization/6 Normalisierung] im Detail:
    269276  * Ziele
    270277  * Textgestalt, die die Normalisierung vorfindet
     
    276283  * Sprachschichten
    277284  * sprachübergreifende Normalisierungen
    278   * Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten
     285  * Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten im Chinesischen
    279286 * Umsetzung
    280   * Liste: konkret zu tun
     287  * Liste: [wiki:normalization/7 konkret zu tun]
    281288  * [source:trunk/schema/scripts/MpdlNormalizerLex Lex] für jede Sprache (mit Java-Testerklassse)
    282289
     
    300307
    301308für Version 1.0:
    302  * Konzept für die Verzahnung von <place>-Tabellen, Annotationen, Overlays, Kartenanzeige
     309 * Konzept für die Verzahnung von <place>-Tabellen, Annotationen, Overlays, Kartenanzeige (gemeinsame Infrastruktur)
    303310 * 0,5 Wochen
    304311
     
    311318
    312319Chinesisch
    313  * Song Yingxing: chinesischer Vorzeigetext; places; für Dagmar
    314  * chinesischer Euklid: für das Euklid-Projekt
     320 * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/echo/china/songy_tiang_zh_1637 Song Yingxing]: chinesischer Vorzeigetext; places; für Dagmar
     321 * [http://mpdl-dev.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/library/02NT95YF&viewMode=text&pn=5&characterNormalization=reg chinesischer Euklid]: für das Euklid-Projekt
    315322
    316323Deutsch
    317  * Heeschen (mit Eipomek): Textflows; für Martin T.
    318  * Abruzzen: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt.
     324 * [http://mpdl-dev.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/library/XYZATWZM Heeschen] (Eipomek und Deutsch): Textflows; für Martin T.
     325 * [http://mpdl-dev.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/library/0QDF6SH2&pn=7 Abruzzen]: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt.
    319326
    320327Diverse Skripte für Einzeltexte, insbesondere bei den ersten Texten und für Nachbearbeitungen
     
    333340 * Dokumentation: DESpecs (fehlt), [wiki:echo-schema Schema], [wiki:workflow Workflow]
    334341  * werde ich in ein Unterverzeichnis documentation/de bzw. documentation/en verschieben
    335  * Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können. (Beispiele)
     342 * Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können. (Beispiel [wiki:pagenumbers Seitenzahlen])
    336343
    337344für Version 1.0:
     
    342349 * Computer durchgehen auf weitere Dinge, eventuell aufs wiki stellen
    343350 * Workflow-Dokumentation überarbeiten
    344  * Usage Guide
     351 * [wiki:echo-schema#a2.UsageGuide Usage Guide] weiter
    345352 * Dokumentation der DESpecs
    346353 * wiki aktualisieren
    347  * Beispiel-XML-Dateien überarbeiten
     354 * [source:trunk/schema/xml-test-files Beispiel-XML-Dateien] überarbeiten
    348355 * Anbindung an andere Projekte und Europeana
    349356 * paper