Context Navigation

Changes between Version 3 and Version 4 of workflow-stand

Timestamp:: Mar 3, 2011, 11:59:08 AM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

workflow-stand

-                      v3
+                      v4
 Data Entry Specifications (DESpecs) für europäische Texte und für chinesische Texte
+ * über 100 Texte damit geschickt: [wiki:OverviewWorkOrders Übersicht]
+ * erste Versionen abgeschlossen; werden weiterentwickelt
+ * [wiki:OverviewWorkOrders Übersicht]: über 100 Texte damit geschickt
+ * erste Versionen abgeschlossen
+ * werden weiterentwickelt nach den Erfahrungen mit den geschickten Texten
  * Regeln: einfach formuliert versus semantisch und linguistisch korrekt
  * wir wollen semantisch relevante Eigenschaften, wir bekommen optisch erkennbare Dinge
  * im Zweifelsfall: markieren lassen, hinterher prüfen und eventuell verwerfen (z.B. <col>)
  * eventuell Neubewertung, seitdem man die fertigen Texte wirklich sehen kann
  * absichtlich kein echtes XML; definierte Schnittstelle für verschiedene Transkriptionsfirmen
+ * absichtlich [wiki:despecs kein echtes XML]; definierte Schnittstelle für verschiedene Transkriptionsfirmen
  * reine Textdateien, Unicode
  * escape sequences, auch für seltene Unicode-Zeichen: sonst Stochern in der Unicode-Tabelle
  * Dokumentation:
   * die DESpecs sind im wesentlichen selbsterklärend
   * aber Designentscheidungen
   * und linguistischer Hintergrund, muss noch aufgeschrieben werden
+  * aber Designentscheidungen und linguistischer Hintergrund
+  * muss noch aufgeschrieben werden
 Europäische Specs (mit Malcolm und Klaus):
+ * sprachunabhängige Regeln für Textstruktur
+  * Seiten-Struktur
+ * (korrekter wäre wohl: Specs für Alphabetschriften, auch Arabisch)
+ * sprachunabhängige Regeln, hauptsächlich für Textstruktur
+  * Seiten-Struktur, und Spalten
   * Textblöcke
-  * Spalten
   * Tabellen im weitesten Sinne
   * Marginalien und Fußnoten
 …
  * Transkriptionsregeln für das lateinische Alphabet
   * Interpunktion
   * Zeichen
+  * Zeichen, escape sequences
   * Schriftstile
  * Regeln für andere Sprachen und Schriftsysteme
 …
  * Regeln für Textstruktur angepasst
  * killer feature: Regeln für Zeichenvarianten
+ * in der Pipeline: Überarbeitung der Regeln für Zeichenvarianten
+Außerdem diverse [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/special-instructions Special Instructions] für europäische und chinesische Texte
+ * mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg
+ * etc.
+ * in der Pipeline: überarbeitete Regeln für Zeichenvarianten einbauen
+Außerdem diverse [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/special-instructions Special Instructions] für europäische und chinesische Texte, und beantwortete Fragen von Formax
+ * aktuell mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg
 technische Hilfe beim Aufbau einer vergleichbaren Gruppe bei der Partnergruppe
 …
 In der Pipeline:
  * Cathleen-Texte (das sind nicht die Heidelberg Texte)
  * Heytesbury, Swineshead
+ * Cathleen-Texte (Bibliothekskataloge; das sind nicht die Heidelberg-Texte)
+ * Paul: Heytesbury, Swineshead
  * Mingli tan (klären mit Joachim)
 …
   * chinesische Specs: von Martina überarbeiteten Umgang mit Zeichenvarianten einbauen
   * europäische Specs: u.a. <math> und Antworten von WO 10; Juttas Anmerkungen
-  * DESpecs nachträglich ins repository
   * 1 Woche
 …
  * Design-Entscheidungen:
   * ein Schema für alle Texte
   * unabhängige Module
+  * möglichst unabhängige Module
   * tags in den DESpecs sollten möglichst ein Gegenstück im Schema haben
   * aber das Schema soll die DESpecs nicht sklavisch nachmachen (die DESpecs sind nur aus pragmatischen Gründen vor dem Schema entstanden)
 …
 [wiki:echo-schema Dokumentation]:
  * Übersicht über Module: Gruppen von Modulen
+ * Einteilung der Module in Gruppen
   * Standard-Module
   * Grobstrukturierung des Textes
   * Feinstrukturierung des Textes
   * Textauszeichnung
  * damit verwandt: Module und XML-Hierarchie
+ * damit verwandt: Zuordnung der Module zur XML-Hierarchie
  * Abhängigkeiten zwischen den Modulen
  * zeitlicher Ablauf:
+ * Module sortiert nach zeitlichem Ablauf:
   * automatisisiert und semi-automatisiert
   * scholarly workflow
 …
   * Verwendung, best practices z.B. bei <lb>
   * Verhältnis DESpecs-tags und Schema-tags
   * Darstellung im Anzeigesystem
+  * Darstellung im Anzeigesystem und in GIS
 Beziehung zu / Abgrenzung von TEI:
  * systematischer als TEI (korrigiert historischen Wildwuchs)
+ * systematischer als TEI (weniger historisch bedingter Wildwuchs)
  * strikter als TEI
  * <s>: wissenschaftliches Arbeiten
 …
 für Version 1.x:
  * Zwiebelstruktur des Schemas
+ * Vorgehen bei Schema-Änderungen; verschiedene Schema-Versionen
 == 3. Workflow
 Konzept des Workflows: Schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten
+Konzept des Workflows: Texte schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten
  * [wiki:workflow Dokumentation]
  * Skripte in Perl und XSLT
 …
  * Es gibt fast nie Rückmeldungen zu den erstellten XML-Texten. Arbeitet eigentlich jemand mit den Texten, z.B. mit den 20 Vitruv-Texten?
 Schritte bis zur endgültigen Transkription:
+Schritte bis zur fertigen Transkription:
  * Klaus: vorbereiten, überprüfen
  * Fragen beantworte meistens ich.
   * Letzter Work Order (WO 10) bestand aus besonders schwierigen Texten, die bisher liegengeblieben waren. Großer Aufwand bei der Beantwortung der Fragen.
   * Müssen noch in die DESpecs überführt werden.
   * Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel Wimmelbilder-Figures. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können.
 Schritte nach Erhalt der endgültigen Transkription:
+  * Antworten müssen noch in die DESpecs überführt werden.
+  * Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel [wiki:WO10_Bion_1723 Wimmelbilder-Figures]. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können. (Ich muss noch prüfen, ob es in WO 10 funktioniert hat.)
+Schritte nach Erhalt der fertigen Transkription:
  * Konzept und Implementation
  * Workflow durchführen: meistens Klaus
 …
   * escape sequences prüfen
   * italics prüfen ("_ _")
+  * tags prüfen: <h> hat ein </h>, aber auch <tb> steht auf eigener Zeile. Grundlag für weitere Skripte
+  * tags prüfen: Wichtig als Grundlage für weitere Skripte. Beispiele:
+   * zu <h> gibt es ein </h>
+   * <tb> steht auf eigener Zeile
+   * Elemente sind korrekt verschachtelt
   * prüfe <s>: wende das <s>-Skript testweise an und finde Merkwürdigkeiten im Ergebnis
   * prüfe Tabellen (fehlt noch)
   * eventuell Skripte für Special Instructions
+  * eventuell Skripte für tags aus Special Instructions
  * Im [wiki:workflow#a3.Schrittebiszuwohlgeformtemxml dritten Schritt] wird der annotierte raw text in wohlgeformtes XML verwandelt. Weitgehend automatisch.
   * ersetze unknown characters, replacements (Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics
   * XML: ergänze Metadaten, erzeuge wohlgeformtes XML
+  * ersetze unknown characters, replacements (d.h. Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics
+  * XML: wandle die Metadaten in XML um, erzeuge aus dem Pseudo-XML im Textteil wohlgeformtes XML
  * Im [wiki:workflow#a4.schema-konformmachen vierten Schritt] wird der XML-Text schemakonform gemacht. Weitgehend automatisch.
   * <pb> nachbearbeiten
 …
   * die Grundstruktur ist implementiert und verwendbar
   * müssen überarbeitet werden: s, emph, ...
   * fehlen noch: Tabellen, Fußnoten, ...
+  * fehlen noch: korrekte Verarbeitung von Tabellen, Fußnoten, ...
   * kurzfristiges Ziel: Skripte so einfach wie möglich verwendbar machen
   * <place> und allgemein overlays weiter ausarbeiten
 …
  * Normalisierung: Lex-Skripte, Koordinierung mit Josef und Robert
   * was wird übergeben
+  * was kommt zurück
   * Zeilenumbrüche
 …
  * Workflow anwenden:
   * chinesische Texte mit neuen Specs nach China schicken
   * überarbeitete Skripte anwenden auf die vorhandenen Texte
+  * überarbeitete Skripte anwenden auf die vorhandenen Texte (Klaus)
   * aber zuerst, dringend: Texte von WO 10 prüfen
   * 0,5 Wochen
 …
  * schwierigere Texte fertig umwandeln
  * chinesische Texte umwandeln
  * Skripte glatter machen, damit es nicht so unübersichtlich wie in Arboreal ist
+ * Programm-Code der Skripte glatter machen, damit es nicht so unübersichtlich wie in Arboreal ist
  * Textflow-Skript
  * Konzept für overlays aus XML-Sicht
 für Version 2.0:
+ * Einfaches Paket, das von interessierten Forschern leicht verwendet werden kann. (siehe auch 8. Scholarly Workflow)
  * Umgang mit Formeln
 …
  * Umsetzungen des Konzepts, und Bugs
 Liste: Verhalten für jedes tag, im Text und im Inhaltsverzeichnis
+Liste: Verhalten für jedes tag, [wiki:echo-schema#a3.UmsetzungderXML-tags im Text] und [source:"trunk/papers/discussion_papers/Regeln zum Erstellen eines Inhaltsverzeichnisses.pdf" im Inhaltsverzeichnis]
  * Beispiele für Darstellung von tags:
   * CSS-level: optisch erkennbar
 …
 [wiki:normalization Normalisierung]:
  * genaue Analyse des Ist-Zustands in Arboreal und im Backend
  * Übersicht über das Zusammenspiel von Regularisierung und Normalisierung
  * Regularisierung im Detail:
+ * [wiki:normalization/4 Übersicht] über das Zusammenspiel von Regularisierung und Normalisierung
+ * [wiki:normalization/5 Regularisierung] im Detail:
   * Ziele
   * Zusammenhang mit Anzeige-Modi
+  * @faithul-Attribut für "überschüssige" Information, Abgrenzung von Orig und faithful
+  * Umgang mit PUA-Zeichen
+  * @faithul-Attribut
+   * für "überschüssige" Information und zur Unterstützung bei der Korrektur von Transkriptionsfehlern
+   * Abgrenzung von Orig und faithful
+   * Umgang mit PUA-Zeichen
   * Umgang mit Abkürzungen im Text
   * automatische Fehlerkorrektur
+  * Aussicht: automatische Fehlerkorrektur
   * Sprachübergreifende Regularisierungen
   * Regularisierungen für einzelne Sprachen
  * Normalisierung im Detail:
+ * [wiki:normalization/6 Normalisierung] im Detail:
   * Ziele
   * Textgestalt, die die Normalisierung vorfindet
 …
   * Sprachschichten
   * sprachübergreifende Normalisierungen
   * Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten
+  * Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten im Chinesischen
  * Umsetzung
   * Liste: konkret zu tun
+  * Liste: [wiki:normalization/7 konkret zu tun]
   * [source:trunk/schema/scripts/MpdlNormalizerLex Lex] für jede Sprache (mit Java-Testerklassse)
 …
 für Version 1.0:
  * Konzept für die Verzahnung von <place>-Tabellen, Annotationen, Overlays, Kartenanzeige
+ * Konzept für die Verzahnung von <place>-Tabellen, Annotationen, Overlays, Kartenanzeige (gemeinsame Infrastruktur)
  * 0,5 Wochen
 …
 Chinesisch
  * Song Yingxing: chinesischer Vorzeigetext; places; für Dagmar
  * chinesischer Euklid: für das Euklid-Projekt
+ * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/echo/china/songy_tiang_zh_1637 Song Yingxing]: chinesischer Vorzeigetext; places; für Dagmar
+ * [http://mpdl-dev.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/library/02NT95YF&viewMode=text&pn=5&characterNormalization=reg chinesischer Euklid]: für das Euklid-Projekt
 Deutsch
  * Heeschen (mit Eipomek): Textflows; für Martin T.
  * Abruzzen: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt.
+ * [http://mpdl-dev.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/library/XYZATWZM Heeschen] (Eipomek und Deutsch): Textflows; für Martin T.
+ * [http://mpdl-dev.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/library/0QDF6SH2&pn=7 Abruzzen]: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt.
 Diverse Skripte für Einzeltexte, insbesondere bei den ersten Texten und für Nachbearbeitungen
 …
  * Dokumentation: DESpecs (fehlt), [wiki:echo-schema Schema], [wiki:workflow Workflow]
   * werde ich in ein Unterverzeichnis documentation/de bzw. documentation/en verschieben
  * Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können. (Beispiele)
+ * Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können. (Beispiel [wiki:pagenumbers Seitenzahlen])
 für Version 1.0:
 …
  * Computer durchgehen auf weitere Dinge, eventuell aufs wiki stellen
  * Workflow-Dokumentation überarbeiten
  * Usage Guide
+ * [wiki:echo-schema#a2.UsageGuide Usage Guide] weiter
  * Dokumentation der DESpecs
  * wiki aktualisieren
  * Beispiel-XML-Dateien überarbeiten
+ * [source:trunk/schema/xml-test-files Beispiel-XML-Dateien] überarbeiten
  * Anbindung an andere Projekte und Europeana
  * paper