Changes between Version 3 and Version 4 of workflow-stand
- Timestamp:
- Mar 3, 2011, 11:59:08 AM (14 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
workflow-stand
v3 v4 10 10 11 11 Data Entry Specifications (DESpecs) für europäische Texte und für chinesische Texte 12 * über 100 Texte damit geschickt: [wiki:OverviewWorkOrders Übersicht] 13 * erste Versionen abgeschlossen; werden weiterentwickelt 12 * [wiki:OverviewWorkOrders Übersicht]: über 100 Texte damit geschickt 13 * erste Versionen abgeschlossen 14 * werden weiterentwickelt nach den Erfahrungen mit den geschickten Texten 14 15 * Regeln: einfach formuliert versus semantisch und linguistisch korrekt 15 16 * wir wollen semantisch relevante Eigenschaften, wir bekommen optisch erkennbare Dinge 16 17 * im Zweifelsfall: markieren lassen, hinterher prüfen und eventuell verwerfen (z.B. <col>) 17 18 * eventuell Neubewertung, seitdem man die fertigen Texte wirklich sehen kann 18 * absichtlich kein echtes XML; definierte Schnittstelle für verschiedene Transkriptionsfirmen19 * absichtlich [wiki:despecs kein echtes XML]; definierte Schnittstelle für verschiedene Transkriptionsfirmen 19 20 * reine Textdateien, Unicode 20 21 * escape sequences, auch für seltene Unicode-Zeichen: sonst Stochern in der Unicode-Tabelle 21 22 * Dokumentation: 22 23 * die DESpecs sind im wesentlichen selbsterklärend 23 * aber Designentscheidungen 24 * und linguistischer Hintergrund,muss noch aufgeschrieben werden24 * aber Designentscheidungen und linguistischer Hintergrund 25 * muss noch aufgeschrieben werden 25 26 26 27 Europäische Specs (mit Malcolm und Klaus): 27 * sprachunabhängige Regeln für Textstruktur 28 * Seiten-Struktur 28 * (korrekter wäre wohl: Specs für Alphabetschriften, auch Arabisch) 29 * sprachunabhängige Regeln, hauptsächlich für Textstruktur 30 * Seiten-Struktur, und Spalten 29 31 * Textblöcke 30 * Spalten31 32 * Tabellen im weitesten Sinne 32 33 * Marginalien und Fußnoten … … 35 36 * Transkriptionsregeln für das lateinische Alphabet 36 37 * Interpunktion 37 * Zeichen 38 * Zeichen, escape sequences 38 39 * Schriftstile 39 40 * Regeln für andere Sprachen und Schriftsysteme … … 48 49 * Regeln für Textstruktur angepasst 49 50 * killer feature: Regeln für Zeichenvarianten 50 * in der Pipeline: Überarbeitung der Regeln für Zeichenvarianten 51 52 Außerdem diverse [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/special-instructions Special Instructions] für europäische und chinesische Texte 53 * mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg 54 * etc. 51 * in der Pipeline: überarbeitete Regeln für Zeichenvarianten einbauen 52 53 Außerdem diverse [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/special-instructions Special Instructions] für europäische und chinesische Texte, und beantwortete Fragen von Formax 54 * aktuell mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg 55 55 56 56 technische Hilfe beim Aufbau einer vergleichbaren Gruppe bei der Partnergruppe … … 59 59 60 60 In der Pipeline: 61 * Cathleen-Texte ( das sind nicht die HeidelbergTexte)62 * Heytesbury, Swineshead61 * Cathleen-Texte (Bibliothekskataloge; das sind nicht die Heidelberg-Texte) 62 * Paul: Heytesbury, Swineshead 63 63 * Mingli tan (klären mit Joachim) 64 64 … … 72 72 * chinesische Specs: von Martina überarbeiteten Umgang mit Zeichenvarianten einbauen 73 73 * europäische Specs: u.a. <math> und Antworten von WO 10; Juttas Anmerkungen 74 * DESpecs nachträglich ins repository75 74 * 1 Woche 76 75 … … 84 83 * Design-Entscheidungen: 85 84 * ein Schema für alle Texte 86 * unabhängige Module85 * möglichst unabhängige Module 87 86 * tags in den DESpecs sollten möglichst ein Gegenstück im Schema haben 88 87 * aber das Schema soll die DESpecs nicht sklavisch nachmachen (die DESpecs sind nur aus pragmatischen Gründen vor dem Schema entstanden) … … 90 89 91 90 [wiki:echo-schema Dokumentation]: 92 * Übersicht über Module: Gruppen von Modulen91 * Einteilung der Module in Gruppen 93 92 * Standard-Module 94 93 * Grobstrukturierung des Textes 95 94 * Feinstrukturierung des Textes 96 95 * Textauszeichnung 97 * damit verwandt: Module undXML-Hierarchie96 * damit verwandt: Zuordnung der Module zur XML-Hierarchie 98 97 * Abhängigkeiten zwischen den Modulen 99 * zeitlicherAblauf:98 * Module sortiert nach zeitlichem Ablauf: 100 99 * automatisisiert und semi-automatisiert 101 100 * scholarly workflow … … 104 103 * Verwendung, best practices z.B. bei <lb> 105 104 * Verhältnis DESpecs-tags und Schema-tags 106 * Darstellung im Anzeigesystem 105 * Darstellung im Anzeigesystem und in GIS 107 106 108 107 Beziehung zu / Abgrenzung von TEI: 109 * systematischer als TEI ( korrigiert historischenWildwuchs)108 * systematischer als TEI (weniger historisch bedingter Wildwuchs) 110 109 * strikter als TEI 111 110 * <s>: wissenschaftliches Arbeiten … … 121 120 für Version 1.x: 122 121 * Zwiebelstruktur des Schemas 122 * Vorgehen bei Schema-Änderungen; verschiedene Schema-Versionen 123 123 124 124 == 3. Workflow 125 125 126 Konzept des Workflows: Schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten126 Konzept des Workflows: Texte schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten 127 127 * [wiki:workflow Dokumentation] 128 128 * Skripte in Perl und XSLT … … 132 132 * Es gibt fast nie Rückmeldungen zu den erstellten XML-Texten. Arbeitet eigentlich jemand mit den Texten, z.B. mit den 20 Vitruv-Texten? 133 133 134 Schritte bis zur endgültigen Transkription:134 Schritte bis zur fertigen Transkription: 135 135 * Klaus: vorbereiten, überprüfen 136 136 * Fragen beantworte meistens ich. 137 137 * Letzter Work Order (WO 10) bestand aus besonders schwierigen Texten, die bisher liegengeblieben waren. Großer Aufwand bei der Beantwortung der Fragen. 138 * Müssen noch in die DESpecs überführt werden.139 * Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel Wimmelbilder-Figures. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können.140 141 Schritte nach Erhalt der endgültigen Transkription:138 * Antworten müssen noch in die DESpecs überführt werden. 139 * Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel [wiki:WO10_Bion_1723 Wimmelbilder-Figures]. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können. (Ich muss noch prüfen, ob es in WO 10 funktioniert hat.) 140 141 Schritte nach Erhalt der fertigen Transkription: 142 142 * Konzept und Implementation 143 143 * Workflow durchführen: meistens Klaus … … 153 153 * escape sequences prüfen 154 154 * italics prüfen ("_ _") 155 * tags prüfen: <h> hat ein </h>, aber auch <tb> steht auf eigener Zeile. Grundlag für weitere Skripte 155 * tags prüfen: Wichtig als Grundlage für weitere Skripte. Beispiele: 156 * zu <h> gibt es ein </h> 157 * <tb> steht auf eigener Zeile 158 * Elemente sind korrekt verschachtelt 156 159 * prüfe <s>: wende das <s>-Skript testweise an und finde Merkwürdigkeiten im Ergebnis 157 160 * prüfe Tabellen (fehlt noch) 158 * eventuell Skripte für Special Instructions161 * eventuell Skripte für tags aus Special Instructions 159 162 * Im [wiki:workflow#a3.Schrittebiszuwohlgeformtemxml dritten Schritt] wird der annotierte raw text in wohlgeformtes XML verwandelt. Weitgehend automatisch. 160 * ersetze unknown characters, replacements ( Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics161 * XML: ergänze Metadaten, erzeugewohlgeformtes XML163 * ersetze unknown characters, replacements (d.h. Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics 164 * XML: wandle die Metadaten in XML um, erzeuge aus dem Pseudo-XML im Textteil wohlgeformtes XML 162 165 * Im [wiki:workflow#a4.schema-konformmachen vierten Schritt] wird der XML-Text schemakonform gemacht. Weitgehend automatisch. 163 166 * <pb> nachbearbeiten … … 187 190 * die Grundstruktur ist implementiert und verwendbar 188 191 * müssen überarbeitet werden: s, emph, ... 189 * fehlen noch: Tabellen, Fußnoten, ...192 * fehlen noch: korrekte Verarbeitung von Tabellen, Fußnoten, ... 190 193 * kurzfristiges Ziel: Skripte so einfach wie möglich verwendbar machen 191 194 * <place> und allgemein overlays weiter ausarbeiten … … 202 205 * Normalisierung: Lex-Skripte, Koordinierung mit Josef und Robert 203 206 * was wird übergeben 207 * was kommt zurück 204 208 * Zeilenumbrüche 205 209 … … 217 221 * Workflow anwenden: 218 222 * chinesische Texte mit neuen Specs nach China schicken 219 * überarbeitete Skripte anwenden auf die vorhandenen Texte 223 * überarbeitete Skripte anwenden auf die vorhandenen Texte (Klaus) 220 224 * aber zuerst, dringend: Texte von WO 10 prüfen 221 225 * 0,5 Wochen … … 226 230 * schwierigere Texte fertig umwandeln 227 231 * chinesische Texte umwandeln 228 * Skripte glatter machen, damit es nicht so unübersichtlich wie in Arboreal ist232 * Programm-Code der Skripte glatter machen, damit es nicht so unübersichtlich wie in Arboreal ist 229 233 * Textflow-Skript 230 234 * Konzept für overlays aus XML-Sicht 231 235 232 236 für Version 2.0: 237 * Einfaches Paket, das von interessierten Forschern leicht verwendet werden kann. (siehe auch 8. Scholarly Workflow) 233 238 * Umgang mit Formeln 234 239 … … 249 254 * Umsetzungen des Konzepts, und Bugs 250 255 251 Liste: Verhalten für jedes tag, im Text und im Inhaltsverzeichnis256 Liste: Verhalten für jedes tag, [wiki:echo-schema#a3.UmsetzungderXML-tags im Text] und [source:"trunk/papers/discussion_papers/Regeln zum Erstellen eines Inhaltsverzeichnisses.pdf" im Inhaltsverzeichnis] 252 257 * Beispiele für Darstellung von tags: 253 258 * CSS-level: optisch erkennbar … … 256 261 [wiki:normalization Normalisierung]: 257 262 * genaue Analyse des Ist-Zustands in Arboreal und im Backend 258 * Übersichtüber das Zusammenspiel von Regularisierung und Normalisierung259 * Regularisierungim Detail:263 * [wiki:normalization/4 Übersicht] über das Zusammenspiel von Regularisierung und Normalisierung 264 * [wiki:normalization/5 Regularisierung] im Detail: 260 265 * Ziele 261 266 * Zusammenhang mit Anzeige-Modi 262 * @faithul-Attribut für "überschüssige" Information, Abgrenzung von Orig und faithful 263 * Umgang mit PUA-Zeichen 267 * @faithul-Attribut 268 * für "überschüssige" Information und zur Unterstützung bei der Korrektur von Transkriptionsfehlern 269 * Abgrenzung von Orig und faithful 270 * Umgang mit PUA-Zeichen 264 271 * Umgang mit Abkürzungen im Text 265 * automatische Fehlerkorrektur272 * Aussicht: automatische Fehlerkorrektur 266 273 * Sprachübergreifende Regularisierungen 267 274 * Regularisierungen für einzelne Sprachen 268 * Normalisierungim Detail:275 * [wiki:normalization/6 Normalisierung] im Detail: 269 276 * Ziele 270 277 * Textgestalt, die die Normalisierung vorfindet … … 276 283 * Sprachschichten 277 284 * sprachübergreifende Normalisierungen 278 * Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten 285 * Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten im Chinesischen 279 286 * Umsetzung 280 * Liste: konkret zu tun287 * Liste: [wiki:normalization/7 konkret zu tun] 281 288 * [source:trunk/schema/scripts/MpdlNormalizerLex Lex] für jede Sprache (mit Java-Testerklassse) 282 289 … … 300 307 301 308 für Version 1.0: 302 * Konzept für die Verzahnung von <place>-Tabellen, Annotationen, Overlays, Kartenanzeige 309 * Konzept für die Verzahnung von <place>-Tabellen, Annotationen, Overlays, Kartenanzeige (gemeinsame Infrastruktur) 303 310 * 0,5 Wochen 304 311 … … 311 318 312 319 Chinesisch 313 * Song Yingxing: chinesischer Vorzeigetext; places; für Dagmar314 * chinesischer Euklid: für das Euklid-Projekt320 * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/echo/china/songy_tiang_zh_1637 Song Yingxing]: chinesischer Vorzeigetext; places; für Dagmar 321 * [http://mpdl-dev.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/library/02NT95YF&viewMode=text&pn=5&characterNormalization=reg chinesischer Euklid]: für das Euklid-Projekt 315 322 316 323 Deutsch 317 * Heeschen (mit Eipomek): Textflows; für Martin T.318 * Abruzzen: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt.324 * [http://mpdl-dev.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/library/XYZATWZM Heeschen] (Eipomek und Deutsch): Textflows; für Martin T. 325 * [http://mpdl-dev.mpiwg-berlin.mpg.de/ECHOdocuViewfull?url=/mpiwg/online/permanent/library/0QDF6SH2&pn=7 Abruzzen]: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt. 319 326 320 327 Diverse Skripte für Einzeltexte, insbesondere bei den ersten Texten und für Nachbearbeitungen … … 333 340 * Dokumentation: DESpecs (fehlt), [wiki:echo-schema Schema], [wiki:workflow Workflow] 334 341 * werde ich in ein Unterverzeichnis documentation/de bzw. documentation/en verschieben 335 * Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können. (Beispiel e)342 * Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können. (Beispiel [wiki:pagenumbers Seitenzahlen]) 336 343 337 344 für Version 1.0: … … 342 349 * Computer durchgehen auf weitere Dinge, eventuell aufs wiki stellen 343 350 * Workflow-Dokumentation überarbeiten 344 * Usage Guide351 * [wiki:echo-schema#a2.UsageGuide Usage Guide] weiter 345 352 * Dokumentation der DESpecs 346 353 * wiki aktualisieren 347 * Beispiel-XML-Dateienüberarbeiten354 * [source:trunk/schema/xml-test-files Beispiel-XML-Dateien] überarbeiten 348 355 * Anbindung an andere Projekte und Europeana 349 356 * paper