| 1 | = Der Stand beim XML-Workflow |
| 2 | |
| 3 | Februar 2011 |
| 4 | |
| 5 | [[PageOutline(1-4,,pullout)]] |
| 6 | |
| 7 | == 1. DESpecs |
| 8 | |
| 9 | Data Entry Specifications (DESpecs) für europäische Texte und für chinesische Texte |
| 10 | * über 100 Texte damit geschickt: [wiki:OverviewWorkOrders Übersicht] |
| 11 | * erste Versionen abgeschlossen; werden weiterentwickelt |
| 12 | * Regeln: einfach formuliert versus semantisch und linguistisch korrekt |
| 13 | * wir wollen semantisch relevante Eigenschaften, wir bekommen optisch erkennbare Dinge |
| 14 | * im Zweifelsfall: markieren lassen, hinterher prüfen und eventuell verwerfen (z.B. <col>) |
| 15 | * eventuell Neubewertung, seitdem man die fertigen Texte wirklich sehen kann |
| 16 | * absichtlich kein echtes XML; definierte Schnittstelle für verschiedene Transkriptionsfirmen |
| 17 | * reine Textdateien, Unicode |
| 18 | * escape sequences, auch für seltene Unicode-Zeichen: sonst Stochern in der Unicode-Tabelle |
| 19 | * Dokumentation: |
| 20 | * die DESpecs sind im wesentlichen selbsterklärend |
| 21 | * aber Designentscheidungen |
| 22 | * und linguistischer Hintergrund, muss noch aufgeschrieben werden |
| 23 | |
| 24 | Europäische Specs: |
| 25 | * mit Malcolm und Klaus |
| 26 | * sprachunabhängige Regeln für Textstruktur |
| 27 | * Seiten-Struktur |
| 28 | * Textblöcke |
| 29 | * Spalten |
| 30 | * Tabellen im weitesten Sinne |
| 31 | * Marginalien und Fußnoten |
| 32 | * Abbildungen |
| 33 | * nicht identifizierbare Zeichen (unbekannt, unleserlich) |
| 34 | * Transkriptionsregeln für das lateinische Alphabet |
| 35 | * Interpunktion |
| 36 | * Zeichen |
| 37 | * Schriftstile |
| 38 | * Regeln für andere Sprachen und Schriftsysteme |
| 39 | * Griechisch |
| 40 | * Fraktur |
| 41 | * Mathematik (typischer Fall: <math> von Special Instruction in die Specs) |
| 42 | * Symbole |
| 43 | * weiteres Ziel war Arabisch (mit Mark), davon gibt es noch Ansätze von Specs für Arabisch |
| 44 | |
| 45 | Chinesische Specs: |
| 46 | * mit Martina |
| 47 | * europäische Specs zwar sprachunabhängig, aber implizite Voraussetzung Alphabetschrift |
| 48 | * Regeln für Textstruktur angepasst |
| 49 | * killer feature: Regeln für Zeichenvarianten |
| 50 | * in der Pipeline: Überarbeitung der Regeln für Zeichenvarianten |
| 51 | |
| 52 | Außerdem diverse [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/special-instructions Special Instructions] für europäische und chinesische Texte |
| 53 | * mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg |
| 54 | * etc. |
| 55 | |
| 56 | technische Hilfe beim Aufbau einer vergleichbaren Gruppe bei der Partnergruppe |
| 57 | * aus politischen Gründen gescheitert |
| 58 | * neuen Versuch starten? |
| 59 | |
| 60 | In der Pipeline: |
| 61 | * Heytesbury |
| 62 | * Cathleen-Texte (das sind nicht die Heidelberg Texte) |
| 63 | * Mingli tan (klären mit Joachim) |
| 64 | |
| 65 | == 2. ECHO-Schema |
| 66 | |
| 67 | Echo-Schema 1.0 |
| 68 | * mit Malcolm |
| 69 | * Nachfolger von Archimedes-DTD |
| 70 | * geschrieben in RELAX NG compact |
| 71 | * modulare Struktur |
| 72 | * konsequent Unicode |
| 73 | * Design-Entscheidungen: |
| 74 | * ein Schema für alle texte |
| 75 | * unabhängige Module |
| 76 | * tags in den DESpecs sollten möglichst ein Gegenstück im Schema haben |
| 77 | * aber das Schema soll die DESpecs nicht sklavisch nachmachen (die DESpecs sind nur aus pragmatischen Gründen vor dem Schema entstanden) |
| 78 | * lange Liste von Ergänzungen fertig, muss hochgeladen werden |
| 79 | |
| 80 | [wiki:echo-schema Dokumentation]: |
| 81 | * Übersicht über Module: Gruppen von Modulen |
| 82 | * Standard-Module |
| 83 | * Grobstrukturierung des Textes |
| 84 | * Feinstrukturierung des Textes |
| 85 | * Textauszeichnung |
| 86 | * damit verwandt: Module und XML-Hierarchie |
| 87 | * Abhängigkeiten zwischen den Modulen |
| 88 | * zeitlicher Ablauf: |
| 89 | * automatisisiert und semi-automatisiert |
| 90 | * scholarly workflow |
| 91 | * die einzelnen tags |
| 92 | * sortiert nach Schema-Modulen |
| 93 | * Verwendung, best practices z.B. bei <lb> |
| 94 | * Verhältnis DESpecs-tags und Schema-tags |
| 95 | * Darstellung im Anzeigesystem |
| 96 | |
| 97 | Beziehung zu / Abgrenzung von TEI: |
| 98 | * systematischer als TEI (korrigiert historischen Wildwuchs) |
| 99 | * strikter als TEI |
| 100 | * <s>: wissenschaftliches Arbeiten |
| 101 | * nur das, was wir konkret verwenden / anzeigen |
| 102 | * TEI ist kein einheitlicher Standard, sondern eine Familie von Standards |
| 103 | * trotzdem TEI als Austauschformat |
| 104 | |
| 105 | == 3. Workflow |
| 106 | |
| 107 | Konzept des Workflows: Schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten |
| 108 | * [wiki:workflow Dokumentation] |
| 109 | * Skripte in Perl und XSLT |
| 110 | * Umsetzung als Textfilter |
| 111 | * so lange wie möglich: Arbeiten mit .txt statt .xml |
| 112 | * Beziehung zwischen DESpecs, Schema, Workflow: berücksichtige verschiedene DESpecs-Versionen |
| 113 | * Es gibt fast nie Rückmeldungen zu den erstellten XML-Texten. Arbeitet eigentlich jemand mit den Texten, z.B. mit den 20 Vitruv-Texten? |
| 114 | |
| 115 | Schritte bis zur endgültigen Transkription: |
| 116 | * Klaus: vorbereiten, überprüfen |
| 117 | * Fragen beantworte meistens ich. |
| 118 | * Letzter Work Order (WO 10) bestand aus besonders schwierigen Texten, die bisher liegengeblieben waren. Großer Aufwand bei der Beantwortung der Fragen. |
| 119 | * Müssen noch in die DESpecs überführt werden. |
| 120 | * Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel Wimmelbilder-Figures. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können. |
| 121 | |
| 122 | Schritte nach Erhalt der endgültigen Transkription: |
| 123 | * Konzept und Implementation |
| 124 | * Workflow durchführen: meistens Klaus |
| 125 | * zusätzlich: Figures ausschneiden: Beschreibung von Klaus, durchgeführt von Student |
| 126 | * Im [wiki:workflow#a1.Vorbereitungen ersten Schritt] werden alle Vorbereitungen getroffen, um mit dem raw text arbeiten zu können. |
| 127 | * Text in das repository |
| 128 | * Abstimmung mit Foxridge: index.meta |
| 129 | * Im [wiki:workflow#a2.rawtextbearbeiten zweiten Schritt] wird der raw text annotiert und korrigiert. |
| 130 | * Metadaten ergänzen: Skript von Klaus |
| 131 | * <pb> synchronisieren als Voraussetzung für die weitere Arbeit |
| 132 | * verbotene Zeichen im Text ersetzen |
| 133 | * unknown characters durchgehen |
| 134 | * escape sequences prüfen |
| 135 | * italics prüfen ("_ _") |
| 136 | * tags prüfen: <h> hat ein </h>, aber auch <tb> steht auf eigener Zeile. Grundlag für weitere Skripte |
| 137 | * prüfe <s>: wende das <s>-Skript testweise an und finde Merkwürdigkeiten im Ergebnis |
| 138 | * prüfe Tabellen (fehlt noch) |
| 139 | * eventuell Skripte für Special Instructions |
| 140 | * Im [wiki:workflow#a3.Schrittebiszuwohlgeformtemxml dritten Schritt] wird der annotierte raw text in wohlgeformtes XML verwandelt. Weitgehend automatisch. |
| 141 | * ersetze unknown characters, replacements (Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics |
| 142 | * XML: ergänze Metadaten, erzeuge wohlgeformtes XML |
| 143 | * Im [wiki:workflow#a4.schema-konformmachen vierten Schritt] wird der XML-Text schemakonform gemacht. Weitgehend automatisch. |
| 144 | * <pb> nachbearbeiten |
| 145 | * Floats aus den Absätzen herausziehen |
| 146 | * <lb> |
| 147 | * <emph> |
| 148 | * Tabellen (fehlt noch) |
| 149 | * <div> |
| 150 | * Scholarly Workflow / Texanalyse: |
| 151 | * <reg> |
| 152 | * weitere Skripte für den Scholarly Workflow sind noch im Konzept-Stadium: |
| 153 | * <var>, <num>, Formeln |
| 154 | * <foreign> |
| 155 | * <place> etc. |
| 156 | * Textkorrektur durch Abgleich mit Donatus |
| 157 | * allgemeines Test-Skript |
| 158 | * echo-de: <wrong> etc. |
| 159 | * Hilfe bei der Korrektur typischer Transkriptionsfehler |
| 160 | * weitere Skripte (schon vorhanden): |
| 161 | * <div>durchnumerieren (auch für DTD-Fragment) |
| 162 | * Wrapper für XSLT-Skripte, um Nebenwirkungen zu korrigieren |
| 163 | * Chinesischer Workflow: |
| 164 | * Skript für Zeichenvarianten |
| 165 | |
| 166 | Bearbeitungsstand |
| 167 | * Konzept fertig |
| 168 | * die Grundstruktur ist implementiert und verwendbar |
| 169 | * müssen überarbeitet werden: s, emph, ... |
| 170 | * fehlen noch: Tabellen, Fußnoten, ... |
| 171 | * kurzfristiges Ziel: Skripte so einfach wie möglich verwendbar machen |
| 172 | * <place> und allgemein overlays weiter ausarbeiten |
| 173 | |
| 174 | Problem der Fehlerkorrektur: |
| 175 | * interessant sind nur echte Satzfehler |
| 176 | * Transkriptionsfehler werden stillschweigend korrigiert |
| 177 | |
| 178 | Konzept: Editionssystem |
| 179 | * killer feature |
| 180 | * geht über klassische Text-Editionen hinaus |
| 181 | * Werkzeug zur Beseitigung von Transkriptionsfehlern |
| 182 | * Regularisierung: <reg>-Skript, Zusammenarbeit mit Paul |
| 183 | * Normalisierung: Lex-Skripte, Koordinierung mit Josef und Robert |
| 184 | * was wird übergeben |
| 185 | * Zeilenumbrüche |
| 186 | |
| 187 | == 4. Zusammenspiel XML und Anzeigesystem |
| 188 | |
| 189 | Mitarbeit am Konzept für die Anzeige von: |
| 190 | * Buchstruktur |
| 191 | * Textseite |
| 192 | * Bildseite |
| 193 | * Anzeige-Optionen |
| 194 | * Wörterbuch-Informationen |
| 195 | * Suchergebnissen |
| 196 | * Besonderheiten bei chinesischem Text |
| 197 | * statische Versionen, Lite-Version, URLs, etc. |
| 198 | |
| 199 | [wiki:ticket-overview Überblick] über die Tickets |
| 200 | * für Frontend, Backend, GIS |
| 201 | * Umsetzungen des Konzepts, und Bugs |
| 202 | |
| 203 | Liste: Verhalten für jedes tag, im Text und im Inhaltsverzeichnis |
| 204 | * Beispiele für Darstellung von tags: |
| 205 | * CSS-level: optisch erkennbar |
| 206 | * Sprachtechnologie: wird nicht oder anders analysiert: <var>, <reg> |
| 207 | |
| 208 | [wiki:normalization Normalisierung]: |
| 209 | * genaue Analyse des Ist-Zustands in Arboreal und im Backend |
| 210 | * Übersicht über das Zusammenspiel von Regularisierung und Normalisierung |
| 211 | * Regularisierung im Detail: |
| 212 | * Ziele |
| 213 | * Zusammenhang mit Anzeige-Modi |
| 214 | * @faithul-Attribut für "überschüssige" Information, Abgrenzung von Orig und faithful |
| 215 | * Umgang mit PUA-Zeichen |
| 216 | * Umgang mit Abkürzungen im Text |
| 217 | * automatische Fehlerkorrektur |
| 218 | * Sprachübergreifende Regularisierungen |
| 219 | * Regularisierungen für einzelne Sprachen |
| 220 | * Normalisierung im Detail: |
| 221 | * Ziele |
| 222 | * Textgestalt, die die Normalisierung vorfindet |
| 223 | * Normalisierung für die Textanzeige |
| 224 | * Normalisierung für Wörterbücher (sprachimmanent und technisch bedingt) |
| 225 | * Normalisierung für die Suche |
| 226 | * Verhältnis von Wortform und Grundform |
| 227 | * Diakritika |
| 228 | * Sprachschichten |
| 229 | * sprachübergreifende Normalisierungen |
| 230 | * Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten |
| 231 | * Umsetzung |
| 232 | * Liste: konkret zu tun |
| 233 | * [source:trunk/schema/scripts/MpdlNormalizerLex Lex] für jede Sprache (mit Java-Testerklassse) |
| 234 | |
| 235 | == 5. Zusammenspiel XML und GIS |
| 236 | |
| 237 | * Übergang vom alten Frontend (Falk) zum neuen Frontend (!Christopher/Robert) angestoßen und begleitet |
| 238 | * Konzept: Verknüpfung Frontend mit GIS |
| 239 | * <place>: mit Dagmar und Grace: Konzept für |
| 240 | * overlay mit Tabelle (GIS-System als Prototyp für overlay) |
| 241 | * Inhalt der Tabelle |
| 242 | * Struktur des authority file |
| 243 | |
| 244 | == 6. Vorzeigetexte |
| 245 | |
| 246 | Latein |
| 247 | * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=/mpiwg/online/permanent/library/163127KK&pn=5 Benedetti]: europäischer Vorzeigetext; für Jürgen |
| 248 | * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=/mpiwg/online/permanent/library/YHKVZ7B4&pn=5 Alvarus]: früher gedruckter Text mit vielen Abkürzungen; für Paul |
| 249 | * Clavius-Euklid: für das Euklid-Projekt |
| 250 | |
| 251 | Chinesisch |
| 252 | * Song Yingxing: chinesischer Vorzeigetext; places; für Dagmar |
| 253 | * chinesischer Euklid: für das Euklid-Projekt |
| 254 | |
| 255 | Deutsch |
| 256 | * Heeschen (mit Eipomek): Textflows; für Martin T. |
| 257 | * Abruzzen: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt. |
| 258 | |
| 259 | Diverse Skripte für Einzeltexte, insbesondere bei den ersten Texten und für Nachbearbeitungen |
| 260 | |
| 261 | == 7. Wiki |
| 262 | |
| 263 | * Dokumentation: DESpecs (fehlt), [wiki:echo-schema Schema], [wiki:workflow Workflow] |
| 264 | * werde ich in ein Unterverzeichnis documentation/de bzw. documentation/en verschieben |
| 265 | * Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können. |
| 266 | |
| 267 | Beispiele |
| 268 | |
| 269 | == 8. Scholarly workflow |
| 270 | |
| 271 | * im Schema bereits angelegt |
| 272 | * Anfänge sind gemacht mit <reg>-Skript |
| 273 | |
| 274 | nächster Projektabschnitt: |
| 275 | * Skripte für scholarly workflow |
| 276 | * zusätzliche Auszeichnungen wie <num> |
| 277 | * Korrektur von bestehenden Auszeichnungen wie <s> |
| 278 | * Skripte für Texte aus anderen Quellen, z.B. Stabi |
| 279 | * Interaktivität insbesondere im scholarly workflow, aber auch in den Schritten davor |
| 280 | * Web-Services |