= Der Stand beim XML-Workflow Februar 2011 [[PageOutline(1-4,,pullout)]] == 1. DESpecs Data Entry Specifications (DESpecs) für europäische Texte und für chinesische Texte * über 100 Texte damit geschickt: [wiki:OverviewWorkOrders Übersicht] * erste Versionen abgeschlossen; werden weiterentwickelt * Regeln: einfach formuliert versus semantisch und linguistisch korrekt * wir wollen semantisch relevante Eigenschaften, wir bekommen optisch erkennbare Dinge * im Zweifelsfall: markieren lassen, hinterher prüfen und eventuell verwerfen (z.B. ) * eventuell Neubewertung, seitdem man die fertigen Texte wirklich sehen kann * absichtlich kein echtes XML; definierte Schnittstelle für verschiedene Transkriptionsfirmen * reine Textdateien, Unicode * escape sequences, auch für seltene Unicode-Zeichen: sonst Stochern in der Unicode-Tabelle * Dokumentation: * die DESpecs sind im wesentlichen selbsterklärend * aber Designentscheidungen * und linguistischer Hintergrund, muss noch aufgeschrieben werden Europäische Specs: * mit Malcolm und Klaus * sprachunabhängige Regeln für Textstruktur * Seiten-Struktur * Textblöcke * Spalten * Tabellen im weitesten Sinne * Marginalien und Fußnoten * Abbildungen * nicht identifizierbare Zeichen (unbekannt, unleserlich) * Transkriptionsregeln für das lateinische Alphabet * Interpunktion * Zeichen * Schriftstile * Regeln für andere Sprachen und Schriftsysteme * Griechisch * Fraktur * Mathematik (typischer Fall: von Special Instruction in die Specs) * Symbole * weiteres Ziel war Arabisch (mit Mark), davon gibt es noch Ansätze von Specs für Arabisch Chinesische Specs: * mit Martina * europäische Specs zwar sprachunabhängig, aber implizite Voraussetzung Alphabetschrift * Regeln für Textstruktur angepasst * killer feature: Regeln für Zeichenvarianten * in der Pipeline: Überarbeitung der Regeln für Zeichenvarianten Außerdem diverse [http://pythia.mpiwg-berlin.mpg.de/department1/mpdl/special-instructions Special Instructions] für europäische und chinesische Texte * mit Cathleen: SIs für Enzyklopädie-Einträge, für Heidelberg * etc. technische Hilfe beim Aufbau einer vergleichbaren Gruppe bei der Partnergruppe * aus politischen Gründen gescheitert * neuen Versuch starten? In der Pipeline: * Heytesbury * Cathleen-Texte (das sind nicht die Heidelberg Texte) * Mingli tan (klären mit Joachim) == 2. ECHO-Schema Echo-Schema 1.0 * mit Malcolm * Nachfolger von Archimedes-DTD * geschrieben in RELAX NG compact * modulare Struktur * konsequent Unicode * Design-Entscheidungen: * ein Schema für alle texte * unabhängige Module * tags in den DESpecs sollten möglichst ein Gegenstück im Schema haben * aber das Schema soll die DESpecs nicht sklavisch nachmachen (die DESpecs sind nur aus pragmatischen Gründen vor dem Schema entstanden) * lange Liste von Ergänzungen fertig, muss hochgeladen werden [wiki:echo-schema Dokumentation]: * Übersicht über Module: Gruppen von Modulen * Standard-Module * Grobstrukturierung des Textes * Feinstrukturierung des Textes * Textauszeichnung * damit verwandt: Module und XML-Hierarchie * Abhängigkeiten zwischen den Modulen * zeitlicher Ablauf: * automatisisiert und semi-automatisiert * scholarly workflow * die einzelnen tags * sortiert nach Schema-Modulen * Verwendung, best practices z.B. bei * Verhältnis DESpecs-tags und Schema-tags * Darstellung im Anzeigesystem Beziehung zu / Abgrenzung von TEI: * systematischer als TEI (korrigiert historischen Wildwuchs) * strikter als TEI * : wissenschaftliches Arbeiten * nur das, was wir konkret verwenden / anzeigen * TEI ist kein einheitlicher Standard, sondern eine Familie von Standards * trotzdem TEI als Austauschformat == 3. Workflow Konzept des Workflows: Schicken, Fragen beantworten, überprüfen, korrigieren, bearbeiten * [wiki:workflow Dokumentation] * Skripte in Perl und XSLT * Umsetzung als Textfilter * so lange wie möglich: Arbeiten mit .txt statt .xml * Beziehung zwischen DESpecs, Schema, Workflow: berücksichtige verschiedene DESpecs-Versionen * Es gibt fast nie Rückmeldungen zu den erstellten XML-Texten. Arbeitet eigentlich jemand mit den Texten, z.B. mit den 20 Vitruv-Texten? Schritte bis zur endgültigen Transkription: * Klaus: vorbereiten, überprüfen * Fragen beantworte meistens ich. * Letzter Work Order (WO 10) bestand aus besonders schwierigen Texten, die bisher liegengeblieben waren. Großer Aufwand bei der Beantwortung der Fragen. * Müssen noch in die DESpecs überführt werden. * Grundsätzliche Änderung: realistischere Ziele bei dem, was die Chinesen erreichen können, insbesondere in den Special Instructions für einzelne Texte. Beispiel Wimmelbilder-Figures. Lieber ein Zwischenstadium, mit dem wir gut weiterarbeiten können. Schritte nach Erhalt der endgültigen Transkription: * Konzept und Implementation * Workflow durchführen: meistens Klaus * zusätzlich: Figures ausschneiden: Beschreibung von Klaus, durchgeführt von Student * Im [wiki:workflow#a1.Vorbereitungen ersten Schritt] werden alle Vorbereitungen getroffen, um mit dem raw text arbeiten zu können. * Text in das repository * Abstimmung mit Foxridge: index.meta * Im [wiki:workflow#a2.rawtextbearbeiten zweiten Schritt] wird der raw text annotiert und korrigiert. * Metadaten ergänzen: Skript von Klaus * synchronisieren als Voraussetzung für die weitere Arbeit * verbotene Zeichen im Text ersetzen * unknown characters durchgehen * escape sequences prüfen * italics prüfen ("_ _") * tags prüfen: hat ein , aber auch steht auf eigener Zeile. Grundlag für weitere Skripte * prüfe : wende das -Skript testweise an und finde Merkwürdigkeiten im Ergebnis * prüfe Tabellen (fehlt noch) * eventuell Skripte für Special Instructions * Im [wiki:workflow#a3.Schrittebiszuwohlgeformtemxml dritten Schritt] wird der annotierte raw text in wohlgeformtes XML verwandelt. Weitgehend automatisch. * ersetze unknown characters, replacements (Textänderungen, die im raw text nicht direkt durchgeführt wurden, sondern in einem Block am Anfang vermerkt wurden), escape sequences, italics * XML: ergänze Metadaten, erzeuge wohlgeformtes XML * Im [wiki:workflow#a4.schema-konformmachen vierten Schritt] wird der XML-Text schemakonform gemacht. Weitgehend automatisch. * nachbearbeiten * Floats aus den Absätzen herausziehen * * * Tabellen (fehlt noch) *
* Scholarly Workflow / Texanalyse: * * weitere Skripte für den Scholarly Workflow sind noch im Konzept-Stadium: * , , Formeln * * etc. * Textkorrektur durch Abgleich mit Donatus * allgemeines Test-Skript * echo-de: etc. * Hilfe bei der Korrektur typischer Transkriptionsfehler * weitere Skripte (schon vorhanden): *
durchnumerieren (auch für DTD-Fragment) * Wrapper für XSLT-Skripte, um Nebenwirkungen zu korrigieren * Chinesischer Workflow: * Skript für Zeichenvarianten Bearbeitungsstand * Konzept fertig * die Grundstruktur ist implementiert und verwendbar * müssen überarbeitet werden: s, emph, ... * fehlen noch: Tabellen, Fußnoten, ... * kurzfristiges Ziel: Skripte so einfach wie möglich verwendbar machen * und allgemein overlays weiter ausarbeiten Problem der Fehlerkorrektur: * interessant sind nur echte Satzfehler * Transkriptionsfehler werden stillschweigend korrigiert Konzept: Editionssystem * killer feature * geht über klassische Text-Editionen hinaus * Werkzeug zur Beseitigung von Transkriptionsfehlern * Regularisierung: -Skript, Zusammenarbeit mit Paul * Normalisierung: Lex-Skripte, Koordinierung mit Josef und Robert * was wird übergeben * Zeilenumbrüche == 4. Zusammenspiel XML und Anzeigesystem Mitarbeit am Konzept für die Anzeige von: * Buchstruktur * Textseite * Bildseite * Anzeige-Optionen * Wörterbuch-Informationen * Suchergebnissen * Besonderheiten bei chinesischem Text * statische Versionen, Lite-Version, URLs, etc. [wiki:ticket-overview Überblick] über die Tickets * für Frontend, Backend, GIS * Umsetzungen des Konzepts, und Bugs Liste: Verhalten für jedes tag, im Text und im Inhaltsverzeichnis * Beispiele für Darstellung von tags: * CSS-level: optisch erkennbar * Sprachtechnologie: wird nicht oder anders analysiert: , [wiki:normalization Normalisierung]: * genaue Analyse des Ist-Zustands in Arboreal und im Backend * Übersicht über das Zusammenspiel von Regularisierung und Normalisierung * Regularisierung im Detail: * Ziele * Zusammenhang mit Anzeige-Modi * @faithul-Attribut für "überschüssige" Information, Abgrenzung von Orig und faithful * Umgang mit PUA-Zeichen * Umgang mit Abkürzungen im Text * automatische Fehlerkorrektur * Sprachübergreifende Regularisierungen * Regularisierungen für einzelne Sprachen * Normalisierung im Detail: * Ziele * Textgestalt, die die Normalisierung vorfindet * Normalisierung für die Textanzeige * Normalisierung für Wörterbücher (sprachimmanent und technisch bedingt) * Normalisierung für die Suche * Verhältnis von Wortform und Grundform * Diakritika * Sprachschichten * sprachübergreifende Normalisierungen * Normalisierungen für einzelne Sprachen, insbesondere Latein, und Umgang mit Zeichenvarianten * Umsetzung * Liste: konkret zu tun * [source:trunk/schema/scripts/MpdlNormalizerLex Lex] für jede Sprache (mit Java-Testerklassse) == 5. Zusammenspiel XML und GIS * Übergang vom alten Frontend (Falk) zum neuen Frontend (!Christopher/Robert) angestoßen und begleitet * Konzept: Verknüpfung Frontend mit GIS * : mit Dagmar und Grace: Konzept für * overlay mit Tabelle (GIS-System als Prototyp für overlay) * Inhalt der Tabelle * Struktur des authority file == 6. Vorzeigetexte Latein * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=/mpiwg/online/permanent/library/163127KK&pn=5 Benedetti]: europäischer Vorzeigetext; für Jürgen * [http://echo.mpiwg-berlin.mpg.de/ECHOdocuView?url=/mpiwg/online/permanent/library/YHKVZ7B4&pn=5 Alvarus]: früher gedruckter Text mit vielen Abkürzungen; für Paul * Clavius-Euklid: für das Euklid-Projekt Chinesisch * Song Yingxing: chinesischer Vorzeigetext; places; für Dagmar * chinesischer Euklid: für das Euklid-Projekt Deutsch * Heeschen (mit Eipomek): Textflows; für Martin T. * Abruzzen: Text ursprünglich von Martin R. erstellt, in Zusammenarbeit mit Martin in einen Schema-konformen Text umgewandelt. Diverse Skripte für Einzeltexte, insbesondere bei den ersten Texten und für Nachbearbeitungen == 7. Wiki * Dokumentation: DESpecs (fehlt), [wiki:echo-schema Schema], [wiki:workflow Workflow] * werde ich in ein Unterverzeichnis documentation/de bzw. documentation/en verschieben * Diskussionstexte: Ich versuche, meine Überlegungen zeitnah ins Wiki zu stellen, damit sie diskutiert werden können. Beispiele == 8. Scholarly workflow * im Schema bereits angelegt * Anfänge sind gemacht mit -Skript nächster Projektabschnitt: * Skripte für scholarly workflow * zusätzliche Auszeichnungen wie * Korrektur von bestehenden Auszeichnungen wie * Skripte für Texte aus anderen Quellen, z.B. Stabi * Interaktivität insbesondere im scholarly workflow, aber auch in den Schritten davor * Web-Services