Version 2 (modified by 14 years ago) (diff) | ,
---|
Begrüßung (Manfred Bierwisch)
DTA-Projektvorstellung (Matthias Schulz)
Das Deutsche Textarchiv - Einblick und Ausblick
- Vornehmlich Fremddigitalisate
- Lizenz CC, welche Art ist hausinterne Politik (cc_by_(nc)?)
- Auf Screenshot zu sehen: XML-Editor namens XMetaL Author
- Eigens entwickelte Tools:
- Zoning Tool (ZOT), Visuelles Tool, um die verschiedenen Elemente einer Seite zu bestimmen (Alexander Siebert 2007/2008)
- Ausblick: OAI Schnittstelle
DTA-Korpus
Zwischen Kanon und Nutzeranforderung (Oliver Duntze)
- Textauswahl durch DWB-Mitarbeiter und Germanisten
- Im zweiten Schritt auch Nutzer (Akademiemitglieder) befragt
- Mathematische Formeln: werden nicht erfaßt
"Von den natürlichen und übernatürlichen Dingen" (Susanne Haaf)
- Problem: viele wissenschaftliche Texte eher auf Latein
- daher Selbstbeschränkung (aber Übersetzungen sind dabei)
Wortgebrauch, Textcorpora, &c (Thomas Gloning)
- Historische Semantik
- Lemmatisierungsalgorithmen
Standardisierung
Formatstandards für die Digitalisierung (Sebastian Meyer)
- Standardisierung durch Zwang: wer mit DFG-Mitteln digitalisiert, muß das DFG-Format benutzen
- OCR bringt Wortkoordinaten
- ZVDD: Zentrales Verzeichnis Digitaler Drucke
- VD16/17/18: retrospektive Nationalbibliographien der im deutschen Sprachbereich erschienenen Drucke
- MODS: menschenlesbar, Untermenge von METS
- METS: beliebig granular, ein Werk aufteilbar in unterschiedliche Dateien (1 pro Kapitel)
- Problem mit TEI: "jeder versteht unter TEI etwas anderes"
PND-BEACON (Mathias Schindler)
- Dateiformat zur Verlinkung von Normdaten
- Wikipedia
- Beacon-Datei der Autoren im DTA
- Weitere Anwendung: seealso
Volltexterschließung
More Than Words (Bryan Jurish)
- Publikationen
- Tools nachnutzbar? Teilweise freie Bibliotheken, teils unfreie Sachen
Korpusbasierter Lexikonaufbau zur Erschließung älterer Texte (Christoph Ringlstetter)
- Suche 1
- Suche 2
- Grundlage wohl das historische Korpus von IDS Mannheim (1450 - 1900, 2,7 Mio Tokens))
Abendvortrag
Wissenschaftsgeschichte und Mathematik der Aufklärung im Deutschen Textarchiv (Eberhard Knobloch)
DTA als aktives Archiv
Kumulatives Arbeiten mit dem DTA (Alexander Geyken)
- Annotation inline und standoff (Personennamen für BEACON)
- Coins für Zotero und Citavi
- Zitateverwaltung
- Grundlage für Begriffs- und Wortschatzforschung
Erweiterungsmöglichkeiten (Michael Solf, Christian Thomas)
- Kooperation mit sandrart:
- Einfügen eines anderen TEI-Dokuments: verschiedene TEI-Dokumente passen nicht zwangsläufig zusammen
- Historische Formeln: Notationsformen problematisch für Latex
Vernetzung und Infrastrukturen
Polytechnisches Journal (Christian Kassung)
Die Bibliothek als Partner der Forschung (Thomas Stäcker)
- Präzisionsangaben irreführend, es fehlen Textzertifizierungsverfahren
- Unterscheidung Rohtext - Basistext (XML)
- Basistext mit wortweiser ID, Schwerpunkt auf standoff-Annotation
- ID vs Xpointer: Xpointer nur möglich bei stabilen Texten
- Umfangreiche Dokumentation im Netz
- Gute Erfahrungen mit eXist
- "Forscher müssen XML lernen" -> Fallbeispiel Jonathan West
- Genauere Forschung zu Schrifttypen im 17. Jhd. würde auch zu Verbesserungen im OCR führen.