Begrüßung (Manfred Bierwisch)
DTA-Projektvorstellung (Matthias Schulz)
Das Deutsche Textarchiv - Einblick und Ausblick
- Vornehmlich Fremddigitalisate
- Lizenz CC, welche Art ist hausinterne Politik (cc_by_(nc)?)
- Auf Screenshot zu sehen: XML-Editor namens XMetaL Author
- Eigens entwickelte Tools:
- Zoning Tool (ZOT), Visuelles Tool, um die verschiedenen Elemente einer Seite zu bestimmen (Alexander Siebert 2007/2008)
- Ausblick: OAI Schnittstelle
DTA-Korpus
Zwischen Kanon und Nutzeranforderung (Oliver Duntze)
- Textauswahl durch DWB-Mitarbeiter und Germanisten
- Im zweiten Schritt auch Nutzer (Akademiemitglieder) befragt
- Mathematische Formeln: werden nicht erfaßt
"Von den natürlichen und übernatürlichen Dingen" (Susanne Haaf)
- Problem: viele wissenschaftliche Texte eher auf Latein
- daher Selbstbeschränkung (aber Übersetzungen sind dabei)
Wortgebrauch, Textcorpora, &c (Thomas Gloning)
- Historische Semantik
- Lemmatisierungsalgorithmen
Standardisierung
Formatstandards für die Digitalisierung (Sebastian Meyer)
- Standardisierung durch Zwang: wer mit DFG-Mitteln digitalisiert, muß das DFG-Format benutzen
- OCR bringt Wortkoordinaten
- ZVDD: Zentrales Verzeichnis Digitaler Drucke
- VD16/17/18: retrospektive Nationalbibliographien der im deutschen Sprachbereich erschienenen Drucke
- MODS: menschenlesbar, Untermenge von METS
- METS: beliebig granular, ein Werk aufteilbar in unterschiedliche Dateien (1 pro Kapitel)
- Problem mit TEI: "jeder versteht unter TEI etwas anderes"
PND-BEACON (Mathias Schindler)
- Dateiformat zur Verlinkung von Normdaten
- Wikipedia
- Beacon-Datei der Autoren im DTA
- Weitere Anwendung: seealso
Volltexterschließung
More Than Words (Bryan Jurish)
- Publikationen
- Tools nachnutzbar? Teilweise freie Bibliotheken, teils unfreie Sachen
Korpusbasierter Lexikonaufbau zur Erschließung älterer Texte (Christoph Ringlstetter)
- Suche 1
- Suche 2
- Grundlage wohl das historische Korpus von IDS Mannheim (1450 - 1900, 2,7 Mio Tokens))
Abendvortrag
Wissenschaftsgeschichte und Mathematik der Aufklärung im Deutschen Textarchiv (Eberhard Knobloch)
DTA als aktives Archiv
Kumulatives Arbeiten mit dem DTA (Alexander Geyken)
- Annotation inline und standoff (Personennamen für BEACON)
- Coins für Zotero und Citavi
- Zitateverwaltung
- Grundlage für Begriffs- und Wortschatzforschung
Erweiterungsmöglichkeiten (Michael Solf, Christian Thomas)
- Kooperation mit sandrart:
- Einfügen eines anderen TEI-Dokuments: verschiedene TEI-Dokumente passen nicht zwangsläufig zusammen
- Historische Formeln: Notationsformen problematisch für Latex
Vernetzung und Infrastrukturen
Polytechnisches Journal (Christian Kassung)
Die Bibliothek als Partner der Forschung (Thomas Stäcker)
- Präzisionsangaben irreführend, es fehlen Textzertifizierungsverfahren
- Unterscheidung Rohtext - Basistext (XML)
- Basistext mit wortweiser ID, Schwerpunkt auf standoff-Annotation
- ID vs Xpointer: Xpointer nur möglich bei stabilen Texten
- Umfangreiche Dokumentation im Netz
- Gute Erfahrungen mit eXist
- "Forscher müssen XML lernen" -> Fallbeispiel Jonathan West
- Genauere Forschung zu Schrifttypen im 17. Jhd. würde auch zu Verbesserungen im OCR führen.
Von Xanadu zu ORE zu LoD (Stefan Gradmann)
Last modified 14 years ago
Last modified on Oct 21, 2010, 12:10:32 PM