wiki:BBAW2010-10-11

Version 1 (modified by Klaus Thoden, 14 years ago) (diff)

--

Begrüßung (Manfred Bierwisch)

DTA-Projektvorstellung (Matthias Schulz)

Das Deutsche Textarchiv - Einblick und Ausblick

  • Vornehmlich Fremddigitalisate
  • Lizenz CC, welche Art ist hausinterne Politik (cc_by_(nc)?)
  • Auf Screenshot zu sehen: XML-Editor namens XMetaL Author
  • Eigens entwickelte Tools:
    • Zoning Tool (ZOT), Visuelles Tool, um die verschiedenen Elemente einer Seite zu bestimmen (Alexander Siebert 2007/2008)
  • Ausblick: OAI Schnittstelle

DTA-Korpus

Zwischen Kanon und Nutzeranforderung (Oliver Duntze)

  • Textauswahl durch DWB-Mitarbeiter und Germanisten
  • Im zweiten Schritt auch Nutzer (Akademiemitglieder) befragt
  • Mathematische Formeln: werden nicht erfaßt

"Von den natürlichen und übernatürlichen Dingen" (Susanne Haaf)

  • Problem: viele wissenschaftliche Texte eher auf Latein
    • daher Selbstbeschränkung (aber Übersetzungen sind dabei)

Wortgebrauch, Textcorpora, &c (Thomas Gloning)

  • Historische Semantik
  • Lemmatisierungsalgorithmen

Standardisierung

Formatstandards für die Digitalisierung (Sebastian Meyer)

  • Standardisierung durch Zwang: wer mit DFG-Mitteln digitalisiert, muß das DFG-Format benutzen
  • OCR bringt Wortkoordinaten
  • ZVDD: Zentrales Verzeichnis Digitaler Drucke
  • VD16/17/18: retrospektive Nationalbibliographien der im deutschen Sprachbereich erschienenen Drucke
  • MODS: menschenlesbar, Untermenge von METS
  • METS: beliebig granular, ein Werk aufteilbar in unterschiedliche Dateien (1 pro Kapitel)
  • Problem mit TEI: "jeder versteht unter TEI etwas anderes"

PND-BEACON (Mathias Schindler)

Volltexterschließung

More Than Words (Bryan Jurish)

  • Publikationen
  • Tools nachnutzbar? Teilweise freie Bibliotheken, teils unfreie Sachen

Korpusbasierter Lexikonaufbau zur Erschließung älterer Texte (Christoph Ringlstetter)

Abendvortrag

Wissenschaftsgeschichte und Mathematik der Aufklärung im Deutschen Textarchiv (Eberhard Knobloch)

DTA als aktives Archiv

Kumulatives Arbeiten mit dem DTA (Alexander Geyken)

  • Annotation inline und standoff (Personennamen für BEACON)
  • Coins für Zotero und Citavi
  • Zitateverwaltung
  • Grundlage für Begriffs- und Wortschatzforschung

Erweiterungsmöglichkeiten (Michael Solf, Christian Thomas)

  • Kooperation mit sandrart:
    • Einfügen eines anderen TEI-Dokuments: verschiedene TEI-Dokumente passen nicht zwangsläufig zusammen
  • Historische Formeln: Notationsformen problematisch für Latex

Vernetzung und Infrastrukturen

Polytechnisches Journal (Christian Kassung)

Die Bibliothek als Partner der Forschung (Thomas Stäcker)

  • Präzisionsangaben irreführend, es fehlen Textzertifizierungsverfahren
  • Unterscheidung Rohtext - Basistext (XML)
    • Basistext mit wortweiser ID, Schwerpunkt auf standoff-Annotation
    • ID vs Xpointer: Xpointer nur möglich bei stabilen Texten
  • Umfangreiche Dokumentation im Netz
  • Gute Erfahrungen mit eXist
  • "Forscher müssen XML lernen" -> Fallbeispiel Jonathan West
  • Genauere Forschung zu Schrifttypen im 17. Jhd. würde auch zu Verbesserungen im OCR führen.

Von Xanadu zu ORE zu LoD (Stefan Gradmann)

  • Xanadu - Ted Nelson "Literary Machines" (1981)
    • Skalieren nicht, dafür Netz der Dinge
  • Linked Open Data (Diagram)
  • dbpedia
  • Fallbeispiel Biologie
  • Philospace/ Hypernietzsche
  • dbin.org/swickynotes
  • Jan Velterop - Nano Publications