wiki:BBAW2010-10-11

Begrüßung (Manfred Bierwisch)

DTA-Projektvorstellung (Matthias Schulz)

Das Deutsche Textarchiv - Einblick und Ausblick

  • Vornehmlich Fremddigitalisate
  • Lizenz CC, welche Art ist hausinterne Politik (cc_by_(nc)?)
  • Auf Screenshot zu sehen: XML-Editor namens XMetaL Author
  • Eigens entwickelte Tools:
    • Zoning Tool (ZOT), Visuelles Tool, um die verschiedenen Elemente einer Seite zu bestimmen (Alexander Siebert 2007/2008)
  • Ausblick: OAI Schnittstelle

DTA-Korpus

Zwischen Kanon und Nutzeranforderung (Oliver Duntze)

  • Textauswahl durch DWB-Mitarbeiter und Germanisten
  • Im zweiten Schritt auch Nutzer (Akademiemitglieder) befragt
  • Mathematische Formeln: werden nicht erfaßt

"Von den natürlichen und übernatürlichen Dingen" (Susanne Haaf)

  • Problem: viele wissenschaftliche Texte eher auf Latein
    • daher Selbstbeschränkung (aber Übersetzungen sind dabei)

Wortgebrauch, Textcorpora, &c (Thomas Gloning)

  • Historische Semantik
  • Lemmatisierungsalgorithmen

Standardisierung

Formatstandards für die Digitalisierung (Sebastian Meyer)

  • Standardisierung durch Zwang: wer mit DFG-Mitteln digitalisiert, muß das DFG-Format benutzen
  • OCR bringt Wortkoordinaten
  • ZVDD: Zentrales Verzeichnis Digitaler Drucke
  • VD16/17/18: retrospektive Nationalbibliographien der im deutschen Sprachbereich erschienenen Drucke
  • MODS: menschenlesbar, Untermenge von METS
  • METS: beliebig granular, ein Werk aufteilbar in unterschiedliche Dateien (1 pro Kapitel)
  • Problem mit TEI: "jeder versteht unter TEI etwas anderes"

PND-BEACON (Mathias Schindler)

Volltexterschließung

More Than Words (Bryan Jurish)

  • Publikationen
  • Tools nachnutzbar? Teilweise freie Bibliotheken, teils unfreie Sachen

Korpusbasierter Lexikonaufbau zur Erschließung älterer Texte (Christoph Ringlstetter)

  • Suche 1
  • Suche 2
  • Grundlage wohl das historische Korpus von IDS Mannheim (1450 - 1900, 2,7 Mio Tokens))

Abendvortrag

Wissenschaftsgeschichte und Mathematik der Aufklärung im Deutschen Textarchiv (Eberhard Knobloch)

DTA als aktives Archiv

Kumulatives Arbeiten mit dem DTA (Alexander Geyken)

  • Annotation inline und standoff (Personennamen für BEACON)
  • Coins für Zotero und Citavi
  • Zitateverwaltung
  • Grundlage für Begriffs- und Wortschatzforschung

Erweiterungsmöglichkeiten (Michael Solf, Christian Thomas)

  • Kooperation mit sandrart:
    • Einfügen eines anderen TEI-Dokuments: verschiedene TEI-Dokumente passen nicht zwangsläufig zusammen
  • Historische Formeln: Notationsformen problematisch für Latex

Vernetzung und Infrastrukturen

Polytechnisches Journal (Christian Kassung)

Die Bibliothek als Partner der Forschung (Thomas Stäcker)

  • Präzisionsangaben irreführend, es fehlen Textzertifizierungsverfahren
  • Unterscheidung Rohtext - Basistext (XML)
    • Basistext mit wortweiser ID, Schwerpunkt auf standoff-Annotation
    • ID vs Xpointer: Xpointer nur möglich bei stabilen Texten
  • Umfangreiche Dokumentation im Netz
  • Gute Erfahrungen mit eXist
  • "Forscher müssen XML lernen" -> Fallbeispiel Jonathan West
  • Genauere Forschung zu Schrifttypen im 17. Jhd. würde auch zu Verbesserungen im OCR führen.

Von Xanadu zu ORE zu LoD (Stefan Gradmann)

  • Xanadu - Ted Nelson "Literary Machines" (1981)
    • Skalieren nicht, dafür Netz der Dinge
  • Linked Open Data (Diagram)
  • dbpedia
  • Fallbeispiel Biologie
  • Philospace/ Hypernietzsche
  • dbin.org/swickynotes
  • Jan Velterop - Nano Publications
Last modified 14 years ago Last modified on Oct 21, 2010, 12:10:32 PM