wiki:tei

Version 1 (modified by Wolfgang Schmidle, 13 years ago) (diff)

--

TEI

  • Ich beschränke mich hier im wesentlichen auf chinesische Texte.
  • Bei unserem XML ist ganz wichtig, dass alle XML-tags von unserem Anzeigesystem irgendwie angezeigt werden. Das führt zu bestimmten Design-Entscheidungen.
  • Wir haben auch bestimmte best practices, das XML zu formatieren, um es möglichst menschenlesbar zu machen. Das hat auf die XML-Struktur keinen Einfluss.
  • TEI ist auch kein eindeutiger Standard. Mit Design-Entscheidungen innerhalb von TEI habe ich keine Erfahrung. Meine Beschreibung von TEI kann also Fehler enthalten.

1. Metadaten-Block

Aus den Bibliotheks-Metadaten kann man sicher auch einen TEI-Header machen. Mit dem TEI-Header habe ich mich noch nicht beschäftigt.

Wichtigste Erkenntnis: der TEI-Header ist viel ausführlicher als unsere Metadaten. Die Funktion unserer Metadaten ist lediglich, das Dokument zu identifizieren, es self-contained zu machen und zu sagen, wo man es in ECHO finden kann. Außerhalb der Datei selbst haben wir mehr Metadaten. Und die Langatmigkeit des TEI-Headers erinnert an METS. Man braucht also ein Skript, das den Metadaten-Block erstellt.

Konkrete Beispiele: bei TEI muss man sich <TEI> <teiHeader> davordenken, bei uns <echo> <metadata>.

  • <dcterms:title> --> <fileDesc> <titleStmt> <title> <title type=main">
  • Dinge wie "Bearbeiter des XML" fehlen bisher bei uns.
  • etc.

2. Grobstruktur

  • <text xml:lang="zh" type="free"> --> genauso, bis auf @type
  • <div>
    • <div type="front" level="1" n="1"> --> TEI: <front>
    • <div type="body" level="1" n="1"> --> TEI: <body>
    • <div type="toc" level="2" n="1"> --> TEI: ?
    • @n andere Bedeutung?

Design-Entscheidung bei uns, solche Dinge allgemein mit <div> und einem @type-Attribut statt mit eigenen Elementen auszudrücken. (Nachträgliche) Grundidee ist, das man alle <div> entfernen kann und der Text immer noch genauso angezeigt wird, nur gibt es keine Informationen für das automatisch erstellte Inhaltsverzeichnis mehr.

3. Feinstruktur

  • <head> @indent: Bedürfnisse von Chinesisch in TEI nicht berücksichtigt?
  • <p> @indent: Bedürfnisse von Chinesisch in TEI nicht berücksichtigt?
  • <s>

4. Milestones

<pb/>

TEI:

<fw type="head" place="top-centre">Poëms.</fw>
<fw type="pageNum" place="top-right">29</fw>

bei uns: Running head ist bei uns ein Attribut: @rhead="...", genauso die Seitenzahl: @o="..."

  • Nachteil: man kann in diesen Texten keine <reg> (siehe unten) verwenden, sondern müsste weitere Attribute wie @rhead-reg verwenden.
  • Vorteil: Wenn das <pb> zum Beispiel mitten in einem Satz ist, steht kein "Müll" im Satz. (Insbesondere wenn man sich den Text mit Arboreal anzeigen lassen will.)

<lb/>: ok?

5. Fremd-Vokabular

Tabellen und Listen mit XHTML: geht wohl auch in TEI. Etwas angepasst, z.B. ist bei uns <pb> erlaubt, und wir verwenden unser Text-Modell. Ich weiß nicht, ob das ein Problem ist.

6. Text

allgemeiner Unterschied zu TEI: bei uns ist @xml:space="preserve" ein Schlüsselreiz, dass ein Element direkt Text enthält.

<reg>: in TEI anderer Ansatz: buchstabenweise mit Elementen, bei uns wortweise mit Attributen. Also zum Beispiel:

  • TEI: d<choice><ex>em</ex><am>e&#x304;</am></choice>
  • bei uns: <reg norm="dem" type="context">dē</reg>

(nebenbei: bei uns direktes Unicode, wo immer möglich)

Leichter zu verarbeiten, leichter für Menschen zu lesen.

Für Chinesisch evtl. kein so großer Unterschied. Aber wie geht TEI mit Zeichenvarianten um?

Nehmen wir mal das hypothetische Beispiel, dass im Originaltext das Zeichen 國 steht, das es aber (und hier wird es hypothetisch) nicht in Unicode gibt. Dann würden wir schreiben:

  • Schritt 1: 中<reg norm="国" type="V" resp="script">国</reg>
  • Schritt 2: 中<reg faithful="{⿴口或}" type="V">国</reg>
  • Schritt 3: <reg faithful="中{⿴口或}" type="V">中国</reg>

Als Konsequenz würde bei der automatischen Verlinkung des Textes mit einem Wörterbuch 中国 einen link bekommen und nicht die einzelnen Zeichen.

Das Beispiel führt vielleicht in die Irre, weil es hier gar nicht um Langzeichen versus Kurzzeichen geht.

7. speziell für Chinesisch

  • small text: <emph style="sm">, <small>, <smlb/>

Ich kenne kein direktes Gegenstück in TEI. Ich habe, wie gesagt, überhaupt den Eindruck, dass Bedürfnisse von Chinesisch in TEI nicht berücksichtigt sind.

  • <sl> etc.: ?

8. speziell für Wörterbücher

bei uns vorläufig:

  • <entry>
  • <form>
  • <pronunciation>: TEI <pron>
  • <translation xml:lang="en">: TEI <cit type="translation" xml:lang="en">

Das habe ich im wesentlichen nach TEI modelliert, allerdigns die Wörter ausgeschrieben. Aber im TEI-Buch werden nur westliche Wörterbuch-Einträge diskutiert. Zum Beispiel soll

  • <entry> <form>

den Eintrag nicht direkt enthalten, sondern erst in einem zusätzlichen <orth>. Das ist für Chinesisch wohl Unsinn.

<def> habe ich vorläufig weggelassen, denn zum einen sind die Beispiel im TEI-Buch nur ganz kurze Einträge ohne Zeilenumbrüche, wo man es klarer dazusagen muss, was nun die Definition ist. Zum anderen ist das teilweise eine nicht-triviale Aufgabe, die ich erstmal auslasse.

<translation> und <foreign>: Ich habe mich vorläufig für

<translation xml:space="preserve"><foreign xml:lang="en">Art</foreign>, 德 <foreign xml:lang="de">Kunst</foreign>.</translation>

entschieden. Ganz glücklich bin ich damit noch nicht.

9. Bilder

Bilder kommen nicht in den beiden Beispieltexten nicht vor, das lasse ich daher erstmal aus.