wiki:authority-file

Version 14 (modified by Wolfgang Schmidle, 14 years ago) (diff)

--

1. Text

Was soll man im Text markieren?

Entscheidung für Song Yingxing: Wir markieren, was Dagmar in der Papierversion markiert hat. Dabei sind die Markierungen so fein wie möglich. Zusammenfassen kann man mehrere Markierungen immer noch, aber das wird wahrscheinlich erst mit einem overlay passieren, insbesondere um verschachtelte Markierungen im Text zu vermeiden.

Deutsches Pseudo-Beispiel: Dü Kö Bo (drei abgekürzte Ortnamen) für die Region zwischen Düsseldorf, Köln und Bonn. Markiert als (Dü)(Kö)(Bo). Die Markierung (DüKöBo) kommt dann im overlay dazu (und die Markierungen, die schon im Text sind, werden in ein overlay umgewandelt).

Auch "beifang" markieren, solange wir kein overlay tagging haben. Unabhängig davon, ob es "Norden" meint oder eine konkrete Region. (Dagmar weiß, dass es eine konkrete Ortsangabe ist.)

Der Plan ist jedenfalls, möglichst bald auf overlays umzusteigen. (Der XML-Text muss allerdings lesbar bleiben.) Bis dahin: minimal und effizient bleiben.

Siehe ansonsten die Diskussion hier.

Wie soll es im Text markiert werden?

Wir sind bisher alle zufrieden mit der Entscheidung, im Text nur eine eindeutige ID zu vergeben und den Rest in der zugehörigen Tabelle zu machen.

(IDs kürzen, z.B. jeweils "N40" weglassen? Problem verschwindet mit overlays, also eher nicht kürzen)

was kann man verschieben, bis es einen overlay-Mechanismus gibt?

Wir versuchen nicht, mögliche zukünftige Wünsche wie die Markierung von Münzämtern schon jetzt zu erfüllen.

2. Tabelle

Was soll in der zugehörigen Tabelle stehen?

Spalten:

  • Schreibweise im Text
  • ID aus dem Text
  • Verweis auf eine Zeile im authority file
  • Angaben, die von den Standard-Angaben im authority file abweichen:
    • point
    • polygon
    • genau bestimmt? (Dateils siehe entsprechende Spalte im authority file)
    • Zeit
  • ein Forscher kann es anders oder genauer angeben, also nochmal die Spalten:
    • point
    • polygon
    • genau bestimmt?
    • Zeit
  • weitere Angaben, die für diesen einen Eintrag gelten
  • eine Spalte, die explizit die Reihenfolge im Text wiedergibt?
  • Spalten für Kapitel (?), Seite, Satz. Daraus kann man dann den Rücklink zusammensetzen; besser als explizite Rücklinks in der Tabelle

allerdings: Kapitel ist keine klar definierte Angabe, und Seite kann sich ändern. Also besser JPG-Name? Wenn der Rücklink aus der Tabelle zusammengebaut werden kann, muss er nicht mehr in der URL übergeben werden.

Wie wird eine Tabelle für Song Yingxing erstellt?

Ausgangspunkt: Liste aller <place> tags im Text. Erstellbar entweder mit dem Anzeigesystem oder mit oXygen. Beides ist ein bisschen umständlich. Bei oXygen erhält man die Zeilennummern dazu.

Wie können Forscher selber Tabellen erstellen?

Mit overlay: Sie markieren "einfach" interaktiv die Stellen, die sie interessant finden, und daraus wird ein overlay mit zugehöriger Tabelle erzeugt. Eventuell sind overlay und Tabelle auch ein und dasselbe.

Verhältnis von Markierungen und Volltextsuche: Es sollte die Möglichkeit geben, das Ergebnis einer Volltextsuche zu einem overlay zu machen. Dieses overlay kann dann noch bearbeitet werden.

Aber die Daten sollten mappable sein. Man kann zum Beispiel nach "Münzamt" suchen und alle Treffer zu einem overlay machen. Die Spalte mit den Treffern muss nicht direkt mappable sein. Dann muss man allerdings noch eine mappable column hinzufügen, also zum Beispiel eine Spalte mit den entsprechenden Städten.

Eventuell sollten wir die Forscher in die richtige Richtung leiten.

Allgemein: Wie trägt man zusätzliche Informationen ein? Die Informationen sollten maschinenelesbar (d.h. standardisiert) sein.

3. Authority File

wie soll das authority file aussehen?

Spalten:

  • Lokalisierung:
    • point
    • polygon
    • genau bestimmt? ja, ungefähr, nein aber hat einen Ort, hat keinen Ort (z.B. mythical). Oder: real place versus mythical place, precisely known versus inexact. Oder identifiable (Beispiel Himalaya: es gibt den Ort grundsätzlich, man weiß nur nicht genau, wo)
    • Zeit (Punkt versus Raum?)
  • Standardname: Beijing
  • alle weiteren Namen: Jing, Beiping, etc.
    • Beachte: zum Beispiel Jing kommt auch in anderen Einträgen vor.
    • Problem von metaphorischen Namen, die nur einmal irgendwo vorkommen ("echt" versus" literarisch).
  • Verweis auf andere Quellen wie Harvard

Die Lokalisierungsspalten kann man zu einer Gruppe zusammenfassen, die man eventuell auch nochmal wiederholen kann, z.B. für einen zweiten Forscher?

Wäre "Nanfang" ein Beispiel, wo der Text es nur vage lokalisiert, und der Forscher weiß es genauer? Oder kann man sagen, dass es schon im Text "eigentlich" genauer angegeben bzw. gemeint ist?

Beziehungen von Einträgen

  • refines, isRefinedBy: Vergleichbar mit z.B. "alternative refines author" in Dublin Core, wo die Suche nach title auch alternative findet (das Gröbere findet auch das Feinere), aber nicht andersherum. Beispiel bei uns: jedes konkrete Peking, also zum Beispiel Beiping, refines das generische Peking.
  • Wie ist es mit "Peking-Münzamt refines Peking"? Also: Suche nach Peking-Münzamt findet nicht Peking, aber Suche nach Peking findet Peking-Münzamt? Der Vergleich hinkt ein bisschen. Denn Das Peking-Münzamt "weiß" andererseits, dass es in Peking ist. Wahrscheinlich muss die Beziehung von Peking und Münzamt anders ausgedrückt werden, zum Beispiel "partOf". (oder associatedWith von unten?)
    • eventuell die Liste von Dublin Core durchgehen (Abschnitt 1). Andersrum: Was Dublin Core nicht für nötig hält, muss sich besonders rechtfertigen.
  • associatedWith, hasBeenAssociatedWith
  • generisches Peking (ohne Zeitangabe) versus (zeitlich) konkrete Pekings: Zum Beispiel Beiping, oder Peking der Song-Dynastie.
  • Generisches Beijing als reiner "Container"; würde in der Tabelle gewählt werden, wenn es automatisch markiert wird, und könnte dann vom Forscher auf eine konkretere Angabe geändert werden.
  • Genauso für Provinzen, dort auch veränderte Grenzen (und Namensänderungen).

Situationen, die entweder schon aufgetreten sind oder sicher auftreten werden

  • Bejing 1500-1700, "touches" Beijing 1600-1800 ??

Wie können Forscher Einträge ins authority file machen?

Verhindere insbesondere unstimmige Einträge oder Dubletten. Erlaube andererseits z.B. weitere Untereinträge von Peking.

Schön wäre zum Beispiel: Ein Ort im Text it nicht genau angegeben, sondern nur als "im Himalaya". Der Forscher kennt zwar auch nicht die genauen Koordinaten, kann aber anhand einer Karte einschränken: Es muss hier im West-Himalaya sein, und dieses Polygon wird dann in die Tabelle übernommen.

Wie kann man das authority file verwenden, um einen Text automatisch zu markieren?

Skript: werte die Namen im authority file aus, also Beijing, Beiping, etc.

Problem der metaphorischen Namen, wenn also etwas 99x das eine und nur 1x das andere meint: vom Skript erzeugte Liste manuell nachbessern.

4. Anzeige

Leute können zum Beispiel wählen, ob sie die Lokalisierungen im Text und/oder des Forschers sehen wollen.

5. Beispiele

Beispiel für Markierung im Text zu Tabelle zu Anzeige

Im Text:

<s xml:id="N404318"><place id="N404318-01">北京</place>​有​磨​法,</s>

In der Tabelle:

Text Forscher
place-ID Seite Satz-ID Schreibweise authority-ID point polygon genau Zeit point polygon genau Zeit
N404318-01 300 N404318 北京 34

Die authority-ID 34 für das generische Peking wurde automatisch eingetragen. Der Forscher kann es auf das konkrete Peking des 17. Jahrhunderts ändern, indem er die 34 in 35 ändert. Eventuell muss man auch diese Spalte doppelt haben, also einmal für Text und einmal für Forscher.

Im authority file:

ID Schreibweise Harvard-ID point polygon genau Zeit refines Variante Variante Variante
33 ...
34 北京 (...) (Koordinaten) ja unbestimmt 北平
35 北京 Ming 34
36 ...
37 北平 Republik 34
  • Ming verweist (wie?) auf 1368-1644
  • Republik verweist auf 1928-?

Oder alle Schreibvarianten in eine einzige Spalte?

Einträge in Klammern müsste man noch nachtragen.

Es müssen nicht alle Pekings hintereinander kommen, auch wenn das übersichtlicher wäre.

Das Ming-Peking und das Republik-Peking "erben" die Harvard-ID und die Koordinaten vom generischen Peking. Nur wenn sich die Daten tatsächlich unterscheiden, werden sie hier eingetragen. (Gilt das auch für die Schreibvarianten?)

Beispiel für Volltextsuche nach Münzamt, die um Städtenamen ergänzt wird

...