storage/names/file-format.tex - diff

Return to file-format.tex CVS log

Up to [Repository] / storage / names

Diff for /storage/names/file-format.tex between versions 1.3 and 1.7

-version 1.3, 2003/07/02 18:20:46
+version 1.7, 2003/12/09 17:45:02
  Line 1
- \documentclass[a4paper, abstracton]{article}
+ \documentclass[a4paper]{article}
  \usepackage{ngerman}
  Line 9
  %\usepackage{courier}
  % create in-text links in black (with PDF)
- %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
+ \usepackage[colorlinks=true,linkcolor=black]{hyperref}
  % Format URLs nicely (without PDF)
  %\usepackage{url}
+ % Grafik
+ \usepackage{graphicx}
+ % Verzeichnis mit Abbildungen
+ \graphicspath{{images/}}
  \title{Ablage von Massendaten im Archiv- und Backupsystem}
  \author{Dirk Wintergrün, Robert Casties}
+ \date{V0.10.1 of \today}
  \begin{document}
  \maketitle
  \begin{abstract}
-   In diesem Dokument werden die Ablage von Massendaten auf dem
+   In diesem Dokument wird die Ablage von Massendaten auf dem
-   zentralen Archiv- und Filesystem des MPIWG beschrieben
+   zentralen Archiv- und Ablagesystem des MPIWG beschrieben
  \end{abstract}
  \tableofcontents
- Line 33
+ Line 39
  \label{sec:datentypen-fur-die}
- Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}
+ Die in diesem Dokument definierten Regeln gelten
+ für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.}
  \begin{description}
  \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
-   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
+   Instituts anfallen und als Rohdaten oder Produktionsdaten in
-   ständigen Zugriff langfristig gesichert werden sollen (Pfad:
+   möglichst hoher Qualität ohne ständigen Zugriff langfristig
-   \texttt{archive/data})
+   gesichert werden sollen (Pfad: \url{archive/data})
- \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
+ \item[Langfristige Präsentationsdaten] die über das Internet verfügbar
-   sollen und deren URL bzw. URI langfristig stabil gehalten werden
+   gemacht werden sollen und deren URL bzw. URI langfristig stabil
-   sollen (Pfad: \texttt{online/permanent})
+   gehalten werden sollen (Pfad: \url{online/permanent})
- \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
+ \item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die
-   online verfügbar sein sollen (Pfad: \texttt{online/experimental})
+   kurzfristig und nur für begrenzte Zeit online verfügbar sein sollen
+   (Pfad: \url{online/experimental})
- \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
+ \item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von
    Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
-   z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
+   z.B. zum Zweck der Synchronisation notwendig ist.(Pfad:
-   \texttt{mirrors})
+   \url{mirrors})
  \end{description}
- Line 64  Die Ablage aller genannter Dokumente erf
+ Line 72  Die Ablage aller genannter Dokumente erf
  \begin{itemize}
  \item Zugang per FTP, SCP, SFTP über:
-   \texttt{foxridge.mpiwg-berlin.mpg.de} \\
+   \url{foxridge.mpiwg-berlin.mpg.de} \\
    Zugang zu den Daten in den Verzeichnissen
-   \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
+   \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent},
-   \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
+   \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors}
  \item Zugang per Appletalk (AFP) über: Auswahl des Servers
    \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
-   Zugang zu den Daten über die Freigaben \texttt{archive\_data},
+   Zugang zu den Daten über die Freigaben \url{archive\_data},
-   \texttt{online\_permanent}, \texttt{online\_experimental} und
+   \url{online\_permanent}, \url{online\_experimental} und
-   \texttt{mirrors}
+   \url{mirrors}
  \end{itemize}
- Line 81  Die Ablage aller genannter Dokumente erf
+ Line 89  Die Ablage aller genannter Dokumente erf
  \label{sec:benutzerkennung}
  Benutzerkennungen und Passworte für die Ablage der Massendaten werden
- projektspezifisch vergeben.
+ projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der
+   Zugriffsrechte fehlt noch.}
  \section{Erlaubte Zeichen in Datei- und Ordnernamen}
  \label{sec:erla-zeich-datei}
- Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
+ Erlaubte Zeichen in Datei- und Ordnernamen sind Kleinbuchstaben (a-z),
- "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.
+ Großbuchstaben (A-Z), Ziffern (0-9), Bindestrich ("`-"'), Unterstrich
+ ("`\_"') und Punkt ("`."'). Andere Zeichen und Leerzeichen sind nicht
+ zulässig. Es wird empfohlen für Datei- und Ordnernamen ausschliesslich
+ Kleinschreibung zu verwenden.
+ Für die Umsezung von Dateinamen, die anderen Zeichen enthalten wird
+ empfohlen alle Leerzeichen durch Bindestriche ("`-"') und andere
+ nichtzulässige Zeichen durch Unterstriche ("`\_"') zu ersetzen.
  \section{Ablage von Archivdaten}
  \label{sec:ablage-von-arch}
  Archivdaten werden nur temporär auf der Festplatte des Servers
- gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
+ gehalten. Nach der Archivierung auf Magnetbänder werden sie von der
- gelöscht. Für Archivdaten ist auf Foxridge der Pfad
+ Festplatte gelöscht. Die Metadaten bleiben auch nach dem Löschen der
+ Daten auf der Festplatte. Für Archivdaten ist auf Foxridge der Pfad
- \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
+ \url{/mpiwg/archive/data} bzw. \url{archive_data}
  \noindent vorgesehen.
+ Die Ablage von Archivdaten erfolgt abhängig davon ob es sich um
+ \emph{Rohdaten} oder \emph{Produktionsdaten} handelt.
- \subsection{Erste Ebene: Projekte}
- \label{sec:erste-eben-proj}
- Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
+ \subsection{Ablage von Rohdaten im Archiv}
- dem Namen des Projektes angelegt:
+ \label{sec:ablage-von-rohdaten}
- \texttt{archive/data/PROJEKTNAME}
+ Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft
+ wurden oder am Institut erzeugt werden und am Anfang eines workflows stehen.
- \noindent Bsp: das Humboldtprojekt
+ Rohdaten können entweder über ein Web-Frontend oder direkt im
+ Filesystem des Servers abgelegt werden. Bei der Ablage über das
+ Web-Frontend wird ein Metadaten-File automatisch erzeugt. Bei der
+ Ablage "`von Hand"' auf dem Server kann ein Metadaten-File
+ nachträglich mit Hilfe eines Web-Frontends erzeugt werden.
- \texttt{archive/data/humboldt}
+ Die wichtigste Information über die Rohdaten ist ihre Quelle, die in
+ einem \texttt{acquisition} Metadaten-Element beschrieben wird.
+ Außerdem müssen, je nach Medientyp verschiedene technische Angaben
+ über die abgelegten Daten erfolgen.
+ Weitere inhaltliche Metadaten, wie eine bibliographische Bestimmung
+ erhalten zunächst nur den Metadaten-Status "`vorläufig"'
+ (\texttt{wf-status} \texttt{preliminary}).
- \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
-   Bücher)}
- \label{sec:zweite-eben-dokum}
- Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
+ \subsubsection{Erste Ebene: Provider}
- weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
+ \label{sec:ebene-provider}
- bestehen, wird folgende Bennenung
- vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
-   obligatorisch.}
- \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
+ Die Rohdaten werden im Filesystem des Servers in Ordnern entsprechend
+ ihrer Quelle, ihres \emph{Providers} abgelegt. Bei externen
+ Lieferungen ist der Lieferant direkt als Provider angesehen
+ werden. Das gleiche gilt z.B. für Arbeiten der Digitalisierungsgruppe der
+ Bibliothek. Bei Arbeiten, die im Rahmen von Projekten von einzelnen
+ Mitarbeitern im Haus erstellt werden, liegt es in der Verantwortung
+ der Projekte einen Provider-Namen zu benennen.
- \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
+ Zur Vereinheitlichung der Provider-Bezeichnungen wird ein zentrales
+ Verzeichnis mit Provider-Namen und IDs erstellt.
- \begin{table}[htbp]
- \center
- \begin{tabular}{lp{0.6\textwidth}l}
- Feld & Erklärung & Beispiel\\ \hline
- AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\
+ \subsubsection{Zweite Ebene: Dokumente}
+ \label{sec:ebene-dokumente}
- TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\
+ Unterhalb der Provider-Ebene werden Dokumente nach ihrer ID abgelegt.
+ Zu diesem Zweck erhalten alle Dokumente eine \texttt{archive-id}, eine
+ eindeutige achtstellige Zeichenfolge, vom Archiv"=ID"=Server
- SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
+ \url{http://content.mpiwg-berlin.mpg.de/archive/ids}.
- beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also
- in der Regel 01. & 01\\
- lang & Sprache in der zweistelligen ISO-Codierung & de\\
+ \noindent Wenn die Daten direkt im Filesystem abgelegt werden muss vor der
+ Ablage im Webfrontend des ID-Servers eine Archiv-ID für das Dokument
+ reserviert werden.
- year & Erscheinungsjahr, vierstellig & 1803
+ \begin{figure}[htbp]
- \end{tabular}
+   \centering
- \caption{Benennung Ordner}
+   \includegraphics[width=0.6\textwidth]{archive-dirs}
- \label{tab:benennung}
+   \caption{Verzeichnisstruktur für den Rohdaten-Archivbereich}
- \end{table}
+   \label{fig:dir-arch-raw}
+ \end{figure}
+ Die Rohdaten werden in einzelne Verzeichnisse gelegt, die jeweils
+ einzelnen Dokumenten entsprechen. Als Verzeichnisname wird die
+ \texttt{archive-id} verwendet. Je nach Art der Daten sollten
+ Unterordner nach den Empfehlungen in
+ Abschnitt~\ref{sec:dritte-eben-unter} angelegt werden. Für die
+ Dateinamen gelten ebenfalls die in
+ Abschnitt~\ref{sec:vierte-eben-date} angegebenen Regeln.
+ Einen schematischen Überblick über die Verzeichnisstruktur zeigt
+ Abbildung~\ref{fig:dir-arch-raw}.
+ \subsection{Ablage von Produktdaten im Archiv}
+ \label{sec:ablage-von-produkt}
+ \subsubsection{Erste Ebene: Projekte}
+ \label{sec:erste-eben-proj}
+ Für jedes Projekt, das als Datenproduzent Archivdaten ablegen will,
+ wird ein Ordner mit dem Namen des Projektes angelegt:
+ \url{archive/data/PROJEKTNAME}
+ \noindent Bsp: das Humboldtprojekt
+ \url{archive/data/humboldt}
+ \noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig,
+ weitere Unterordner zur Untergliederung der Dokumente anlegen.
- \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
+ \subsubsection{Zweite Ebene: Dokumente}
+ \label{sec:zweite-eben-dokum}
+ Für jedes abzulegende Dokument wird unterhalb des Projektordners ein
+ weiterer Ordner angelegt. Die Benennung dieser Ordner ist Teil des
+ Workflows des jeweiligen Projekts. Möglich die Verwendung
+ der \texttt{archive-id} als Ordnername analog zur Ablage der Rohdaten
+ (siehe Abschnitt~\ref{sec:ebene-dokumente}) aber auch andere Schemas.
+ Jedes zu archivierende Dokument muss eine \texttt{archive-id}
+ haben. Bevor ein neuer Ordner für ein neues Dokument angelegt wird,
+ sollte vom Archive-ID-Server eine neue \texttt{archive-id} reserviert
+ werden.
+ \subsubsection{Dritte Ebene: Unterordner}
  \label{sec:dritte-eben-unter}
  Innerhalb des Dokumentenordners werden weitere Unterordner für den
  jeweiligen Datentyp angelegt:
- \texttt{TYPE}
+ \url{TYPE}
  \noindent oder
- \texttt{id-sernr-TYPE}
+ \url{TYPE-sernr}
  \begin{description}
- \item[id] beschreibt eine eindeutige ID des Dokumentes
+ \item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder
- (dreistellig)
+   \url{pageimg} für Scans einzelner Seiten oder \url{ocr} für
+   OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu
+   Dateien in den anderen Ordnern.
  \item[sernr] eine Seriennummer falls mehrere
  Imagesätze zu einem Dokument gehören
- \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
-   \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
-   OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
-   Dateien in den anderen Ordnern.
  \end{description}
- \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
+ \noindent Außerdem muss in jedem Dokumentenordner eine Datei
- \texttt{index.meta}
+ \url{index.meta}
- \noindent die Metadaten zum Ordner selbst enthält.
+ \noindent liegen, die Metadaten zum Ordner selbst enthält. Das Format dieser
+ Metadaten"=Datei ist im Dokument "`A simple metadata format for
+ resource
+ bundles"'\footnote{\url{http://pythia.mpiwg-berlin.mpg.de/projects/storagesystem/metadaten.html}}
+ beschrieben.
- \subsection{Vierte Ebene: Dateien in den Ordnern}
+ \subsubsection{Vierte Ebene: Dateien in den Ordnern}
  \label{sec:vierte-eben-date}
- Für Dateinamen gilt als Midestanforderung, dass die alphabetische
+ Für Dateinamen gilt als Mindestanforderung, dass der Dateiname nur aus
- Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
+ zulässigen Zeichen besteht und die Dateiendung den Dateityp anzeigt.
- Dateien sollten Namen mit führenden Nullen erhalten, z.B.
+ Die alphabetische Ordnung der Namen muss der Reihenfolge der Daten
- \texttt{00001.jpg}. Empfohlen wird folgende Bennung:
+ entsprechen. Nummerierte Dateien sollten daher Namen mit führenden
+ Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen wird folgende
- \texttt{id-sernr-imagenumber.SUFFIX}
+ Benennung:
- \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
+ \url{imagenummer.SUFFIX}
- Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
- Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
+ \noindent Imagenummer ist eine fünfstellige Zahl. Das Suffix muss den
- Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
+ Dateityp angeben. Eine (nicht erschöpfende) Liste von Dateitypen zeigt
+ Tabelle~\ref{tab:benennung-dateien}.
  \begin{table}[htbp]
    \centering
- Line 207  Dateitypen zeigt Tabelle~\ref{tab:benenn
+ Line 282  Dateitypen zeigt Tabelle~\ref{tab:benenn
      suffix & Dateityp\\ \hline
-     jpg & JPEG-Bilddateien\\
+     \texttt{jpg}, \texttt{jpeg}  & JPEG-Bilddateien\\
-     tif & TIFF-Bilddateien \\
+     \texttt{tif}, \texttt{tiff} & TIFF-Bilddateien \\
-     png & PNG-Bilddateien
+     \texttt{png} & PNG-Bilddateien
    \end{tabular}
    \caption{Dateiendungen}
    \label{tab:benennung-dateien}
- Line 224  Dateitypen zeigt Tabelle~\ref{tab:benenn
+ Line 299  Dateitypen zeigt Tabelle~\ref{tab:benenn
  Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
  werden auf foxridge zwei Pfade angeboten:
- \texttt{online/experimental}
+ \url{online/experimental}
  \noindent und
- \texttt{online/permanent}
+ \url{online/permanent}
  \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
- ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
+ ist \url{online/experimental} vorgesehen. Pfade innerhalb dieses
  Bereiches können verändert und gelöscht werden.
  Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
- \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
+ \url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
  nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
- werden.
+ oder umbenannt werden.
- Die interne Struktur der Dokumentordner in \texttt{online/permanent}
+ Die interne Struktur der Projekt- und Dokumentordner in
- entspricht der oben dargestellten Struktur von \texttt{archive/data}.
+ \url{online/permanent} entspricht der in
+ Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von
+ \url{archive/data}.
- \section{Workflow für die Übergabe von gescannten Texten}
+ \section{Workflow: Scannen durch die Digitalisierungsgruppe}
  \label{sec:workflow-fur-die}
  Größere Mengen von Büchern und Manuskripten werden von der
- Digitalisierungsgruppe der Bibliothek in hoher Qualität
+ Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt.
- gescannt. Diese Digitalisierungen erfolgen im Auftrag
+ Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen
- einzelner Projekte oder auf eigene Initiative der Bibliothek. Die
+ Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate
- Digitalisate werden zunächst in drei verschiedenen Formen erzeugt:
+ werden zunächst in drei verschiedenen Formen erzeugt.
+ \subsection{Typen von Bilddaten}
+ \label{sec:daten-typen}
  \begin{itemize}
  \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
-   ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
+   ohne weitere Nachbearbeitung\footnote{Die Digitalisierungsgruppe
-   weitere Nutzung durch Andere gedacht und sollen nur archiviert
+     dokumentieren dazu welche Arbeits- und Bearbeitungsschritte bei
-   werden.
+     welchem Gerät als integraler Teil des Scanvorgangs betrachtet
+     werden.}. Diese Dateien sind nicht für die weitere Nutzung durch
+   Andere gedacht und sollen nur archiviert werden.
  \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
    Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
- Line 270  Digitalisate werden zunächst in drei ver
+ Line 353  Digitalisate werden zunächst in drei ver
  \end{itemize}
  Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
- von der Digigruppe selbständig durchgeführt. Für den Workflow der
+ von der Digitalisierungsgruppe selbständig durchgeführt.
- Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
- Anforderungen:
- \begin{itemize}
- \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
-   Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
- \item Die Daten müssen archiviert werden.
- \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
-   stehen und über einen allgemeinen Katalog gefunden werden können.
- \item Daten sollten nach Möglichkeit nicht kopiert und doppelt
-   abgelegt werden.
- \end{itemize}
- Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der
- Roh- und User-Images durch die Digigruppe in einer eigenen
- \texttt{library} Hierarchie oder die Ablage durch die Digigruppe in
- entsprechenden Unterordnern der jeweiligen Projekte.
- \subsection{Ablage in "`library"' Projekt}
+ \subsection{Ablage und Übergabe der Rohdaten}
- \label{sec:ablage-libr-proj}
+ \label{sec:ablage-und-ubergabe}
  \begin{enumerate}
  \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
    oder Bereichen für Bewegungsdaten.
  \item Die Digigruppe kopiert Roh-Images und User-Images in einen
-   Dokumenten-Ordner nach der Namenskonvention
+   Dokumenten-Ordner mit den notwendigen Metadaten und einer neuen
-   (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich
+   Archiv-ID nach den Regeln in Abschnitt~\ref{sec:ebene-dokumente} im
-   \texttt{archive/data/library}.  Roh-Images werden in einem
+   Bereich \url{archive/data/library}.  Roh-Images werden in einem
-   Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
+   Unterordner \url{raw} abgelegt und User-Images in \url{pageimg}.
- \item Die Digigruppe startet eine Prä-Migration der Daten ins
+ \item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag)
-   Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des
+   über den Ablageort der Daten.\footnote{Idealerweise würden die Roh-Images
-   verfügbaren Speicherplatzes) noch nicht von
+     bereits archiviert und von der Platte gelöscht während die User-Daten erhalten
-   der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
-   bereits von der Platte gelöscht während die User-Daten erhalten
    bleiben.}
- \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
+ \item Der Auftraggeber verwendet die User-Images. Veränderte Formen
-   Aufenthaltsort der Daten.
+   der Images erstellt und archiviert der Auftraggeber in seiner
+   eigenen Projekt"=Hierarchie.
- \item Das Projekt verwendet die User-Images und archiviert
-   weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
+ \item Der Auftraggeber veranlasst die vollständige Migration (Löschung
+   von der Festplatte) der von der Digigruppe erstellten Daten sobald
- \item Das Projekt veranlasst die vollständige Migration der
+   sie nicht mehr direkt verwendet werden.
-   User-Images (Löschung von der Festplatte) sobald die Daten nicht
-   mehr direkt verwendet werden.
  \end{enumerate}
- \subsection{Ablage bei den Projekten}
- \label{sec:ablage-bei-den}
- \begin{enumerate}
- \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
-   oder Bereichen für Bewegungsdaten.
- \item Die Digigruppe kopiert Roh-Images und User-Images in einen
-   Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit
-   dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B.
-   \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem
-   Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
- \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
-   Aufenthaltsort der Daten.
- \item Das Projekt verwendet die User-Images und archiviert
-   weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
- \item Das Projekt veranlasst die vollständige Migration der Daten
-   sobald sie nicht mehr direkt verwendet werden.
- \end{enumerate}
  \subsection{Ablage der Online-Images}
  \label{sec:ablage-der-online}
- Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache
+ Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache
  mit dem Projekt
  \begin{itemize}
- \item als fertige Images in der Online-Hierarchie der Bibliothek, wenn
+ \item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn
    es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
  \item als fertige Images im Archivbereich bei den User-Images in einem
-   Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem
+   Ordner \url{jpg} (o.ä.) zur Nutzung durch das Projekt in seinem
    Online-Bereich
  \item für Projekte, die selbst weiter verarbeitete Online-Images zur
- Line 368  mit dem Projekt
+ Line 405  mit dem Projekt
+ \section{Erfassung der Metadaten für Archivdaten}
+ \label{sec:use-case-workflow}
+ \subsection{Abfrage der Metadaten}
+ \label{sec:abfr-der-metad}
+ Den Entscheidungsbaum der Metadaten-Abfrage zeigt
+ Abbildung~\ref{fig:arch-meta-abfrage}.
+ \begin{figure}[htbp]
+   \centering
+   \includegraphics[width=\textwidth]{meta-decision}
+   \caption{Entscheidungsbaum der Metadaten-Abfrage für Archivdaten}
+   \label{fig:arch-meta-abfrage}
+ \end{figure}
+ \subsubsection{Dokumentenstatus: Rohdaten}
+ \label{sec:dokum-rohd}
+ Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft
+ wurden oder am Institut erzeugt werden und am Anfang eines möglichen
+ workflows stehen.
+ Zu Rohdaten müssen weitere Informationen für einen
+ \texttt{acquisition} Block in den Metadaten eingegeben werden:
+ \begin{description}
+ \item[acquisition] the acquisition source of this resource -- required
+   \begin{description}
+   \item[provider] where this resource came from --required
+     \begin{description}
+     \item[name] free-text name of the provider (institution or
+       individual)
+     \item[address] address of the provider
+     \item[contact] contact person at the provider (i.e. name and email)
+     \item[url] URL related to the provider
+     \end{description}
+   \item[date] date of acquisition -- required
+   \item[description] free-text description of the acquisition source or
+     additional information
+   \item[provider-id] id of the provider (internally used) -- deduced
+   \end{description}
+ \end{description}
+ \subsubsection{Dokumentenstatus: Verarbeitete Daten}
+ \label{sec:dokum-verarb-daten}
+ Wenn die verarbeiteten Daten aus bereits abgelegten Rohdaten erzeugt
+ wurden, dann sollte ein Hinweis auf das Rohdaten-Verzeichnis im Tag
+ \texttt{derived-from} angebracht werden.
+ \begin{description}
+ \item[derived-from] Container for the description of the original
+   resource if this resource is a modified version of another resource
+   -- required for processed data.
+   \begin{description}
+   \item[archive-id] The ID of the original resource
+     -- required.
+   \item[archive-path] The full path to the original resource
+     -- deduced.
+   \item[description] An informal textual description of the relation
+   of this resource to the original resource -- optional.
+   \end{description}
+ \end{description}
+ \subsubsection{Medientyp: Video}
+ \label{sec:medientyp-video}
+ Filme haben den Medientyp \texttt{video}. Sie können zusätzlich mit
+ Metadaten in einem \texttt{film-acquisition} Metadaten-ELement
+ beschrieben werden.
+ \begin{description}
+ \item[film-acquisition] description of a (documentary) film --
+   required for documentary film
+   \begin{description}
+   \item[recording] specification of the recording process
+     \begin{description}
+     \item[author] the person or persons doing the recording
+     \item[date] the date or time span when the film was recorded
+     \item[location] the place where the film was recorded
+     \item[device] recording device used (e.g. ``Sony CP-DV8 Camcorder'')
+     \item[format] format of the recorded film -- required (e.g. ``DV 720x524 25fps
+     interlaced'')
+     \end{description}
+   \item[description] free-form description of the recording and the
+     content of the film
+   \end{description}
+ \end{description}
+ \subsubsection{Medientyp: Audio}
+ \label{sec:medientyp-audio}
+ Für den Medientyp \texttt{audio} exisitieren noch keine
+ Metadaten-Vorschläge.
+ \subsubsection{Medientyp: Image}
+ \label{sec:medientyp-image}
+ Der Medientyp \texttt{image} ist für Einzelbilder und Gruppen von
+ Bildern gedacht, die kein Buch o.ä. darstellen.
+ Für die Beschreibung der Erfassung und das Format der digitalisierten
+ Bilder gibt es die Metadaten-Elemente \texttt{image-acquisition} und
+ \texttt{img}.
+ \begin{description}
+ \item[image-acquisition] description of the image production process
+   -- required
+   \begin{description}
+   \item[device] acquisition device (e.g. ``flatbed scanner'')
+   \item[image-type] type and color-depth of the image -- required (e.g. ``RGB 24
+     bit'')
+   \item[production-comment] additional textual information about the
+     production process
+   \end{description}
+ \end{description}
+ \begin{description}
+ \item[img] digital image information.
+   \begin{description}
+   \item[original-size-x] The width of the original
+     image -- required. \\
+     The unit of measure can be contained as parameter \texttt{unit},
+     the default is meter ``m''. The width to be considered is the
+     total width of the scanned area.
+   \item[original-size-y] The height of the original image -- required.
+   \item[original-pixel-x] The width of the hi-res scan in pixels -- deduced.
+   \item[original-pixel-y] The height of the hi-res scan in pixels -- deduced.
+   \end{description}
+ \end{description}
+ Für die Inhaltliche Erfassung von Bildern gibt es bisher keinen
+ Metadaten-Vorschlag.
+ \subsubsection{Medientyp: Text}
+ \label{sec:medientyp-text}
+ Für Volltexte, d.h. maschinenlesbaren Text in verschiedenen Formaten
+ ist der Medientyp \texttt{text} gedacht.
+ Die inhaltliche Erfassung erfolgt über das Metadaten-Element
+ \texttt{bib} mit verschiedenen Untertypen, das sich an der
+ Projektbibliographie des MPIWG orientiert.
+ \subsubsection{Medientyp: Scanned Text}
+ \label{sec:medi-scann-text}
+ Zum Medientyp \texttt{scanned-text} gehören alle gescannten Bilder von
+ Texten, die als Text behandelt werden.
+ Die Medienerfassung orientiert sich am Medientyp \texttt{image} mit
+ den Elementen \texttt{image-acquisition} und \texttt{img}.
+ Die inhaltliche Erfassung orientiert sich am Medientyp \texttt{text}
+ mit dem \texttt{bib} Element.
+ \subsubsection{Medientyp: other}
+ \label{sec:medientyp-other}
+ Die Vergabe und Behandlung von Medientypen sollte flexibel und
+ erweiterbar sein.
  \end{document}

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>

Removed from v.1.3
changed lines
	Added in v.1.7