--- storage/names/file-format.tex 2003/07/02 18:20:46 1.3 +++ storage/names/file-format.tex 2003/12/09 17:45:02 1.7 @@ -1,4 +1,4 @@ -\documentclass[a4paper, abstracton]{article} +\documentclass[a4paper]{article} \usepackage{ngerman} @@ -9,21 +9,27 @@ %\usepackage{courier} % create in-text links in black (with PDF) -%\usepackage[colorlinks=true,linkcolor=black]{hyperref} +\usepackage[colorlinks=true,linkcolor=black]{hyperref} % Format URLs nicely (without PDF) %\usepackage{url} +% Grafik +\usepackage{graphicx} +% Verzeichnis mit Abbildungen +\graphicspath{{images/}} \title{Ablage von Massendaten im Archiv- und Backupsystem} \author{Dirk Wintergrün, Robert Casties} +\date{V0.10.1 of \today} + \begin{document} \maketitle \begin{abstract} - In diesem Dokument werden die Ablage von Massendaten auf dem - zentralen Archiv- und Filesystem des MPIWG beschrieben + In diesem Dokument wird die Ablage von Massendaten auf dem + zentralen Archiv- und Ablagesystem des MPIWG beschrieben \end{abstract} \tableofcontents @@ -33,26 +39,28 @@ \label{sec:datentypen-fur-die} -Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.} +Die in diesem Dokument definierten Regeln gelten +für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.} \begin{description} \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des - Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne - ständigen Zugriff langfristig gesichert werden sollen (Pfad: - \texttt{archive/data}) + Instituts anfallen und als Rohdaten oder Produktionsdaten in + möglichst hoher Qualität ohne ständigen Zugriff langfristig + gesichert werden sollen (Pfad: \url{archive/data}) -\item[Präsentationsdaten] die über das Internet verfügbar gemacht werden - sollen und deren URL bzw. URI langfristig stabil gehalten werden - sollen (Pfad: \texttt{online/permanent}) +\item[Langfristige Präsentationsdaten] die über das Internet verfügbar + gemacht werden sollen und deren URL bzw. URI langfristig stabil + gehalten werden sollen (Pfad: \url{online/permanent}) - -\item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig - online verfügbar sein sollen (Pfad: \texttt{online/experimental}) -\item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von +\item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die + kurzfristig und nur für begrenzte Zeit online verfügbar sein sollen + (Pfad: \url{online/experimental}) + +\item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von Kooperationsprojekten gehalten werden und auf die ständiger Zugriff - z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad: - \texttt{mirrors}) + z.B. zum Zweck der Synchronisation notwendig ist.(Pfad: + \url{mirrors}) \end{description} @@ -64,16 +72,16 @@ Die Ablage aller genannter Dokumente erf \begin{itemize} \item Zugang per FTP, SCP, SFTP über: - \texttt{foxridge.mpiwg-berlin.mpg.de} \\ + \url{foxridge.mpiwg-berlin.mpg.de} \\ Zugang zu den Daten in den Verzeichnissen - \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent}, - \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors} + \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent}, + \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors} \item Zugang per Appletalk (AFP) über: Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\ - Zugang zu den Daten über die Freigaben \texttt{archive\_data}, - \texttt{online\_permanent}, \texttt{online\_experimental} und - \texttt{mirrors} + Zugang zu den Daten über die Freigaben \url{archive\_data}, + \url{online\_permanent}, \url{online\_experimental} und + \url{mirrors} \end{itemize} @@ -81,125 +89,192 @@ Die Ablage aller genannter Dokumente erf \label{sec:benutzerkennung} Benutzerkennungen und Passworte für die Ablage der Massendaten werden -projektspezifisch vergeben. +projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der + Zugriffsrechte fehlt noch.} \section{Erlaubte Zeichen in Datei- und Ordnernamen} \label{sec:erla-zeich-datei} -Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"', -"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. +Erlaubte Zeichen in Datei- und Ordnernamen sind Kleinbuchstaben (a-z), +Großbuchstaben (A-Z), Ziffern (0-9), Bindestrich ("`-"'), Unterstrich +("`\_"') und Punkt ("`."'). Andere Zeichen und Leerzeichen sind nicht +zulässig. Es wird empfohlen für Datei- und Ordnernamen ausschliesslich +Kleinschreibung zu verwenden. + +Für die Umsezung von Dateinamen, die anderen Zeichen enthalten wird +empfohlen alle Leerzeichen durch Bindestriche ("`-"') und andere +nichtzulässige Zeichen durch Unterstriche ("`\_"') zu ersetzen. \section{Ablage von Archivdaten} \label{sec:ablage-von-arch} Archivdaten werden nur temporär auf der Festplatte des Servers -gehalten. Nach der Archivierung auf Band werden sie von der Festplatte -gelöscht. Für Archivdaten ist auf Foxridge der Pfad +gehalten. Nach der Archivierung auf Magnetbänder werden sie von der +Festplatte gelöscht. Die Metadaten bleiben auch nach dem Löschen der +Daten auf der Festplatte. Für Archivdaten ist auf Foxridge der Pfad -\texttt{/mpiwg/archive/data} bzw \texttt{archive\_data} +\url{/mpiwg/archive/data} bzw. \url{archive_data} \noindent vorgesehen. +Die Ablage von Archivdaten erfolgt abhängig davon ob es sich um +\emph{Rohdaten} oder \emph{Produktionsdaten} handelt. -\subsection{Erste Ebene: Projekte} -\label{sec:erste-eben-proj} -Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit -dem Namen des Projektes angelegt: +\subsection{Ablage von Rohdaten im Archiv} +\label{sec:ablage-von-rohdaten} -\texttt{archive/data/PROJEKTNAME} +Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft +wurden oder am Institut erzeugt werden und am Anfang eines workflows stehen. -\noindent Bsp: das Humboldtprojekt +Rohdaten können entweder über ein Web-Frontend oder direkt im +Filesystem des Servers abgelegt werden. Bei der Ablage über das +Web-Frontend wird ein Metadaten-File automatisch erzeugt. Bei der +Ablage "`von Hand"' auf dem Server kann ein Metadaten-File +nachträglich mit Hilfe eines Web-Frontends erzeugt werden. -\texttt{archive/data/humboldt} +Die wichtigste Information über die Rohdaten ist ihre Quelle, die in +einem \texttt{acquisition} Metadaten-Element beschrieben wird. +Außerdem müssen, je nach Medientyp verschiedene technische Angaben +über die abgelegten Daten erfolgen. +Weitere inhaltliche Metadaten, wie eine bibliographische Bestimmung +erhalten zunächst nur den Metadaten-Status "`vorläufig"' +(\texttt{wf-status} \texttt{preliminary}). -\subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte, - Bücher)} -\label{sec:zweite-eben-dokum} -Für jedes abzulegende Dokument wird innerhalb des Projektordners ein -weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten -bestehen, wird folgende Bennenung -vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils - obligatorisch.} +\subsubsection{Erste Ebene: Provider} +\label{sec:ebene-provider} -\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year} +Die Rohdaten werden im Filesystem des Servers in Ordnern entsprechend +ihrer Quelle, ihres \emph{Providers} abgelegt. Bei externen +Lieferungen ist der Lieferant direkt als Provider angesehen +werden. Das gleiche gilt z.B. für Arbeiten der Digitalisierungsgruppe der +Bibliothek. Bei Arbeiten, die im Rahmen von Projekten von einzelnen +Mitarbeitern im Haus erstellt werden, liegt es in der Verantwortung +der Projekte einen Provider-Namen zu benennen. -\noindent Siehe dazu Tabelle~\ref{tab:benennung}. +Zur Vereinheitlichung der Provider-Bezeichnungen wird ein zentrales +Verzeichnis mit Provider-Namen und IDs erstellt. -\begin{table}[htbp] -\center -\begin{tabular}{lp{0.6\textwidth}l} -Feld & Erklärung & Beispiel\\ \hline -AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\ +\subsubsection{Zweite Ebene: Dokumente} +\label{sec:ebene-dokumente} -TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\ +Unterhalb der Provider-Ebene werden Dokumente nach ihrer ID abgelegt. +Zu diesem Zweck erhalten alle Dokumente eine \texttt{archive-id}, eine +eindeutige achtstellige Zeichenfolge, vom Archiv"=ID"=Server -SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig, -beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also -in der Regel 01. & 01\\ +\url{http://content.mpiwg-berlin.mpg.de/archive/ids}. -lang & Sprache in der zweistelligen ISO-Codierung & de\\ +\noindent Wenn die Daten direkt im Filesystem abgelegt werden muss vor der +Ablage im Webfrontend des ID-Servers eine Archiv-ID für das Dokument +reserviert werden. + +\begin{figure}[htbp] + \centering + \includegraphics[width=0.6\textwidth]{archive-dirs} + \caption{Verzeichnisstruktur für den Rohdaten-Archivbereich} + \label{fig:dir-arch-raw} +\end{figure} + +Die Rohdaten werden in einzelne Verzeichnisse gelegt, die jeweils +einzelnen Dokumenten entsprechen. Als Verzeichnisname wird die +\texttt{archive-id} verwendet. Je nach Art der Daten sollten +Unterordner nach den Empfehlungen in +Abschnitt~\ref{sec:dritte-eben-unter} angelegt werden. Für die +Dateinamen gelten ebenfalls die in +Abschnitt~\ref{sec:vierte-eben-date} angegebenen Regeln. + +Einen schematischen Überblick über die Verzeichnisstruktur zeigt +Abbildung~\ref{fig:dir-arch-raw}. -year & Erscheinungsjahr, vierstellig & 1803 -\end{tabular} -\caption{Benennung Ordner} -\label{tab:benennung} -\end{table} +\subsection{Ablage von Produktdaten im Archiv} +\label{sec:ablage-von-produkt} + +\subsubsection{Erste Ebene: Projekte} +\label{sec:erste-eben-proj} + +Für jedes Projekt, das als Datenproduzent Archivdaten ablegen will, +wird ein Ordner mit dem Namen des Projektes angelegt: +\url{archive/data/PROJEKTNAME} -\subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)} +\noindent Bsp: das Humboldtprojekt + +\url{archive/data/humboldt} + +\noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig, +weitere Unterordner zur Untergliederung der Dokumente anlegen. + + +\subsubsection{Zweite Ebene: Dokumente} +\label{sec:zweite-eben-dokum} + +Für jedes abzulegende Dokument wird unterhalb des Projektordners ein +weiterer Ordner angelegt. Die Benennung dieser Ordner ist Teil des +Workflows des jeweiligen Projekts. Möglich die Verwendung +der \texttt{archive-id} als Ordnername analog zur Ablage der Rohdaten +(siehe Abschnitt~\ref{sec:ebene-dokumente}) aber auch andere Schemas. + +Jedes zu archivierende Dokument muss eine \texttt{archive-id} +haben. Bevor ein neuer Ordner für ein neues Dokument angelegt wird, +sollte vom Archive-ID-Server eine neue \texttt{archive-id} reserviert +werden. + + +\subsubsection{Dritte Ebene: Unterordner} \label{sec:dritte-eben-unter} Innerhalb des Dokumentenordners werden weitere Unterordner für den jeweiligen Datentyp angelegt: -\texttt{TYPE} +\url{TYPE} \noindent oder -\texttt{id-sernr-TYPE} +\url{TYPE-sernr} \begin{description} -\item[id] beschreibt eine eindeutige ID des Dokumentes -(dreistellig) +\item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder + \url{pageimg} für Scans einzelner Seiten oder \url{ocr} für + OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu + Dateien in den anderen Ordnern. \item[sernr] eine Seriennummer falls mehrere -Imagesätze zu einem Dokument gehören - -\item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder - \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für - OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den - Dateien in den anderen Ordnern. + Imagesätze zu einem Dokument gehören \end{description} -\noindent Ausserdem liegt in jedem Dokumentenordner eine Datei: +\noindent Außerdem muss in jedem Dokumentenordner eine Datei -\texttt{index.meta} +\url{index.meta} -\noindent die Metadaten zum Ordner selbst enthält. +\noindent liegen, die Metadaten zum Ordner selbst enthält. Das Format dieser +Metadaten"=Datei ist im Dokument "`A simple metadata format for +resource +bundles"'\footnote{\url{http://pythia.mpiwg-berlin.mpg.de/projects/storagesystem/metadaten.html}} +beschrieben. -\subsection{Vierte Ebene: Dateien in den Ordnern} +\subsubsection{Vierte Ebene: Dateien in den Ordnern} \label{sec:vierte-eben-date} -Für Dateinamen gilt als Midestanforderung, dass die alphabetische -Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte -Dateien sollten Namen mit führenden Nullen erhalten, z.B. -\texttt{00001.jpg}. Empfohlen wird folgende Bennung: - -\texttt{id-sernr-imagenumber.SUFFIX} - -\noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des -Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das -Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von -Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}. +Für Dateinamen gilt als Mindestanforderung, dass der Dateiname nur aus +zulässigen Zeichen besteht und die Dateiendung den Dateityp anzeigt. +Die alphabetische Ordnung der Namen muss der Reihenfolge der Daten +entsprechen. Nummerierte Dateien sollten daher Namen mit führenden +Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen wird folgende +Benennung: + +\url{imagenummer.SUFFIX} + +\noindent Imagenummer ist eine fünfstellige Zahl. Das Suffix muss den +Dateityp angeben. Eine (nicht erschöpfende) Liste von Dateitypen zeigt +Tabelle~\ref{tab:benennung-dateien}. \begin{table}[htbp] \centering @@ -207,11 +282,11 @@ Dateitypen zeigt Tabelle~\ref{tab:benenn suffix & Dateityp\\ \hline - jpg & JPEG-Bilddateien\\ + \texttt{jpg}, \texttt{jpeg} & JPEG-Bilddateien\\ - tif & TIFF-Bilddateien \\ + \texttt{tif}, \texttt{tiff} & TIFF-Bilddateien \\ - png & PNG-Bilddateien + \texttt{png} & PNG-Bilddateien \end{tabular} \caption{Dateiendungen} \label{tab:benennung-dateien} @@ -224,40 +299,48 @@ Dateitypen zeigt Tabelle~\ref{tab:benenn Für Daten die für die direkte Präsentation im Netz vorgesehen sind, werden auf foxridge zwei Pfade angeboten: -\texttt{online/experimental} +\url{online/experimental} \noindent und -\texttt{online/permanent} +\url{online/permanent} \noindent Für Dokumente, die nur temporär präsentiert werden sollen, -ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses +ist \url{online/experimental} vorgesehen. Pfade innerhalb dieses Bereiches können verändert und gelöscht werden. Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist -\texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen +\url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben -werden. +oder umbenannt werden. -Die interne Struktur der Dokumentordner in \texttt{online/permanent} -entspricht der oben dargestellten Struktur von \texttt{archive/data}. +Die interne Struktur der Projekt- und Dokumentordner in +\url{online/permanent} entspricht der in +Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von +\url{archive/data}. -\section{Workflow für die Übergabe von gescannten Texten} +\section{Workflow: Scannen durch die Digitalisierungsgruppe} \label{sec:workflow-fur-die} + Größere Mengen von Büchern und Manuskripten werden von der -Digitalisierungsgruppe der Bibliothek in hoher Qualität -gescannt. Diese Digitalisierungen erfolgen im Auftrag -einzelner Projekte oder auf eigene Initiative der Bibliothek. Die -Digitalisate werden zunächst in drei verschiedenen Formen erzeugt: +Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt. +Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen +Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate +werden zunächst in drei verschiedenen Formen erzeugt. + +\subsection{Typen von Bilddaten} +\label{sec:daten-typen} \begin{itemize} \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner, - ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die - weitere Nutzung durch Andere gedacht und sollen nur archiviert - werden. + ohne weitere Nachbearbeitung\footnote{Die Digitalisierungsgruppe + dokumentieren dazu welche Arbeits- und Bearbeitungsschritte bei + welchem Gerät als integraler Teil des Scanvorgangs betrachtet + werden.}. Diese Dateien sind nicht für die weitere Nutzung durch + Andere gedacht und sollen nur archiviert werden. \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie Farbkorrektur und Schärfung. Diese Dateien sind für die weitere @@ -270,96 +353,50 @@ Digitalisate werden zunächst in drei ver \end{itemize} Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden -von der Digigruppe selbständig durchgeführt. Für den Workflow der -Übergabe der Bilddaten an die Projekte ergeben sich verschiedene -Anforderungen: - -\begin{itemize} -\item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die - Dateien kopiert, wie werden Verzeichnisse und Dateien benannt? - -\item Die Daten müssen archiviert werden. +von der Digitalisierungsgruppe selbständig durchgeführt. -\item Online-Versionen der Daten sollten möglichst schnell zur Verfügung - stehen und über einen allgemeinen Katalog gefunden werden können. - -\item Daten sollten nach Möglichkeit nicht kopiert und doppelt - abgelegt werden. -\end{itemize} -Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der -Roh- und User-Images durch die Digigruppe in einer eigenen -\texttt{library} Hierarchie oder die Ablage durch die Digigruppe in -entsprechenden Unterordnern der jeweiligen Projekte. - - -\subsection{Ablage in "`library"' Projekt} -\label{sec:ablage-libr-proj} +\subsection{Ablage und Übergabe der Rohdaten} +\label{sec:ablage-und-ubergabe} \begin{enumerate} \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten oder Bereichen für Bewegungsdaten. \item Die Digigruppe kopiert Roh-Images und User-Images in einen - Dokumenten-Ordner nach der Namenskonvention - (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich - \texttt{archive/data/library}. Roh-Images werden in einem - Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}. - -\item Die Digigruppe startet eine Prä-Migration der Daten ins - Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des - verfügbaren Speicherplatzes) noch nicht von - der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images - bereits von der Platte gelöscht während die User-Daten erhalten - bleiben.} - -\item Die Digigruppe benachrichtigt das entsprechende Projekt über den - Aufenthaltsort der Daten. - -\item Das Projekt verwendet die User-Images und archiviert - weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie. - -\item Das Projekt veranlasst die vollständige Migration der - User-Images (Löschung von der Festplatte) sobald die Daten nicht - mehr direkt verwendet werden. -\end{enumerate} - - -\subsection{Ablage bei den Projekten} -\label{sec:ablage-bei-den} - -\begin{enumerate} -\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten - oder Bereichen für Bewegungsdaten. + Dokumenten-Ordner mit den notwendigen Metadaten und einer neuen + Archiv-ID nach den Regeln in Abschnitt~\ref{sec:ebene-dokumente} im + Bereich \url{archive/data/library}. Roh-Images werden in einem + Unterordner \url{raw} abgelegt und User-Images in \url{pageimg}. -\item Die Digigruppe kopiert Roh-Images und User-Images in einen - Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit - dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B. - \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem - Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}. - -\item Die Digigruppe benachrichtigt das entsprechende Projekt über den - Aufenthaltsort der Daten. - -\item Das Projekt verwendet die User-Images und archiviert - weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie. +\item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag) + über den Ablageort der Daten.\footnote{Idealerweise würden die Roh-Images + bereits archiviert und von der Platte gelöscht während die User-Daten erhalten + bleiben.} + +\item Der Auftraggeber verwendet die User-Images. Veränderte Formen + der Images erstellt und archiviert der Auftraggeber in seiner + eigenen Projekt"=Hierarchie. -\item Das Projekt veranlasst die vollständige Migration der Daten - sobald sie nicht mehr direkt verwendet werden. +\item Der Auftraggeber veranlasst die vollständige Migration (Löschung + von der Festplatte) der von der Digigruppe erstellten Daten sobald + sie nicht mehr direkt verwendet werden. \end{enumerate} + \subsection{Ablage der Online-Images} \label{sec:ablage-der-online} -Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache +Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache mit dem Projekt + \begin{itemize} -\item als fertige Images in der Online-Hierarchie der Bibliothek, wenn +\item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist \item als fertige Images im Archivbereich bei den User-Images in einem - Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem + Ordner \url{jpg} (o.ä.) zur Nutzung durch das Projekt in seinem Online-Bereich \item für Projekte, die selbst weiter verarbeitete Online-Images zur @@ -368,6 +405,200 @@ mit dem Projekt +\section{Erfassung der Metadaten für Archivdaten} +\label{sec:use-case-workflow} + + +\subsection{Abfrage der Metadaten} +\label{sec:abfr-der-metad} + +Den Entscheidungsbaum der Metadaten-Abfrage zeigt +Abbildung~\ref{fig:arch-meta-abfrage}. + +\begin{figure}[htbp] + \centering + \includegraphics[width=\textwidth]{meta-decision} + \caption{Entscheidungsbaum der Metadaten-Abfrage für Archivdaten} + \label{fig:arch-meta-abfrage} +\end{figure} + + +\subsubsection{Dokumentenstatus: Rohdaten} +\label{sec:dokum-rohd} + +Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft +wurden oder am Institut erzeugt werden und am Anfang eines möglichen +workflows stehen. + +Zu Rohdaten müssen weitere Informationen für einen +\texttt{acquisition} Block in den Metadaten eingegeben werden: + +\begin{description} +\item[acquisition] the acquisition source of this resource -- required + \begin{description} + \item[provider] where this resource came from --required + \begin{description} + \item[name] free-text name of the provider (institution or + individual) + + \item[address] address of the provider + + \item[contact] contact person at the provider (i.e. name and email) + + \item[url] URL related to the provider + \end{description} + + \item[date] date of acquisition -- required + + \item[description] free-text description of the acquisition source or + additional information + + \item[provider-id] id of the provider (internally used) -- deduced + \end{description} +\end{description} + + +\subsubsection{Dokumentenstatus: Verarbeitete Daten} +\label{sec:dokum-verarb-daten} + +Wenn die verarbeiteten Daten aus bereits abgelegten Rohdaten erzeugt +wurden, dann sollte ein Hinweis auf das Rohdaten-Verzeichnis im Tag +\texttt{derived-from} angebracht werden. + +\begin{description} +\item[derived-from] Container for the description of the original + resource if this resource is a modified version of another resource + -- required for processed data. + + \begin{description} + \item[archive-id] The ID of the original resource + -- required. + + \item[archive-path] The full path to the original resource + -- deduced. + + \item[description] An informal textual description of the relation + of this resource to the original resource -- optional. + \end{description} +\end{description} + + +\subsubsection{Medientyp: Video} +\label{sec:medientyp-video} + +Filme haben den Medientyp \texttt{video}. Sie können zusätzlich mit +Metadaten in einem \texttt{film-acquisition} Metadaten-ELement +beschrieben werden. + +\begin{description} +\item[film-acquisition] description of a (documentary) film -- + required for documentary film + \begin{description} + \item[recording] specification of the recording process + \begin{description} + \item[author] the person or persons doing the recording + + \item[date] the date or time span when the film was recorded + + \item[location] the place where the film was recorded + + \item[device] recording device used (e.g. ``Sony CP-DV8 Camcorder'') + + \item[format] format of the recorded film -- required (e.g. ``DV 720x524 25fps + interlaced'') + \end{description} + + \item[description] free-form description of the recording and the + content of the film + \end{description} +\end{description} + + +\subsubsection{Medientyp: Audio} +\label{sec:medientyp-audio} + +Für den Medientyp \texttt{audio} exisitieren noch keine +Metadaten-Vorschläge. + + + +\subsubsection{Medientyp: Image} +\label{sec:medientyp-image} + +Der Medientyp \texttt{image} ist für Einzelbilder und Gruppen von +Bildern gedacht, die kein Buch o.ä. darstellen. + +Für die Beschreibung der Erfassung und das Format der digitalisierten +Bilder gibt es die Metadaten-Elemente \texttt{image-acquisition} und +\texttt{img}. + +\begin{description} +\item[image-acquisition] description of the image production process + -- required + \begin{description} + \item[device] acquisition device (e.g. ``flatbed scanner'') + + \item[image-type] type and color-depth of the image -- required (e.g. ``RGB 24 + bit'') + + \item[production-comment] additional textual information about the + production process + \end{description} +\end{description} + +\begin{description} +\item[img] digital image information. + + \begin{description} + \item[original-size-x] The width of the original + image -- required. \\ + The unit of measure can be contained as parameter \texttt{unit}, + the default is meter ``m''. The width to be considered is the + total width of the scanned area. + + \item[original-size-y] The height of the original image -- required. + + \item[original-pixel-x] The width of the hi-res scan in pixels -- deduced. + + \item[original-pixel-y] The height of the hi-res scan in pixels -- deduced. + \end{description} +\end{description} + +Für die Inhaltliche Erfassung von Bildern gibt es bisher keinen +Metadaten-Vorschlag. + + +\subsubsection{Medientyp: Text} +\label{sec:medientyp-text} + +Für Volltexte, d.h. maschinenlesbaren Text in verschiedenen Formaten +ist der Medientyp \texttt{text} gedacht. + +Die inhaltliche Erfassung erfolgt über das Metadaten-Element +\texttt{bib} mit verschiedenen Untertypen, das sich an der +Projektbibliographie des MPIWG orientiert. + + + +\subsubsection{Medientyp: Scanned Text} +\label{sec:medi-scann-text} + +Zum Medientyp \texttt{scanned-text} gehören alle gescannten Bilder von +Texten, die als Text behandelt werden. + +Die Medienerfassung orientiert sich am Medientyp \texttt{image} mit +den Elementen \texttt{image-acquisition} und \texttt{img}. + +Die inhaltliche Erfassung orientiert sich am Medientyp \texttt{text} +mit dem \texttt{bib} Element. + + +\subsubsection{Medientyp: other} +\label{sec:medientyp-other} + +Die Vergabe und Behandlung von Medientypen sollte flexibel und +erweiterbar sein. + \end{document}