\documentclass[a4paper]{article}
\usepackage{ngerman}
\usepackage[latin1]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{ae}
%\usepackage{times}
%\usepackage{courier}
% create in-text links in black (with PDF)
%\usepackage[colorlinks=true,linkcolor=black]{hyperref}
% Format URLs nicely (without PDF)
\usepackage{url}
\title{Ablage von Massendaten im Archiv- und Backupsystem}
\author{Dirk Wintergrün, Robert Casties}
\date{V0.9.4 of \today}
\begin{document}
\maketitle
\begin{abstract}
In diesem Dokument werden die Ablage von Massendaten auf dem
zentralen Archiv- und Filesystem des MPIWG beschrieben
\end{abstract}
\tableofcontents
\section{Datentypen für die dieses Dokument gilt}
\label{sec:datentypen-fur-die}
Die in diesem Dokument definierten Regeln gelten
für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.}
\begin{description}
\item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
ständigen Zugriff langfristig gesichert werden sollen (Pfad:
\url{archive/data})
\item[Langfristige Präsentationsdaten] die über das Internet verfügbar
gemacht werden sollen und deren URL bzw. URI langfristig stabil
gehalten werden sollen (Pfad: \url{online/permanent})
\item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
online verfügbar sein sollen (Pfad: \url{online/experimental})
\item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von
Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
z.B. zum Zweck der Synchronisation notwendig ist.(Pfad:
\url{mirrors})
\end{description}
\section{Zugang zum Server}
\label{sec:zugang-zum-server}
Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
\texttt{foxridge}, der physisch am FHI steht.
\begin{itemize}
\item Zugang per FTP, SCP, SFTP über:
\url{foxridge.mpiwg-berlin.mpg.de} \\
Zugang zu den Daten in den Verzeichnissen
\url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent},
\url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors}
\item Zugang per Appletalk (AFP) über: Auswahl des Servers
\texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
Zugang zu den Daten über die Freigaben \url{archive\_data},
\url{online\_permanent}, \url{online\_experimental} und
\url{mirrors}
\end{itemize}
\section{Benutzerkennung}
\label{sec:benutzerkennung}
Benutzerkennungen und Passworte für die Ablage der Massendaten werden
projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der
Zugriffsrechte fehlt noch.}
\section{Erlaubte Zeichen in Datei- und Ordnernamen}
\label{sec:erla-zeich-datei}
Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. Es
wird empfohlen für Datei- und Ordnernamen ausschliesslich
Kleinschreibung zu verwenden.
\section{Ablage von Archivdaten}
\label{sec:ablage-von-arch}
Archivdaten werden nur temporär auf der Festplatte des Servers
gehalten. Nach der Archivierung auf Magnetbänder werden sie von der
Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad
\url{/mpiwg/archive/data} bzw \url{archive_data}
\noindent vorgesehen.
\subsection{Erste Ebene: Projekte}
\label{sec:erste-eben-proj}
Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
dem Namen des Projektes angelegt:
\url{archive/data/PROJEKTNAME}
\noindent Bsp: das Humboldtprojekt
\url{archive/data/humboldt}
\noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig,
weitere Unterordner zur Untergliederung der Dokumente anlegen.
\subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
Bücher)}
\label{sec:zweite-eben-dokum}
Für jedes abzulegende Dokument wird unterhalb des Projektordners ein
weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
bestehen, wird folgende Bennenung
vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
obligatorisch.}
\url{AUTHOR_TITLE_sernr_lang_year}
\noindent Also z.B.
\url{humbo_endec_01_de_1803}
\noindent Siehe dazu Tabelle~\ref{tab:benennung}.
\begin{table}[htbp]
\center
\begin{tabular}{lp{0.6\textwidth}l}
Feld & Erklärung & Beispiel\\ \hline
\texttt{AUTHOR} & Autor, Vorschlag 5 stellig (falls nicht vorhanden "`anon."') & \texttt{humbo}\\
\texttt{TITLE} & Abkürzung des Titels, Vorschlag 5 stellig & \texttt{endec}\\
\texttt{sernr} & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
beginnend mit 01, zweistellig & 01\\
\texttt{lang} & Sprache in der zweistelligen ISO-Kodierung\footnotemark & \texttt{de}\\
\texttt{year} & Erscheinungsjahr, vierstellig & 1803
\end{tabular}
\caption{Benennung Ordner}
\label{tab:benennung}
\end{table}
\footnotetext{\url{http://www.loc.gov/standards/iso639-2/englangn.html}}
\subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
\label{sec:dritte-eben-unter}
Innerhalb des Dokumentenordners werden weitere Unterordner für den
jeweiligen Datentyp angelegt:
\url{TYPE}
\noindent oder
\url{id-sernr-TYPE}
\begin{description}
\item[id] eine eindeutige ID des Dokumentes (dreistellig), die
innerhalb des Projektes vergeben wird
\item[sernr] eine Seriennummer falls mehrere
Imagesätze zu einem Dokument gehören
\item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder
\url{pageimg} bei Scans einzelner Seiten oder \url{ocr} für
OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu den
Dateien in den anderen Ordnern.
\end{description}
\noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
\url{index.meta}
\noindent die Metadaten zum Ordner selbst enthält. Das Format dieser
Metadaten"=Datei ist im Dokument "`A simple metadata format for
resource bundles"'\footnote{\url{http://pythia/projects/storagesystem/metadaten.html}} beschrieben.
\subsection{Vierte Ebene: Dateien in den Ordnern}
\label{sec:vierte-eben-date}
Für Dateinamen gilt als Midestanforderung, dass die Dateiendung den
Dateityp anzeigt und die alphabetische Ordnung der Namen der
Reihenfolge der Daten entspricht. Nummerierte Dateien sollten daher
Namen mit führenden Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen
wird folgende Bennung:
\url{id-sernr-imagenumber.SUFFIX}
\noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
Ordners übereinstimmen. Imagenummer ist eine vierstellige Zahl. Das
Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
\begin{table}[htbp]
\centering
\begin{tabular}{ll}
suffix & Dateityp\\ \hline
\texttt{jpg} & JPEG-Bilddateien\\
\texttt{tif} & TIFF-Bilddateien \\
\texttt{png} & PNG-Bilddateien
\end{tabular}
\caption{Dateiendungen}
\label{tab:benennung-dateien}
\end{table}
\section{Ablage der Onlinedaten}
\label{sec:ablage-der-onlin}
Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
werden auf foxridge zwei Pfade angeboten:
\url{online/experimental}
\noindent und
\url{online/permanent}
\noindent Für Dokumente, die nur temporär präsentiert werden sollen,
ist \url{online/eperimental} vorgesehen. Pfade innerhalb dieses
Bereiches können verändert und gelöscht werden.
Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
\url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
oder umbenannt werden.
Die interne Struktur der Projekt- und Dokumentordner in
\url{online/permanent} entspricht der in
Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von
\url{archive/data}.
\section{Workflow für die Übergabe von gescannten Texten}
\label{sec:workflow-fur-die}
Größere Mengen von Büchern und Manuskripten werden von der
Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt.
Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen
Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate
werden zunächst in drei verschiedenen Formen erzeugt:
\begin{itemize}
\item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
weitere Nutzung durch Andere gedacht und sollen nur archiviert
werden.
\item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
werden.
\item Als \emph{Online-Image} in reduzierter Auflösung für die
Online-Präsentation. Diese Dateien können ebenfalls durch andere
Projekte genutzt werden und müssen online zur Verfügung stehen.
\end{itemize}
Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
von der Digigruppe selbständig durchgeführt. Für den Workflow der
Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
Anforderungen:
\begin{itemize}
\item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
\item Die Daten müssen archiviert werden.
\item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
stehen und über einen allgemeinen Katalog gefunden werden können.
\item Daten sollten nach Möglichkeit nicht kopiert und doppelt
abgelegt werden.
\end{itemize}
Der Workflow der Ablage der Daten ist abhängig davon ob die Scans im
Auftrag eines etablierten Projektes durchgeführt wurden. In diesem
Fall werden die Roh- und User"=Images von der Digigruppe in
entsprechenden Unterordnern der jeweiligen Projektordner abgelegt
(Abschnitt~\ref{sec:ablage-bei-den}). Wenn die Scans im Auftrag
einzelner Wissenschaftler oder auf Initiative der Bibliothek erstellt
wurden, werden sie in der \url{library} Hierarchie abgelegt
(Abschnitt~\ref{sec:ablage-libr-proj})
\subsection{Ablage in "`library"' Projekt}
\label{sec:ablage-libr-proj}
\begin{enumerate}
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
oder Bereichen für Bewegungsdaten.
\item Die Digigruppe kopiert Roh-Images und User-Images in einen
Dokumenten-Ordner nach der Namenskonvention
(\url{AUTHOR_TITLE_SERNR_lang_year}) im Bereich
\url{archive/data/library}. Roh-Images werden in einem
Unterordner \url{raw} abgelegt und User-Images in \url{img}.
\item Die Digigruppe startet eine Prä-Migration der Daten (Roh- und
User"=images) ins Bandarchiv. Die Daten werden auf Band kopiert aber
(nach Maßgabe des verfügbaren Speicherplatzes) noch nicht von der
Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
bereits von der Platte gelöscht während die User-Daten erhalten
bleiben.}
\item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag)
über den Ablageort der Daten.
\item Der Auftraggeber verwendet die User-Images. Veränderte Formen
der Images erstellt und archiviert der Auftraggeber in seiner
eigenen Projekt"=Hierarchie.
\item Der Auftraggeber veranlasst die vollständige Migration (Löschung
von der Festplatte) der von der Digigruppe erstellten Daten sobald
sie nicht mehr direkt verwendet werden.
\end{enumerate}
\subsection{Ablage bei den Projekten}
\label{sec:ablage-bei-den}
\begin{enumerate}
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
oder Bereichen für Bewegungsdaten.
\item Die Digigruppe kopiert Roh-Images und User-Images in einen
Dokumenten"=Ordner nach der Namenskonvention
(Abschnitt~\ref{sec:zweite-eben-dokum}), der sich in einem mit dem
Projekt abgesprochenen Bereich des Projektes befindet, z.B.
\url{archive/data/PROJEKT/literature}. Roh"=Images werden in einem
Unterordner \url{raw} abgelegt und User-Images in \url{img}.
\item Die Digigruppe benachrichtigt das entsprechende Projekt über den
Aufenthaltsort der Daten.
\item Das Projekt verwendet die User-Images und archiviert
weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
\item Das Projekt veranlasst die vollständige Archivierung und
Migration der Daten sobald sie nicht mehr direkt verwendet werden.
\end{enumerate}
\subsection{Ablage der Online-Images}
\label{sec:ablage-der-online}
Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache
mit dem Projekt
\begin{itemize}
\item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn
es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
\item als fertige Images im Archivbereich bei den User-Images in einem
Ordner \url{jpg} zur Nutzung durch das Projekt in seinem
Online-Bereich
\item für Projekte, die selbst weiter verarbeitete Online-Images zur
Verfügung stellen werden keine Online-Images erzeugt.
\end{itemize}
\end{document}
%%% Local Variables:
%%% mode: latex
%%% TeX-master: t
%%% End:
FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>