\documentclass[a4paper, abstracton]{article}

\usepackage{ngerman}

\usepackage[latin1]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{ae}
%\usepackage{times}
%\usepackage{courier}

% create in-text links in black (with PDF)
%\usepackage[colorlinks=true,linkcolor=black]{hyperref}
% Format URLs nicely (without PDF)
%\usepackage{url}

\title{Ablage von Massendaten im Archiv- und Backupsystem}

\author{Dirk Wintergrün, Robert Casties}

\date{V0.9.3 \today}

\begin{document}

\maketitle

\begin{abstract}
  In diesem Dokument werden die Ablage von Massendaten auf dem
  zentralen Archiv- und Filesystem des MPIWG beschrieben
\end{abstract}

\tableofcontents


\section{Datentypen für die dieses Dokument gilt}
\label{sec:datentypen-fur-die}


Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}

\begin{description}
\item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
  Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
  ständigen Zugriff langfristig gesichert werden sollen (Pfad:
  \texttt{archive/data})
  
\item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
  sollen und deren URL bzw. URI langfristig stabil gehalten werden
  sollen (Pfad: \texttt{online/permanent})
  

\item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
  online verfügbar sein sollen (Pfad: \texttt{online/experimental})
  
\item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
  Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
  z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
  \texttt{mirrors})
\end{description}


\section{Zugang zum Server}
\label{sec:zugang-zum-server}

Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
\texttt{foxridge}, der physisch am FHI steht.

\begin{itemize}
\item Zugang per FTP, SCP, SFTP über:
  \texttt{foxridge.mpiwg-berlin.mpg.de} \\
  Zugang zu den Daten in den Verzeichnissen
  \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
  \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
  
\item Zugang per Appletalk (AFP) über: Auswahl des Servers
  \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
  Zugang zu den Daten über die Freigaben \texttt{archive\_data},
  \texttt{online\_permanent}, \texttt{online\_experimental} und
  \texttt{mirrors}
\end{itemize}


\section{Benutzerkennung}
\label{sec:benutzerkennung}

Benutzerkennungen und Passworte für die Ablage der Massendaten werden
projektspezifisch vergeben.


\section{Erlaubte Zeichen in Datei- und Ordnernamen}
\label{sec:erla-zeich-datei}

Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.


\section{Ablage von Archivdaten}
\label{sec:ablage-von-arch}

Archivdaten werden nur temporär auf der Festplatte des Servers
gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
gelöscht. Für Archivdaten ist auf Foxridge der Pfad

\texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}

\noindent vorgesehen. 


\subsection{Erste Ebene: Projekte}
\label{sec:erste-eben-proj}

Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
dem Namen des Projektes angelegt:

\texttt{archive/data/PROJEKTNAME}

\noindent Bsp: das Humboldtprojekt

\texttt{archive/data/humboldt}


\subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
  Bücher)}
\label{sec:zweite-eben-dokum}

Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
bestehen, wird folgende Bennenung
vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
  obligatorisch.}

\texttt{AUTHOR\_TITLE\_sernr\_lang\_year}

\noindent Siehe dazu Tabelle~\ref{tab:benennung}.

\begin{table}[htbp]
\center
\begin{tabular}{lp{0.6\textwidth}l}
Feld & Erklärung & Beispiel\\ \hline

AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\

TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\

sernr & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
beginnend mit 01, zweistellig\\

lang & Sprache in der zweistelligen ISO-Codierung & de\\

year & Erscheinungsjahr, vierstellig & 1803
\end{tabular}
\caption{Benennung Ordner}
\label{tab:benennung}
\end{table}


\subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
\label{sec:dritte-eben-unter}

Innerhalb des Dokumentenordners werden weitere Unterordner für den
jeweiligen Datentyp angelegt:

\texttt{TYPE}

\noindent oder

\texttt{id-sernr-TYPE}

\begin{description}
\item[id] beschreibt eine eindeutige ID des Dokumentes
(dreistellig)

\item[sernr] eine Seriennummer falls mehrere
Imagesätze zu einem Dokument gehören

\item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
  \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
  OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
  Dateien in den anderen Ordnern.
\end{description}

\noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:

\texttt{index.meta}

\noindent die Metadaten zum Ordner selbst enthält.


\subsection{Vierte Ebene: Dateien in den Ordnern}
\label{sec:vierte-eben-date}

Für Dateinamen gilt als Midestanforderung, dass die alphabetische
Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
Dateien sollten Namen mit führenden Nullen erhalten, z.B.
\texttt{00001.jpg}. Empfohlen wird folgende Bennung:

\texttt{id-sernr-imagenumber.SUFFIX}

\noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.

\begin{table}[htbp]
  \centering
  \begin{tabular}{ll}

    suffix & Dateityp\\ \hline

    jpg & JPEG-Bilddateien\\
    
    tif & TIFF-Bilddateien \\
    
    png & PNG-Bilddateien
  \end{tabular}
  \caption{Dateiendungen}
  \label{tab:benennung-dateien}  
\end{table}


\section{Ablage der Onlinedaten}
\label{sec:ablage-der-onlin}

Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
werden auf foxridge zwei Pfade angeboten:

\texttt{online/experimental}

\noindent und

\texttt{online/permanent}

\noindent Für Dokumente, die nur temporär präsentiert werden sollen,
ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
Bereiches können verändert und gelöscht werden.

Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
\texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
werden.

Die interne Struktur der Dokumentordner in \texttt{online/permanent}
entspricht der oben dargestellten Struktur von \texttt{archive/data}.


\section{Workflow für die Übergabe von gescannten Texten}
\label{sec:workflow-fur-die}

Größere Mengen von Büchern und Manuskripten werden von der
Digitalisierungsgruppe der Bibliothek in hoher Qualität
gescannt. Diese Digitalisierungen erfolgen im Auftrag
einzelner Projekte oder auf eigene Initiative der Bibliothek. Die
Digitalisate werden zunächst in drei verschiedenen Formen erzeugt:

\begin{itemize}
\item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
  ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
  weitere Nutzung durch Andere gedacht und sollen nur archiviert
  werden.
  
\item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
  Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
  Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
  werden.

\item Als \emph{Online-Image} in reduzierter Auflösung für die
  Online-Präsentation. Diese Dateien können ebenfalls durch andere
  Projekte genutzt werden und müssen online zur Verfügung stehen.
\end{itemize}

Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
von der Digigruppe selbständig durchgeführt. Für den Workflow der
Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
Anforderungen:

\begin{itemize}
\item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
  Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?

\item Die Daten müssen archiviert werden.

\item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
  stehen und über einen allgemeinen Katalog gefunden werden können.
  
\item Daten sollten nach Möglichkeit nicht kopiert und doppelt
  abgelegt werden.
\end{itemize}

Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der
Roh- und User-Images durch die Digigruppe in einer eigenen
\texttt{library} Hierarchie oder die Ablage durch die Digigruppe in
entsprechenden Unterordnern der jeweiligen Projekte.


\subsection{Ablage in "`library"' Projekt}
\label{sec:ablage-libr-proj}

\begin{enumerate}
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
  oder Bereichen für Bewegungsdaten.
  
\item Die Digigruppe kopiert Roh-Images und User-Images in einen
  Dokumenten-Ordner nach der Namenskonvention
  (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich
  \texttt{archive/data/library}.  Roh-Images werden in einem
  Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}.

\item Die Digigruppe startet eine Prä-Migration der Daten ins
  Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des
  verfügbaren Speicherplatzes) noch nicht von
  der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
  bereits von der Platte gelöscht während die User-Daten erhalten
  bleiben.}

\item Die Digigruppe benachrichtigt das entsprechende Projekt über den
  Aufenthaltsort der Daten.

\item Das Projekt verwendet die User-Images und archiviert
  weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.

\item Das Projekt veranlasst die vollständige Migration der
  User-Images (Löschung von der Festplatte) sobald die Daten nicht
  mehr direkt verwendet werden.
\end{enumerate}


\subsection{Ablage bei den Projekten}
\label{sec:ablage-bei-den}

\begin{enumerate}
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
  oder Bereichen für Bewegungsdaten.
  
\item Die Digigruppe kopiert Roh-Images und User-Images in einen
  Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit
  dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B.
  \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem
  Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}.

\item Die Digigruppe benachrichtigt das entsprechende Projekt über den
  Aufenthaltsort der Daten.

\item Das Projekt verwendet die User-Images und archiviert
  weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
  
\item Das Projekt veranlasst die vollständige Migration der Daten
  sobald sie nicht mehr direkt verwendet werden.
\end{enumerate}


\subsection{Ablage der Online-Images}
\label{sec:ablage-der-online}

Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache
mit dem Projekt
\begin{itemize}
\item als fertige Images in der Online-Hierarchie der Bibliothek, wenn
  es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
  
\item als fertige Images im Archivbereich bei den User-Images in einem
  Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem
  Online-Bereich

\item für Projekte, die selbst weiter verarbeitete Online-Images zur
  Verfügung stellen werden keine Online-Images erzeugt.
\end{itemize}


\end{document}


%%% Local Variables: 
%%% mode: latex
%%% TeX-master: t
%%% End: