\documentclass[a4paper, abstracton]{article}
\usepackage{ngerman}
\usepackage[latin1]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{ae}
%\usepackage{times}
%\usepackage{courier}
% create in-text links in black (with PDF)
%\usepackage[colorlinks=true,linkcolor=black]{hyperref}
% Format URLs nicely (without PDF)
%\usepackage{url}
\title{Ablage von Massendaten im Archiv- und Backupsystem}
\author{Dirk Wintergrün, Robert Casties}
\begin{document}
\maketitle
\begin{abstract}
In diesem Dokument werden die Ablage von Massendaten auf dem
zentralen Archiv- und Filesystem des MPIWG beschrieben
\end{abstract}
\tableofcontents
\section{Datentypen für die dieses Dokument gilt}
\label{sec:datentypen-fur-die}
Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}
\begin{description}
\item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
ständigen Zugriff langfristig gesichert werden sollen (Pfad:
\texttt{archive/data})
\item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
sollen und deren URL bzw. URI langfristig stabil gehalten werden
sollen (Pfad: \texttt{online/permanent})
\item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
online verfügbar sein sollen (Pfad: \texttt{online/experimental})
\item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
\texttt{mirrors})
\end{description}
\section{Zugang zum Server}
\label{sec:zugang-zum-server}
Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
\texttt{foxridge}, der physisch am FHI steht.
\begin{itemize}
\item Zugang per FTP, SCP, SFTP über:
\texttt{foxridge.mpiwg-berlin.mpg.de} \\
Zugang zu den Daten in den Verzeichnissen
\texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
\texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
\item Zugang per Appletalk (AFP) über: Auswahl des Servers
\texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
Zugang zu den Daten über die Freigaben \texttt{archive\_data},
\texttt{online\_permanent}, \texttt{online\_experimental} und
\texttt{mirrors}
\end{itemize}
\section{Benutzerkennung}
\label{sec:benutzerkennung}
Benutzerkennungen und Passworte für die Ablage der Massendaten werden
projektspezifisch vergeben.
\section{Erlaubte Zeichen in Datei- und Ordnernamen}
\label{sec:erla-zeich-datei}
Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.
\section{Ablage von Archivdaten}
\label{sec:ablage-von-arch}
Archivdaten werden nur temporär auf der Festplatte des Servers
gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
gelöscht. Für Archivdaten ist auf Foxridge der Pfad
\texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
\noindent vorgesehen.
\subsection{Erste Ebene: Projekte}
\label{sec:erste-eben-proj}
Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
dem Namen des Projektes angelegt:
\texttt{archive/data/PROJEKTNAME}
\noindent Bsp: das Humboldtprojekt
\texttt{archive/data/humboldt}
\subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
Bücher)}
\label{sec:zweite-eben-dokum}
Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
bestehen, wird folgende Bennenung
vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
obligatorisch.}
\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
\noindent Siehe dazu Tabelle~\ref{tab:benennung}.
\begin{table}[htbp]
\center
\begin{tabular}{lp{0.6\textwidth}l}
Feld & Erklärung & Beispiel\\ \hline
AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\
TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\
SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also
in der Regel 01. & 01\\
lang & Sprache in der zweistelligen ISO-Codierung & de\\
year & Erscheinungsjahr, vierstellig & 1803
\end{tabular}
\caption{Benennung Ordner}
\label{tab:benennung}
\end{table}
\subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
\label{sec:dritte-eben-unter}
Innerhalb des Dokumentenordners werden weitere Unterordner für den
jeweiligen Datentyp angelegt:
\texttt{TYPE}
\noindent oder
\texttt{id-sernr-TYPE}
\begin{description}
\item[id] beschreibt eine eindeutige ID des Dokumentes
(dreistellig)
\item[sernr] eine Seriennummer falls mehrere
Imagesätze zu einem Dokument gehören
\item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
\texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
Dateien in den anderen Ordnern.
\end{description}
\noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
\texttt{index.meta}
\noindent die Metadaten zum Ordner selbst enthält.
\subsection{Vierte Ebene: Dateien in den Ordnern}
\label{sec:vierte-eben-date}
Für Dateinamen gilt als Midestanforderung, dass die alphabetische
Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
Dateien sollten Namen mit führenden Nullen erhalten, z.B.
\texttt{00001.jpg}. Empfohlen wird folgende Bennung:
\texttt{id-sernr-imagenumber.SUFFIX}
\noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
\begin{table}[htbp]
\centering
\begin{tabular}{ll}
suffix & Dateityp\\ \hline
jpg & JPEG-Bilddateien\\
tif & TIFF-Bilddateien \\
png & PNG-Bilddateien
\end{tabular}
\caption{Dateiendungen}
\label{tab:benennung-dateien}
\end{table}
\section{Ablage der Onlinedaten}
\label{sec:ablage-der-onlin}
Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
werden auf foxridge zwei Pfade angeboten:
\texttt{online/experimental}
\noindent und
\texttt{online/permanent}
\noindent Für Dokumente, die nur temporär präsentiert werden sollen,
ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
Bereiches können verändert und gelöscht werden.
Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
\texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
werden.
Die interne Struktur der Dokumentordner in \texttt{online/permanent}
entspricht der oben dargestellten Struktur von \texttt{archive/data}.
\end{document}
%%% Local Variables:
%%% mode: latex
%%% TeX-master: t
%%% End:
FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>