\documentclass[a4paper, abstracton]{article} \usepackage{ngerman} \usepackage[latin1]{inputenc} \usepackage[T1]{fontenc} \usepackage{ae} %\usepackage{times} %\usepackage{courier} % create in-text links in black (with PDF) %\usepackage[colorlinks=true,linkcolor=black]{hyperref} % Format URLs nicely (without PDF) %\usepackage{url} \title{Ablage von Massendaten im Archiv- und Backupsystem} \author{Dirk Wintergrün, Robert Casties} \begin{document} \maketitle \begin{abstract} In diesem Dokument werden die Ablage von Massendaten auf dem zentralen Archiv- und Filesystem des MPIWG beschrieben \end{abstract} \tableofcontents \section{Datentypen für die dieses Dokument gilt} \label{sec:datentypen-fur-die} Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.} \begin{description} \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne ständigen Zugriff langfristig gesichert werden sollen (Pfad: \texttt{archive/data}) \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden sollen und deren URL bzw. URI langfristig stabil gehalten werden sollen (Pfad: \texttt{online/permanent}) \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig online verfügbar sein sollen (Pfad: \texttt{online/experimental}) \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von Kooperationsprojekten gehalten werden und auf die ständiger Zugriff z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad: \texttt{mirrors}) \end{description} \section{Zugang zum Server} \label{sec:zugang-zum-server} Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver \texttt{foxridge}, der physisch am FHI steht. \begin{itemize} \item Zugang per FTP, SCP, SFTP über: \texttt{foxridge.mpiwg-berlin.mpg.de} \\ Zugang zu den Daten in den Verzeichnissen \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent}, \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors} \item Zugang per Appletalk (AFP) über: Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\ Zugang zu den Daten über die Freigaben \texttt{archive\_data}, \texttt{online\_permanent}, \texttt{online\_experimental} und \texttt{mirrors} \end{itemize} \section{Benutzerkennung} \label{sec:benutzerkennung} Benutzerkennungen und Passworte für die Ablage der Massendaten werden projektspezifisch vergeben. \section{Erlaubte Zeichen in Datei- und Ordnernamen} \label{sec:erla-zeich-datei} Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"', "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. \section{Ablage von Archivdaten} \label{sec:ablage-von-arch} Archivdaten werden nur temporär auf der Festplatte des Servers gehalten. Nach der Archivierung auf Band werden sie von der Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data} \noindent vorgesehen. \subsection{Erste Ebene: Projekte} \label{sec:erste-eben-proj} Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit dem Namen des Projektes angelegt: \texttt{archive/data/PROJEKTNAME} \noindent Bsp: das Humboldtprojekt \texttt{archive/data/humboldt} \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte, Bücher)} \label{sec:zweite-eben-dokum} Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten bestehen, wird folgende Bennenung vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils obligatorisch.} \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year} \noindent Siehe dazu Tabelle~\ref{tab:benennung}. \begin{table}[htbp] \center \begin{tabular}{lp{0.6\textwidth}l} Feld & Erklärung & Beispiel\\ \hline AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\ TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\ SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01. & 01\\ lang & Sprache in der zweistelligen ISO-Codierung & de\\ year & Erscheinungsjahr, vierstellig & 1803 \end{tabular} \caption{Benennung Ordner} \label{tab:benennung} \end{table} \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)} \label{sec:dritte-eben-unter} Innerhalb des Dokumentenordners werden weitere Unterordner für den jeweiligen Datentyp angelegt: \texttt{TYPE} \noindent oder \texttt{id-sernr-TYPE} \begin{description} \item[id] beschreibt eine eindeutige ID des Dokumentes (dreistellig) \item[sernr] eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den Dateien in den anderen Ordnern. \end{description} \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei: \texttt{index.meta} \noindent die Metadaten zum Ordner selbst enthält. \subsection{Vierte Ebene: Dateien in den Ordnern} \label{sec:vierte-eben-date} Für Dateinamen gilt als Midestanforderung, dass die alphabetische Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte Dateien sollten Namen mit führenden Nullen erhalten, z.B. \texttt{00001.jpg}. Empfohlen wird folgende Bennung: \texttt{id-sernr-imagenumber.SUFFIX} \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}. \begin{table}[htbp] \centering \begin{tabular}{ll} suffix & Dateityp\\ \hline jpg & JPEG-Bilddateien\\ tif & TIFF-Bilddateien \\ png & PNG-Bilddateien \end{tabular} \caption{Dateiendungen} \label{tab:benennung-dateien} \end{table} \section{Ablage der Onlinedaten} \label{sec:ablage-der-onlin} Für Daten die für die direkte Präsentation im Netz vorgesehen sind, werden auf foxridge zwei Pfade angeboten: \texttt{online/experimental} \noindent und \texttt{online/permanent} \noindent Für Dokumente, die nur temporär präsentiert werden sollen, ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses Bereiches können verändert und gelöscht werden. Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben werden. Die interne Struktur der Dokumentordner in \texttt{online/permanent} entspricht der oben dargestellten Struktur von \texttt{archive/data}. \end{document} %%% Local Variables: %%% mode: latex %%% TeX-master: t %%% End: