\documentclass[a4paper, abstracton]{scrartcl} \usepackage{ngerman} \usepackage[latin1]{inputenc} \usepackage[T1]{fontenc} \usepackage{ae} %\usepackage{times} %\usepackage{courier} % create in-text links in black (with PDF) %\usepackage[colorlinks=true,linkcolor=black]{hyperref} % Format URLs nicely (without PDF) %\usepackage{url} \title{Ablage von Massendaten im Archiv- und Backupsystem} \author{Dirk Wintergrün, Robert Casties} \begin{document} \maketitle \begin{abstract} In diesem Dokument werden die Ablage von Massendaten auf dem zentralen Archiv- und Filesystem des MPIWG beschrieben \end{abstract} \tableofcontents \section{Datentypen für die dieses Dokument gilt} \label{sec:datentypen-fur-die} Die in diesem Dokument definierten Regeln gelten für \footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)} \begin{description} \item[Archivdaten], die innerhalb der Digitalisierungsprojekte des Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne ständigen Zugriff langfristig gesichert werden sollen (Pfad: archive/data) \item[Präsentationsdaten], die über das Internet verfügbar gemacht werden sollen und deren URL bzw. URI langfristig stabil gehalten werden sollen (Pfad: \texttt{online/permanent}) \item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig online verfügbar sein sollen (Pfad: \texttt{online/experimental}) \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von Kooperationsprojekten gehalten werden und auf die ständiger Zugriff z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad: \texttt{mirrors}) \end{description} \section{Zugang zum Server} \label{sec:zugang-zum-server} Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver \texttt{foxridge}, der physikalisch am FHI beheimatet ist. Zugang per FTP, SCP, SFTP über: \texttt{foxridge.mpiwg-berlin.mpg.de} Zugang zu den Daten in den Verzeichnissen \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent}, \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors} Zugang per Appletalk (AFP) über: Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} Zugang zu den Daten über die Freigaben \texttt{archive\_data}, \texttt{online\_permanent}, \texttt{online\_experimental} und \texttt{mirrors} \section{Benutzerkennung} \label{sec:benutzerkennung} Benutzerkennungen und Passworte für die Ablage der Massendaten werden projektspezifisch vergeben. \section{Erlaubte Zeichen in Datei- und Ordnernamen} \label{sec:erla-zeich-datei} Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"', "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. \section{Ablage von Archivdaten} \label{sec:ablage-von-arch} Archivdaten werden nur temporär auf dem Server gehalten und dann auf Band gesichert. Auf Foxridge ist dafür der Pfad \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data} vorgesehen. \subsection{Erste Ebene: Projekte} \label{sec:erste-eben-proj} Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit dem Namen des Projektes angelegt: \texttt{archive/data/PROJEKTNAME} Bsp: das Humboldtprojekt \texttt{archive/data/humboldt} \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte, Bücher)} \label{sec:zweite-eben-dokum} Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen: \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year} Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch \begin{table}[htbp] \begin{tabular}{lll} &&Beispiel:\\ \hline AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\ TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\ SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\ lang&Sprache in der zweistelligen ISO-Codierung&de\\ year&Erscheinungsjahr, vierstellig&1803 \end{tabular} \caption{Benennung Ordner} \label{tab:benennung} \end{table} Tabelle 1: Benennung Ordner \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)} \label{sec:dritte-eben-unter} Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt: \begin{table}[htbp] \centering \begin{tabular}{lll} &Benennung&\\ \hline für die Images (verpflichtend)&id-sernr-TYPE\\ oder\\ TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\ weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\ oder\\ TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\ Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern \end{tabular} \caption{Benennung Unterordner} \label{tab:unter} \end{table} Tabelle 2: Ordner Ausserdem liegt in jedem Dokumentenordner eine Datei: index.meta die die Metadaten zum Ordner selbst enthält. \subsection{Vierte Ebene: Dateien in den Ordnern} \label{sec:vierte-eben-date} Minimal müssen die Dateinamen so sein, dass ihre alphanumerische Ordnung der Ordnung der Daten entspricht. Insbesondere sollten nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten. Das Suffix muss den Dateityp angeben. \begin{table}[htbp] \centering \begin{tabular}{ll} suffix&Dateityp\\ \hline jpg&jpg-Bilddateien\\ tif&tif-Format nicht komprimiert\\ png&png \end{tabular} \caption{Benennung Dateien} \label{tab:benennung-dateien} \end{table} Empfohlen wird folgende Bennung: \texttt{id-sernr-imagenumber.suffx} wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Übersicht: \section{Ablage der Onlinedaten} \label{sec:ablage-der-onlin} Für Daten die für die direkte Präsentation im Netz vorgesehen sind, werden auf foxridge zwei Pfade angeboten \texttt{online/experimental} und \texttt{online/permanent} \texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches können verändert und gelöscht werden. \texttt{online/permanent} ist für Dokumente die auf längere Zeit im Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben werden. Die interne Struktur der Dokumentordner in \texttt{online/permanent} entspricht der oben dargestellten Struktur innerhalb von \texttt{archive/data}. \end{document} %%% Local Variables: %%% mode: latex %%% TeX-master: t %%% End: