\documentclass[a4paper, abstracton]{article} \usepackage{ngerman} \usepackage[latin1]{inputenc} \usepackage[T1]{fontenc} \usepackage{ae} %\usepackage{times} %\usepackage{courier} % create in-text links in black (with PDF) %\usepackage[colorlinks=true,linkcolor=black]{hyperref} % Format URLs nicely (without PDF) %\usepackage{url} \title{Ablage von Massendaten im Archiv- und Backupsystem} \author{Dirk Wintergrün, Robert Casties} \date{V0.9.3 \today} \begin{document} \maketitle \begin{abstract} In diesem Dokument werden die Ablage von Massendaten auf dem zentralen Archiv- und Filesystem des MPIWG beschrieben \end{abstract} \tableofcontents \section{Datentypen für die dieses Dokument gilt} \label{sec:datentypen-fur-die} Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.} \begin{description} \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne ständigen Zugriff langfristig gesichert werden sollen (Pfad: \texttt{archive/data}) \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden sollen und deren URL bzw. URI langfristig stabil gehalten werden sollen (Pfad: \texttt{online/permanent}) \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig online verfügbar sein sollen (Pfad: \texttt{online/experimental}) \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von Kooperationsprojekten gehalten werden und auf die ständiger Zugriff z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad: \texttt{mirrors}) \end{description} \section{Zugang zum Server} \label{sec:zugang-zum-server} Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver \texttt{foxridge}, der physisch am FHI steht. \begin{itemize} \item Zugang per FTP, SCP, SFTP über: \texttt{foxridge.mpiwg-berlin.mpg.de} \\ Zugang zu den Daten in den Verzeichnissen \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent}, \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors} \item Zugang per Appletalk (AFP) über: Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\ Zugang zu den Daten über die Freigaben \texttt{archive\_data}, \texttt{online\_permanent}, \texttt{online\_experimental} und \texttt{mirrors} \end{itemize} \section{Benutzerkennung} \label{sec:benutzerkennung} Benutzerkennungen und Passworte für die Ablage der Massendaten werden projektspezifisch vergeben. \section{Erlaubte Zeichen in Datei- und Ordnernamen} \label{sec:erla-zeich-datei} Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"', "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. \section{Ablage von Archivdaten} \label{sec:ablage-von-arch} Archivdaten werden nur temporär auf der Festplatte des Servers gehalten. Nach der Archivierung auf Band werden sie von der Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data} \noindent vorgesehen. \subsection{Erste Ebene: Projekte} \label{sec:erste-eben-proj} Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit dem Namen des Projektes angelegt: \texttt{archive/data/PROJEKTNAME} \noindent Bsp: das Humboldtprojekt \texttt{archive/data/humboldt} \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte, Bücher)} \label{sec:zweite-eben-dokum} Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten bestehen, wird folgende Bennenung vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils obligatorisch.} \texttt{AUTHOR\_TITLE\_sernr\_lang\_year} \noindent Siehe dazu Tabelle~\ref{tab:benennung}. \begin{table}[htbp] \center \begin{tabular}{lp{0.6\textwidth}l} Feld & Erklärung & Beispiel\\ \hline AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\ TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\ sernr & Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig\\ lang & Sprache in der zweistelligen ISO-Codierung & de\\ year & Erscheinungsjahr, vierstellig & 1803 \end{tabular} \caption{Benennung Ordner} \label{tab:benennung} \end{table} \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)} \label{sec:dritte-eben-unter} Innerhalb des Dokumentenordners werden weitere Unterordner für den jeweiligen Datentyp angelegt: \texttt{TYPE} \noindent oder \texttt{id-sernr-TYPE} \begin{description} \item[id] beschreibt eine eindeutige ID des Dokumentes (dreistellig) \item[sernr] eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den Dateien in den anderen Ordnern. \end{description} \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei: \texttt{index.meta} \noindent die Metadaten zum Ordner selbst enthält. \subsection{Vierte Ebene: Dateien in den Ordnern} \label{sec:vierte-eben-date} Für Dateinamen gilt als Midestanforderung, dass die alphabetische Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte Dateien sollten Namen mit führenden Nullen erhalten, z.B. \texttt{00001.jpg}. Empfohlen wird folgende Bennung: \texttt{id-sernr-imagenumber.SUFFIX} \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}. \begin{table}[htbp] \centering \begin{tabular}{ll} suffix & Dateityp\\ \hline jpg & JPEG-Bilddateien\\ tif & TIFF-Bilddateien \\ png & PNG-Bilddateien \end{tabular} \caption{Dateiendungen} \label{tab:benennung-dateien} \end{table} \section{Ablage der Onlinedaten} \label{sec:ablage-der-onlin} Für Daten die für die direkte Präsentation im Netz vorgesehen sind, werden auf foxridge zwei Pfade angeboten: \texttt{online/experimental} \noindent und \texttt{online/permanent} \noindent Für Dokumente, die nur temporär präsentiert werden sollen, ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses Bereiches können verändert und gelöscht werden. Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben werden. Die interne Struktur der Dokumentordner in \texttt{online/permanent} entspricht der oben dargestellten Struktur von \texttt{archive/data}. \section{Workflow für die Übergabe von gescannten Texten} \label{sec:workflow-fur-die} Größere Mengen von Büchern und Manuskripten werden von der Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt. Diese Digitalisierungen erfolgen im Auftrag einzelner Projekte oder auf eigene Initiative der Bibliothek. Die Digitalisate werden zunächst in drei verschiedenen Formen erzeugt: \begin{itemize} \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner, ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die weitere Nutzung durch Andere gedacht und sollen nur archiviert werden. \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie Farbkorrektur und Schärfung. Diese Dateien sind für die weitere Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert werden. \item Als \emph{Online-Image} in reduzierter Auflösung für die Online-Präsentation. Diese Dateien können ebenfalls durch andere Projekte genutzt werden und müssen online zur Verfügung stehen. \end{itemize} Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden von der Digigruppe selbständig durchgeführt. Für den Workflow der Übergabe der Bilddaten an die Projekte ergeben sich verschiedene Anforderungen: \begin{itemize} \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die Dateien kopiert, wie werden Verzeichnisse und Dateien benannt? \item Die Daten müssen archiviert werden. \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung stehen und über einen allgemeinen Katalog gefunden werden können. \item Daten sollten nach Möglichkeit nicht kopiert und doppelt abgelegt werden. \end{itemize} Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der Roh- und User-Images durch die Digigruppe in einer eigenen \texttt{library} Hierarchie oder die Ablage durch die Digigruppe in entsprechenden Unterordnern der jeweiligen Projekte. \subsection{Ablage in "`library"' Projekt} \label{sec:ablage-libr-proj} \begin{enumerate} \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten oder Bereichen für Bewegungsdaten. \item Die Digigruppe kopiert Roh-Images und User-Images in einen Dokumenten-Ordner nach der Namenskonvention (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich \texttt{archive/data/library}. Roh-Images werden in einem Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}. \item Die Digigruppe startet eine Prä-Migration der Daten ins Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des verfügbaren Speicherplatzes) noch nicht von der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images bereits von der Platte gelöscht während die User-Daten erhalten bleiben.} \item Die Digigruppe benachrichtigt das entsprechende Projekt über den Aufenthaltsort der Daten. \item Das Projekt verwendet die User-Images und archiviert weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie. \item Das Projekt veranlasst die vollständige Migration der User-Images (Löschung von der Festplatte) sobald die Daten nicht mehr direkt verwendet werden. \end{enumerate} \subsection{Ablage bei den Projekten} \label{sec:ablage-bei-den} \begin{enumerate} \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten oder Bereichen für Bewegungsdaten. \item Die Digigruppe kopiert Roh-Images und User-Images in einen Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B. \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}. \item Die Digigruppe benachrichtigt das entsprechende Projekt über den Aufenthaltsort der Daten. \item Das Projekt verwendet die User-Images und archiviert weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie. \item Das Projekt veranlasst die vollständige Migration der Daten sobald sie nicht mehr direkt verwendet werden. \end{enumerate} \subsection{Ablage der Online-Images} \label{sec:ablage-der-online} Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache mit dem Projekt \begin{itemize} \item als fertige Images in der Online-Hierarchie der Bibliothek, wenn es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist \item als fertige Images im Archivbereich bei den User-Images in einem Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem Online-Bereich \item für Projekte, die selbst weiter verarbeitete Online-Images zur Verfügung stellen werden keine Online-Images erzeugt. \end{itemize} \end{document} %%% Local Variables: %%% mode: latex %%% TeX-master: t %%% End: