--- storage/names/file-format.tex 2003/06/24 14:15:07 1.1 +++ storage/names/file-format.tex 2003/08/15 22:29:00 1.6 @@ -1,4 +1,4 @@ -\documentclass[a4paper, abstracton]{scrartcl} +\documentclass[a4paper]{article} \usepackage{ngerman} @@ -11,12 +11,14 @@ % create in-text links in black (with PDF) %\usepackage[colorlinks=true,linkcolor=black]{hyperref} % Format URLs nicely (without PDF) -%\usepackage{url} +\usepackage{url} \title{Ablage von Massendaten im Archiv- und Backupsystem} \author{Dirk Wintergrün, Robert Casties} +\date{V0.9.4 of \today} + \begin{document} \maketitle @@ -33,27 +35,27 @@ \label{sec:datentypen-fur-die} -Die in diesem Dokument definierten Regeln gelten für -\footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)} +Die in diesem Dokument definierten Regeln gelten +für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.} \begin{description} -\item[Archivdaten], die innerhalb der Digitalisierungsprojekte des +\item[Archivdaten] die innerhalb der Digitalisierungsprojekte des Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne ständigen Zugriff langfristig gesichert werden sollen (Pfad: - archive/data) + \url{archive/data}) -\item[Präsentationsdaten], die über das Internet verfügbar gemacht werden - sollen und deren URL bzw. URI langfristig stabil gehalten werden - sollen (Pfad: \texttt{online/permanent}) +\item[Langfristige Präsentationsdaten] die über das Internet verfügbar + gemacht werden sollen und deren URL bzw. URI langfristig stabil + gehalten werden sollen (Pfad: \url{online/permanent}) -\item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig - online verfügbar sein sollen (Pfad: \texttt{online/experimental}) +\item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig + online verfügbar sein sollen (Pfad: \url{online/experimental}) -\item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von +\item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von Kooperationsprojekten gehalten werden und auf die ständiger Zugriff - z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad: - \texttt{mirrors}) + z.B. zum Zweck der Synchronisation notwendig ist.(Pfad: + \url{mirrors}) \end{description} @@ -61,49 +63,50 @@ Die in diesem Dokument definierten Regel \label{sec:zugang-zum-server} Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver -\texttt{foxridge}, der physikalisch am FHI beheimatet ist. - -Zugang per FTP, SCP, SFTP über: - -\texttt{foxridge.mpiwg-berlin.mpg.de} - -Zugang zu den Daten in den Verzeichnissen -\texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent}, -\texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors} - -Zugang per Appletalk (AFP) über: - -Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} - -Zugang zu den Daten über die Freigaben \texttt{archive\_data}, -\texttt{online\_permanent}, \texttt{online\_experimental} und -\texttt{mirrors} +\texttt{foxridge}, der physisch am FHI steht. +\begin{itemize} +\item Zugang per FTP, SCP, SFTP über: + \url{foxridge.mpiwg-berlin.mpg.de} \\ + Zugang zu den Daten in den Verzeichnissen + \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent}, + \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors} + +\item Zugang per Appletalk (AFP) über: Auswahl des Servers + \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\ + Zugang zu den Daten über die Freigaben \url{archive\_data}, + \url{online\_permanent}, \url{online\_experimental} und + \url{mirrors} +\end{itemize} \section{Benutzerkennung} \label{sec:benutzerkennung} Benutzerkennungen und Passworte für die Ablage der Massendaten werden -projektspezifisch vergeben. +projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der + Zugriffsrechte fehlt noch.} \section{Erlaubte Zeichen in Datei- und Ordnernamen} \label{sec:erla-zeich-datei} Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"', -"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. +"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. Es +wird empfohlen für Datei- und Ordnernamen ausschliesslich +Kleinschreibung zu verwenden. \section{Ablage von Archivdaten} \label{sec:ablage-von-arch} -Archivdaten werden nur temporär auf dem Server gehalten und dann auf -Band gesichert. Auf Foxridge ist dafür der Pfad +Archivdaten werden nur temporär auf der Festplatte des Servers +gehalten. Nach der Archivierung auf Magnetbänder werden sie von der +Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad -\texttt{/mpiwg/archive/data} bzw \texttt{archive\_data} +\url{/mpiwg/archive/data} bzw \url{archive_data} -vorgesehen. +\noindent vorgesehen. \subsection{Erste Ebene: Projekte} @@ -112,159 +115,281 @@ vorgesehen. Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit dem Namen des Projektes angelegt: -\texttt{archive/data/PROJEKTNAME} +\url{archive/data/PROJEKTNAME} + +\noindent Bsp: das Humboldtprojekt -Bsp: das Humboldtprojekt +\url{archive/data/humboldt} -\texttt{archive/data/humboldt} +\noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig, +weitere Unterordner zur Untergliederung der Dokumente anlegen. \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte, Bücher)} \label{sec:zweite-eben-dokum} -Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen: +Für jedes abzulegende Dokument wird unterhalb des Projektordners ein +weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten +bestehen, wird folgende Bennenung +vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils + obligatorisch.} -\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year} +\url{AUTHOR_TITLE_sernr_lang_year} -Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch +\noindent Also z.B. -\begin{table}[htbp] +\url{humbo_endec_01_de_1803} -\begin{tabular}{lll} -&&Beispiel:\\ \hline +\noindent Siehe dazu Tabelle~\ref{tab:benennung}. -AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\ +\begin{table}[htbp] +\center +\begin{tabular}{lp{0.6\textwidth}l} +Feld & Erklärung & Beispiel\\ \hline -TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\ +\texttt{AUTHOR} & Autor, Vorschlag 5 stellig (falls nicht vorhanden "`anon."') & \texttt{humbo}\\ -SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\ +\texttt{TITLE} & Abkürzung des Titels, Vorschlag 5 stellig & \texttt{endec}\\ -lang&Sprache in der zweistelligen ISO-Codierung&de\\ +\texttt{sernr} & Seriennummer, falls AUTHOR und TITLE nicht eindeutig, +beginnend mit 01, zweistellig & 01\\ -year&Erscheinungsjahr, vierstellig&1803 +\texttt{lang} & Sprache in der zweistelligen ISO-Kodierung\footnotemark & \texttt{de}\\ +\texttt{year} & Erscheinungsjahr, vierstellig & 1803 \end{tabular} \caption{Benennung Ordner} \label{tab:benennung} \end{table} -Tabelle 1: Benennung Ordner - +\footnotetext{\url{http://www.loc.gov/standards/iso639-2/englangn.html}} \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)} \label{sec:dritte-eben-unter} -Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt: +Innerhalb des Dokumentenordners werden weitere Unterordner für den +jeweiligen Datentyp angelegt: +\url{TYPE} -\begin{table}[htbp] - \centering - \begin{tabular}{lll} -&Benennung&\\ \hline +\noindent oder -für die Images (verpflichtend)&id-sernr-TYPE\\ - - - -oder\\ +\url{id-sernr-TYPE} +\begin{description} +\item[id] eine eindeutige ID des Dokumentes (dreistellig), die + innerhalb des Projektes vergeben wird +\item[sernr] eine Seriennummer falls mehrere +Imagesätze zu einem Dokument gehören -TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\ +\item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder + \url{pageimg} bei Scans einzelner Seiten oder \url{ocr} für + OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu den + Dateien in den anderen Ordnern. +\end{description} -weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\ +\noindent Ausserdem liegt in jedem Dokumentenordner eine Datei: +\url{index.meta} +\noindent die Metadaten zum Ordner selbst enthält. Das Format dieser +Metadaten"=Datei ist im Dokument "`A simple metadata format for +resource bundles"'\footnote{\url{http://pythia/projects/storagesystem/metadaten.html}} beschrieben. -oder\\ +\subsection{Vierte Ebene: Dateien in den Ordnern} +\label{sec:vierte-eben-date} +Für Dateinamen gilt als Midestanforderung, dass die Dateiendung den +Dateityp anzeigt und die alphabetische Ordnung der Namen der +Reihenfolge der Daten entspricht. Nummerierte Dateien sollten daher +Namen mit führenden Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen +wird folgende Bennung: + +\url{id-sernr-imagenumber.SUFFIX} + +\noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des +Ordners übereinstimmen. Imagenummer ist eine vierstellige Zahl. Das +Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von +Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}. -TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\ +\begin{table}[htbp] + \centering + \begin{tabular}{ll} -Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern + suffix & Dateityp\\ \hline + \texttt{jpg} & JPEG-Bilddateien\\ + + \texttt{tif} & TIFF-Bilddateien \\ + + \texttt{png} & PNG-Bilddateien \end{tabular} - \caption{Benennung Unterordner} - \label{tab:unter} + \caption{Dateiendungen} + \label{tab:benennung-dateien} \end{table} -Tabelle 2: Ordner - - - -Ausserdem liegt in jedem Dokumentenordner eine Datei: -index.meta - -die die Metadaten zum Ordner selbst enthält. - - -\subsection{Vierte Ebene: Dateien in den Ordnern} -\label{sec:vierte-eben-date} - -Minimal müssen die Dateinamen so sein, dass ihre alphanumerische -Ordnung der Ordnung der Daten entspricht. Insbesondere sollten -nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten. +\section{Ablage der Onlinedaten} +\label{sec:ablage-der-onlin} -Das Suffix muss den Dateityp angeben. +Für Daten die für die direkte Präsentation im Netz vorgesehen sind, +werden auf foxridge zwei Pfade angeboten: -\begin{table}[htbp] - \centering - \begin{tabular}{ll} +\url{online/experimental} -suffix&Dateityp\\ \hline +\noindent und -jpg&jpg-Bilddateien\\ +\url{online/permanent} -tif&tif-Format nicht komprimiert\\ +\noindent Für Dokumente, die nur temporär präsentiert werden sollen, +ist \url{online/eperimental} vorgesehen. Pfade innerhalb dieses +Bereiches können verändert und gelöscht werden. -png&png +Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist +\url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen +nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben +oder umbenannt werden. - \end{tabular} - \caption{Benennung Dateien} -\label{tab:benennung-dateien} -\end{table} +Die interne Struktur der Projekt- und Dokumentordner in +\url{online/permanent} entspricht der in +Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von +\url{archive/data}. -Empfohlen wird folgende Bennung: -\texttt{id-sernr-imagenumber.suffx} +\section{Workflow für die Übergabe von gescannten Texten} +\label{sec:workflow-fur-die} -wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. - -Übersicht: +Größere Mengen von Büchern und Manuskripten werden von der +Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt. +Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen +Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate +werden zunächst in drei verschiedenen Formen erzeugt: +\begin{itemize} +\item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner, + ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die + weitere Nutzung durch Andere gedacht und sollen nur archiviert + werden. + +\item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie + Farbkorrektur und Schärfung. Diese Dateien sind für die weitere + Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert + werden. + +\item Als \emph{Online-Image} in reduzierter Auflösung für die + Online-Präsentation. Diese Dateien können ebenfalls durch andere + Projekte genutzt werden und müssen online zur Verfügung stehen. +\end{itemize} + +Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden +von der Digigruppe selbständig durchgeführt. Für den Workflow der +Übergabe der Bilddaten an die Projekte ergeben sich verschiedene +Anforderungen: + +\begin{itemize} +\item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die + Dateien kopiert, wie werden Verzeichnisse und Dateien benannt? +\item Die Daten müssen archiviert werden. +\item Online-Versionen der Daten sollten möglichst schnell zur Verfügung + stehen und über einen allgemeinen Katalog gefunden werden können. + +\item Daten sollten nach Möglichkeit nicht kopiert und doppelt + abgelegt werden. +\end{itemize} + +Der Workflow der Ablage der Daten ist abhängig davon ob die Scans im +Auftrag eines etablierten Projektes durchgeführt wurden. In diesem +Fall werden die Roh- und User"=Images von der Digigruppe in +entsprechenden Unterordnern der jeweiligen Projektordner abgelegt +(Abschnitt~\ref{sec:ablage-bei-den}). Wenn die Scans im Auftrag +einzelner Wissenschaftler oder auf Initiative der Bibliothek erstellt +wurden, werden sie in der \url{library} Hierarchie abgelegt +(Abschnitt~\ref{sec:ablage-libr-proj}) + + +\subsection{Ablage in "`library"' Projekt} +\label{sec:ablage-libr-proj} + +\begin{enumerate} +\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten + oder Bereichen für Bewegungsdaten. + +\item Die Digigruppe kopiert Roh-Images und User-Images in einen + Dokumenten-Ordner nach der Namenskonvention + (\url{AUTHOR_TITLE_SERNR_lang_year}) im Bereich + \url{archive/data/library}. Roh-Images werden in einem + Unterordner \url{raw} abgelegt und User-Images in \url{img}. + +\item Die Digigruppe startet eine Prä-Migration der Daten (Roh- und + User"=images) ins Bandarchiv. Die Daten werden auf Band kopiert aber + (nach Maßgabe des verfügbaren Speicherplatzes) noch nicht von der + Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images + bereits von der Platte gelöscht während die User-Daten erhalten + bleiben.} +\item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag) + über den Ablageort der Daten. + +\item Der Auftraggeber verwendet die User-Images. Veränderte Formen + der Images erstellt und archiviert der Auftraggeber in seiner + eigenen Projekt"=Hierarchie. + +\item Der Auftraggeber veranlasst die vollständige Migration (Löschung + von der Festplatte) der von der Digigruppe erstellten Daten sobald + sie nicht mehr direkt verwendet werden. +\end{enumerate} -\section{Ablage der Onlinedaten} -\label{sec:ablage-der-onlin} +\subsection{Ablage bei den Projekten} +\label{sec:ablage-bei-den} + +\begin{enumerate} +\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten + oder Bereichen für Bewegungsdaten. + +\item Die Digigruppe kopiert Roh-Images und User-Images in einen + Dokumenten"=Ordner nach der Namenskonvention + (Abschnitt~\ref{sec:zweite-eben-dokum}), der sich in einem mit dem + Projekt abgesprochenen Bereich des Projektes befindet, z.B. + \url{archive/data/PROJEKT/literature}. Roh"=Images werden in einem + Unterordner \url{raw} abgelegt und User-Images in \url{img}. -Für Daten die für die direkte Präsentation im Netz vorgesehen sind, -werden auf foxridge zwei Pfade angeboten +\item Die Digigruppe benachrichtigt das entsprechende Projekt über den + Aufenthaltsort der Daten. -\texttt{online/experimental} +\item Das Projekt verwendet die User-Images und archiviert + weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie. + +\item Das Projekt veranlasst die vollständige Archivierung und + Migration der Daten sobald sie nicht mehr direkt verwendet werden. +\end{enumerate} -und -\texttt{online/permanent} +\subsection{Ablage der Online-Images} +\label{sec:ablage-der-online} -\texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur -temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches -können verändert und gelöscht werden. +Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache +mit dem Projekt -\texttt{online/permanent} ist für Dokumente die auf längere Zeit im -Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert -oder gelöscht werden, Dokumente dürfen nicht verschoben werden. +\begin{itemize} +\item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn + es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist + +\item als fertige Images im Archivbereich bei den User-Images in einem + Ordner \url{jpg} zur Nutzung durch das Projekt in seinem + Online-Bereich + +\item für Projekte, die selbst weiter verarbeitete Online-Images zur + Verfügung stellen werden keine Online-Images erzeugt. +\end{itemize} -Die interne Struktur der Dokumentordner in \texttt{online/permanent} -entspricht der oben dargestellten Struktur innerhalb von -\texttt{archive/data}.