--- storage/names/file-format.tex 2003/07/23 09:31:16 1.5 +++ storage/names/file-format.tex 2003/08/15 22:29:00 1.6 @@ -1,4 +1,4 @@ -\documentclass[a4paper, abstracton]{article} +\documentclass[a4paper]{article} \usepackage{ngerman} @@ -11,13 +11,13 @@ % create in-text links in black (with PDF) %\usepackage[colorlinks=true,linkcolor=black]{hyperref} % Format URLs nicely (without PDF) -%\usepackage{url} +\usepackage{url} \title{Ablage von Massendaten im Archiv- und Backupsystem} \author{Dirk Wintergrün, Robert Casties} -\date{V0.9.3 \today} +\date{V0.9.4 of \today} \begin{document} @@ -35,26 +35,27 @@ \label{sec:datentypen-fur-die} -Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.} +Die in diesem Dokument definierten Regeln gelten +für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.} \begin{description} \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne ständigen Zugriff langfristig gesichert werden sollen (Pfad: - \texttt{archive/data}) + \url{archive/data}) -\item[Präsentationsdaten] die über das Internet verfügbar gemacht werden - sollen und deren URL bzw. URI langfristig stabil gehalten werden - sollen (Pfad: \texttt{online/permanent}) +\item[Langfristige Präsentationsdaten] die über das Internet verfügbar + gemacht werden sollen und deren URL bzw. URI langfristig stabil + gehalten werden sollen (Pfad: \url{online/permanent}) -\item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig - online verfügbar sein sollen (Pfad: \texttt{online/experimental}) +\item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig + online verfügbar sein sollen (Pfad: \url{online/experimental}) -\item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von +\item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von Kooperationsprojekten gehalten werden und auf die ständiger Zugriff - z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad: - \texttt{mirrors}) + z.B. zum Zweck der Synchronisation notwendig ist.(Pfad: + \url{mirrors}) \end{description} @@ -66,16 +67,16 @@ Die Ablage aller genannter Dokumente erf \begin{itemize} \item Zugang per FTP, SCP, SFTP über: - \texttt{foxridge.mpiwg-berlin.mpg.de} \\ + \url{foxridge.mpiwg-berlin.mpg.de} \\ Zugang zu den Daten in den Verzeichnissen - \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent}, - \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors} + \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent}, + \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors} \item Zugang per Appletalk (AFP) über: Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\ - Zugang zu den Daten über die Freigaben \texttt{archive\_data}, - \texttt{online\_permanent}, \texttt{online\_experimental} und - \texttt{mirrors} + Zugang zu den Daten über die Freigaben \url{archive\_data}, + \url{online\_permanent}, \url{online\_experimental} und + \url{mirrors} \end{itemize} @@ -83,24 +84,27 @@ Die Ablage aller genannter Dokumente erf \label{sec:benutzerkennung} Benutzerkennungen und Passworte für die Ablage der Massendaten werden -projektspezifisch vergeben. +projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der + Zugriffsrechte fehlt noch.} \section{Erlaubte Zeichen in Datei- und Ordnernamen} \label{sec:erla-zeich-datei} Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"', -"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. +"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. Es +wird empfohlen für Datei- und Ordnernamen ausschliesslich +Kleinschreibung zu verwenden. \section{Ablage von Archivdaten} \label{sec:ablage-von-arch} Archivdaten werden nur temporär auf der Festplatte des Servers -gehalten. Nach der Archivierung auf Band werden sie von der Festplatte -gelöscht. Für Archivdaten ist auf Foxridge der Pfad +gehalten. Nach der Archivierung auf Magnetbänder werden sie von der +Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad -\texttt{/mpiwg/archive/data} bzw \texttt{archive\_data} +\url{/mpiwg/archive/data} bzw \url{archive_data} \noindent vorgesehen. @@ -111,24 +115,31 @@ gelöscht. Für Archivdaten ist auf Foxrid Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit dem Namen des Projektes angelegt: -\texttt{archive/data/PROJEKTNAME} +\url{archive/data/PROJEKTNAME} \noindent Bsp: das Humboldtprojekt -\texttt{archive/data/humboldt} +\url{archive/data/humboldt} + +\noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig, +weitere Unterordner zur Untergliederung der Dokumente anlegen. \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte, Bücher)} \label{sec:zweite-eben-dokum} -Für jedes abzulegende Dokument wird innerhalb des Projektordners ein +Für jedes abzulegende Dokument wird unterhalb des Projektordners ein weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten bestehen, wird folgende Bennenung vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils obligatorisch.} -\texttt{AUTHOR\_TITLE\_sernr\_lang\_year} +\url{AUTHOR_TITLE_sernr_lang_year} + +\noindent Also z.B. + +\url{humbo_endec_01_de_1803} \noindent Siehe dazu Tabelle~\ref{tab:benennung}. @@ -137,21 +148,21 @@ vorgeschlagen:\footnote{Großgeschriebe A \begin{tabular}{lp{0.6\textwidth}l} Feld & Erklärung & Beispiel\\ \hline -AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\ +\texttt{AUTHOR} & Autor, Vorschlag 5 stellig (falls nicht vorhanden "`anon."') & \texttt{humbo}\\ -TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\ +\texttt{TITLE} & Abkürzung des Titels, Vorschlag 5 stellig & \texttt{endec}\\ -sernr & Seriennummer, falls AUTHOR und TITLE nicht eindeutig, -beginnend mit 01, zweistellig\\ +\texttt{sernr} & Seriennummer, falls AUTHOR und TITLE nicht eindeutig, +beginnend mit 01, zweistellig & 01\\ -lang & Sprache in der zweistelligen ISO-Codierung & de\\ +\texttt{lang} & Sprache in der zweistelligen ISO-Kodierung\footnotemark & \texttt{de}\\ -year & Erscheinungsjahr, vierstellig & 1803 +\texttt{year} & Erscheinungsjahr, vierstellig & 1803 \end{tabular} \caption{Benennung Ordner} \label{tab:benennung} \end{table} - +\footnotetext{\url{http://www.loc.gov/standards/iso639-2/englangn.html}} @@ -161,44 +172,47 @@ year & Erscheinungsjahr, vierstellig & 1 Innerhalb des Dokumentenordners werden weitere Unterordner für den jeweiligen Datentyp angelegt: -\texttt{TYPE} +\url{TYPE} \noindent oder -\texttt{id-sernr-TYPE} +\url{id-sernr-TYPE} \begin{description} -\item[id] beschreibt eine eindeutige ID des Dokumentes -(dreistellig) +\item[id] eine eindeutige ID des Dokumentes (dreistellig), die + innerhalb des Projektes vergeben wird \item[sernr] eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören -\item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder - \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für - OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den +\item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder + \url{pageimg} bei Scans einzelner Seiten oder \url{ocr} für + OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu den Dateien in den anderen Ordnern. \end{description} \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei: -\texttt{index.meta} +\url{index.meta} -\noindent die Metadaten zum Ordner selbst enthält. +\noindent die Metadaten zum Ordner selbst enthält. Das Format dieser +Metadaten"=Datei ist im Dokument "`A simple metadata format for +resource bundles"'\footnote{\url{http://pythia/projects/storagesystem/metadaten.html}} beschrieben. \subsection{Vierte Ebene: Dateien in den Ordnern} \label{sec:vierte-eben-date} -Für Dateinamen gilt als Midestanforderung, dass die alphabetische -Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte -Dateien sollten Namen mit führenden Nullen erhalten, z.B. -\texttt{00001.jpg}. Empfohlen wird folgende Bennung: +Für Dateinamen gilt als Midestanforderung, dass die Dateiendung den +Dateityp anzeigt und die alphabetische Ordnung der Namen der +Reihenfolge der Daten entspricht. Nummerierte Dateien sollten daher +Namen mit führenden Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen +wird folgende Bennung: -\texttt{id-sernr-imagenumber.SUFFIX} +\url{id-sernr-imagenumber.SUFFIX} \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des -Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das +Ordners übereinstimmen. Imagenummer ist eine vierstellige Zahl. Das Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}. @@ -208,11 +222,11 @@ Dateitypen zeigt Tabelle~\ref{tab:benenn suffix & Dateityp\\ \hline - jpg & JPEG-Bilddateien\\ + \texttt{jpg} & JPEG-Bilddateien\\ - tif & TIFF-Bilddateien \\ + \texttt{tif} & TIFF-Bilddateien \\ - png & PNG-Bilddateien + \texttt{png} & PNG-Bilddateien \end{tabular} \caption{Dateiendungen} \label{tab:benennung-dateien} @@ -225,23 +239,25 @@ Dateitypen zeigt Tabelle~\ref{tab:benenn Für Daten die für die direkte Präsentation im Netz vorgesehen sind, werden auf foxridge zwei Pfade angeboten: -\texttt{online/experimental} +\url{online/experimental} \noindent und -\texttt{online/permanent} +\url{online/permanent} \noindent Für Dokumente, die nur temporär präsentiert werden sollen, -ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses +ist \url{online/eperimental} vorgesehen. Pfade innerhalb dieses Bereiches können verändert und gelöscht werden. Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist -\texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen +\url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben -werden. +oder umbenannt werden. -Die interne Struktur der Dokumentordner in \texttt{online/permanent} -entspricht der oben dargestellten Struktur von \texttt{archive/data}. +Die interne Struktur der Projekt- und Dokumentordner in +\url{online/permanent} entspricht der in +Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von +\url{archive/data}. @@ -249,10 +265,10 @@ entspricht der oben dargestellten Strukt \label{sec:workflow-fur-die} Größere Mengen von Büchern und Manuskripten werden von der -Digitalisierungsgruppe der Bibliothek in hoher Qualität -gescannt. Diese Digitalisierungen erfolgen im Auftrag -einzelner Projekte oder auf eigene Initiative der Bibliothek. Die -Digitalisate werden zunächst in drei verschiedenen Formen erzeugt: +Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt. +Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen +Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate +werden zunächst in drei verschiedenen Formen erzeugt: \begin{itemize} \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner, @@ -288,10 +304,14 @@ Anforderungen: abgelegt werden. \end{itemize} -Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der -Roh- und User-Images durch die Digigruppe in einer eigenen -\texttt{library} Hierarchie oder die Ablage durch die Digigruppe in -entsprechenden Unterordnern der jeweiligen Projekte. +Der Workflow der Ablage der Daten ist abhängig davon ob die Scans im +Auftrag eines etablierten Projektes durchgeführt wurden. In diesem +Fall werden die Roh- und User"=Images von der Digigruppe in +entsprechenden Unterordnern der jeweiligen Projektordner abgelegt +(Abschnitt~\ref{sec:ablage-bei-den}). Wenn die Scans im Auftrag +einzelner Wissenschaftler oder auf Initiative der Bibliothek erstellt +wurden, werden sie in der \url{library} Hierarchie abgelegt +(Abschnitt~\ref{sec:ablage-libr-proj}) \subsection{Ablage in "`library"' Projekt} @@ -303,26 +323,27 @@ entsprechenden Unterordnern der jeweilig \item Die Digigruppe kopiert Roh-Images und User-Images in einen Dokumenten-Ordner nach der Namenskonvention - (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich - \texttt{archive/data/library}. Roh-Images werden in einem - Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}. - -\item Die Digigruppe startet eine Prä-Migration der Daten ins - Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des - verfügbaren Speicherplatzes) noch nicht von - der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images - bereits von der Platte gelöscht während die User-Daten erhalten - bleiben.} - -\item Die Digigruppe benachrichtigt das entsprechende Projekt über den - Aufenthaltsort der Daten. - -\item Das Projekt verwendet die User-Images und archiviert - weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie. + (\url{AUTHOR_TITLE_SERNR_lang_year}) im Bereich + \url{archive/data/library}. Roh-Images werden in einem + Unterordner \url{raw} abgelegt und User-Images in \url{img}. + +\item Die Digigruppe startet eine Prä-Migration der Daten (Roh- und + User"=images) ins Bandarchiv. Die Daten werden auf Band kopiert aber + (nach Maßgabe des verfügbaren Speicherplatzes) noch nicht von der + Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images + bereits von der Platte gelöscht während die User-Daten erhalten + bleiben.} -\item Das Projekt veranlasst die vollständige Migration der - User-Images (Löschung von der Festplatte) sobald die Daten nicht - mehr direkt verwendet werden. +\item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag) + über den Ablageort der Daten. + +\item Der Auftraggeber verwendet die User-Images. Veränderte Formen + der Images erstellt und archiviert der Auftraggeber in seiner + eigenen Projekt"=Hierarchie. + +\item Der Auftraggeber veranlasst die vollständige Migration (Löschung + von der Festplatte) der von der Digigruppe erstellten Daten sobald + sie nicht mehr direkt verwendet werden. \end{enumerate} @@ -334,10 +355,11 @@ entsprechenden Unterordnern der jeweilig oder Bereichen für Bewegungsdaten. \item Die Digigruppe kopiert Roh-Images und User-Images in einen - Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit - dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B. - \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem - Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}. + Dokumenten"=Ordner nach der Namenskonvention + (Abschnitt~\ref{sec:zweite-eben-dokum}), der sich in einem mit dem + Projekt abgesprochenen Bereich des Projektes befindet, z.B. + \url{archive/data/PROJEKT/literature}. Roh"=Images werden in einem + Unterordner \url{raw} abgelegt und User-Images in \url{img}. \item Die Digigruppe benachrichtigt das entsprechende Projekt über den Aufenthaltsort der Daten. @@ -345,22 +367,23 @@ entsprechenden Unterordnern der jeweilig \item Das Projekt verwendet die User-Images und archiviert weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie. -\item Das Projekt veranlasst die vollständige Migration der Daten - sobald sie nicht mehr direkt verwendet werden. +\item Das Projekt veranlasst die vollständige Archivierung und + Migration der Daten sobald sie nicht mehr direkt verwendet werden. \end{enumerate} \subsection{Ablage der Online-Images} \label{sec:ablage-der-online} -Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache +Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache mit dem Projekt + \begin{itemize} -\item als fertige Images in der Online-Hierarchie der Bibliothek, wenn +\item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist \item als fertige Images im Archivbereich bei den User-Images in einem - Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem + Ordner \url{jpg} zur Nutzung durch das Projekt in seinem Online-Bereich \item für Projekte, die selbst weiter verarbeitete Online-Images zur