storage/names/file-format.tex - view

File: [Repository] / storage / names / file-format.tex
Revision 1.6: download - view: text, annotated - select for diffs - revision graph
Fri Aug 15 22:29:00 2003 UTC (20 years, 9 months ago) by casties
Branches: MAIN
CVS tags: HEAD

*** empty log message ***

\documentclass[a4paper]{article} \usepackage{ngerman} \usepackage[latin1]{inputenc} \usepackage[T1]{fontenc} \usepackage{ae} %\usepackage{times} %\usepackage{courier} % create in-text links in black (with PDF) %\usepackage[colorlinks=true,linkcolor=black]{hyperref} % Format URLs nicely (without PDF) \usepackage{url} \title{Ablage von Massendaten im Archiv- und Backupsystem} \author{Dirk Wintergrün, Robert Casties} \date{V0.9.4 of \today} \begin{document} \maketitle \begin{abstract} In diesem Dokument werden die Ablage von Massendaten auf dem zentralen Archiv- und Filesystem des MPIWG beschrieben \end{abstract} \tableofcontents \section{Datentypen für die dieses Dokument gilt} \label{sec:datentypen-fur-die} Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.} \begin{description} \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne ständigen Zugriff langfristig gesichert werden sollen (Pfad: \url{archive/data}) \item[Langfristige Präsentationsdaten] die über das Internet verfügbar gemacht werden sollen und deren URL bzw. URI langfristig stabil gehalten werden sollen (Pfad: \url{online/permanent}) \item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig online verfügbar sein sollen (Pfad: \url{online/experimental}) \item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von Kooperationsprojekten gehalten werden und auf die ständiger Zugriff z.B. zum Zweck der Synchronisation notwendig ist.(Pfad: \url{mirrors}) \end{description} \section{Zugang zum Server} \label{sec:zugang-zum-server} Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver \texttt{foxridge}, der physisch am FHI steht. \begin{itemize} \item Zugang per FTP, SCP, SFTP über: \url{foxridge.mpiwg-berlin.mpg.de} \\ Zugang zu den Daten in den Verzeichnissen \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent}, \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors} \item Zugang per Appletalk (AFP) über: Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\ Zugang zu den Daten über die Freigaben \url{archive\_data}, \url{online\_permanent}, \url{online\_experimental} und \url{mirrors} \end{itemize} \section{Benutzerkennung} \label{sec:benutzerkennung} Benutzerkennungen und Passworte für die Ablage der Massendaten werden projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der Zugriffsrechte fehlt noch.} \section{Erlaubte Zeichen in Datei- und Ordnernamen} \label{sec:erla-zeich-datei} Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"', "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. Es wird empfohlen für Datei- und Ordnernamen ausschliesslich Kleinschreibung zu verwenden. \section{Ablage von Archivdaten} \label{sec:ablage-von-arch} Archivdaten werden nur temporär auf der Festplatte des Servers gehalten. Nach der Archivierung auf Magnetbänder werden sie von der Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad \url{/mpiwg/archive/data} bzw \url{archive_data} \noindent vorgesehen. \subsection{Erste Ebene: Projekte} \label{sec:erste-eben-proj} Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit dem Namen des Projektes angelegt: \url{archive/data/PROJEKTNAME} \noindent Bsp: das Humboldtprojekt \url{archive/data/humboldt} \noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig, weitere Unterordner zur Untergliederung der Dokumente anlegen. \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte, Bücher)} \label{sec:zweite-eben-dokum} Für jedes abzulegende Dokument wird unterhalb des Projektordners ein weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten bestehen, wird folgende Bennenung vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils obligatorisch.} \url{AUTHOR_TITLE_sernr_lang_year} \noindent Also z.B. \url{humbo_endec_01_de_1803} \noindent Siehe dazu Tabelle~\ref{tab:benennung}. \begin{table}[htbp] \center \begin{tabular}{lp{0.6\textwidth}l} Feld & Erklärung & Beispiel\\ \hline \texttt{AUTHOR} & Autor, Vorschlag 5 stellig (falls nicht vorhanden "`anon."') & \texttt{humbo}\\ \texttt{TITLE} & Abkürzung des Titels, Vorschlag 5 stellig & \texttt{endec}\\ \texttt{sernr} & Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig & 01\\ \texttt{lang} & Sprache in der zweistelligen ISO-Kodierung\footnotemark & \texttt{de}\\ \texttt{year} & Erscheinungsjahr, vierstellig & 1803 \end{tabular} \caption{Benennung Ordner} \label{tab:benennung} \end{table} \footnotetext{\url{http://www.loc.gov/standards/iso639-2/englangn.html}} \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)} \label{sec:dritte-eben-unter} Innerhalb des Dokumentenordners werden weitere Unterordner für den jeweiligen Datentyp angelegt: \url{TYPE} \noindent oder \url{id-sernr-TYPE} \begin{description} \item[id] eine eindeutige ID des Dokumentes (dreistellig), die innerhalb des Projektes vergeben wird \item[sernr] eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören \item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder \url{pageimg} bei Scans einzelner Seiten oder \url{ocr} für OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu den Dateien in den anderen Ordnern. \end{description} \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei: \url{index.meta} \noindent die Metadaten zum Ordner selbst enthält. Das Format dieser Metadaten"=Datei ist im Dokument "`A simple metadata format for resource bundles"'\footnote{\url{http://pythia/projects/storagesystem/metadaten.html}} beschrieben. \subsection{Vierte Ebene: Dateien in den Ordnern} \label{sec:vierte-eben-date} Für Dateinamen gilt als Midestanforderung, dass die Dateiendung den Dateityp anzeigt und die alphabetische Ordnung der Namen der Reihenfolge der Daten entspricht. Nummerierte Dateien sollten daher Namen mit führenden Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen wird folgende Bennung: \url{id-sernr-imagenumber.SUFFIX} \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine vierstellige Zahl. Das Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}. \begin{table}[htbp] \centering \begin{tabular}{ll} suffix & Dateityp\\ \hline \texttt{jpg} & JPEG-Bilddateien\\ \texttt{tif} & TIFF-Bilddateien \\ \texttt{png} & PNG-Bilddateien \end{tabular} \caption{Dateiendungen} \label{tab:benennung-dateien} \end{table} \section{Ablage der Onlinedaten} \label{sec:ablage-der-onlin} Für Daten die für die direkte Präsentation im Netz vorgesehen sind, werden auf foxridge zwei Pfade angeboten: \url{online/experimental} \noindent und \url{online/permanent} \noindent Für Dokumente, die nur temporär präsentiert werden sollen, ist \url{online/eperimental} vorgesehen. Pfade innerhalb dieses Bereiches können verändert und gelöscht werden. Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist \url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben oder umbenannt werden. Die interne Struktur der Projekt- und Dokumentordner in \url{online/permanent} entspricht der in Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von \url{archive/data}. \section{Workflow für die Übergabe von gescannten Texten} \label{sec:workflow-fur-die} Größere Mengen von Büchern und Manuskripten werden von der Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt. Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate werden zunächst in drei verschiedenen Formen erzeugt: \begin{itemize} \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner, ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die weitere Nutzung durch Andere gedacht und sollen nur archiviert werden. \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie Farbkorrektur und Schärfung. Diese Dateien sind für die weitere Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert werden. \item Als \emph{Online-Image} in reduzierter Auflösung für die Online-Präsentation. Diese Dateien können ebenfalls durch andere Projekte genutzt werden und müssen online zur Verfügung stehen. \end{itemize} Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden von der Digigruppe selbständig durchgeführt. Für den Workflow der Übergabe der Bilddaten an die Projekte ergeben sich verschiedene Anforderungen: \begin{itemize} \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die Dateien kopiert, wie werden Verzeichnisse und Dateien benannt? \item Die Daten müssen archiviert werden. \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung stehen und über einen allgemeinen Katalog gefunden werden können. \item Daten sollten nach Möglichkeit nicht kopiert und doppelt abgelegt werden. \end{itemize} Der Workflow der Ablage der Daten ist abhängig davon ob die Scans im Auftrag eines etablierten Projektes durchgeführt wurden. In diesem Fall werden die Roh- und User"=Images von der Digigruppe in entsprechenden Unterordnern der jeweiligen Projektordner abgelegt (Abschnitt~\ref{sec:ablage-bei-den}). Wenn die Scans im Auftrag einzelner Wissenschaftler oder auf Initiative der Bibliothek erstellt wurden, werden sie in der \url{library} Hierarchie abgelegt (Abschnitt~\ref{sec:ablage-libr-proj}) \subsection{Ablage in "`library"' Projekt} \label{sec:ablage-libr-proj} \begin{enumerate} \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten oder Bereichen für Bewegungsdaten. \item Die Digigruppe kopiert Roh-Images und User-Images in einen Dokumenten-Ordner nach der Namenskonvention (\url{AUTHOR_TITLE_SERNR_lang_year}) im Bereich \url{archive/data/library}. Roh-Images werden in einem Unterordner \url{raw} abgelegt und User-Images in \url{img}. \item Die Digigruppe startet eine Prä-Migration der Daten (Roh- und User"=images) ins Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des verfügbaren Speicherplatzes) noch nicht von der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images bereits von der Platte gelöscht während die User-Daten erhalten bleiben.} \item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag) über den Ablageort der Daten. \item Der Auftraggeber verwendet die User-Images. Veränderte Formen der Images erstellt und archiviert der Auftraggeber in seiner eigenen Projekt"=Hierarchie. \item Der Auftraggeber veranlasst die vollständige Migration (Löschung von der Festplatte) der von der Digigruppe erstellten Daten sobald sie nicht mehr direkt verwendet werden. \end{enumerate} \subsection{Ablage bei den Projekten} \label{sec:ablage-bei-den} \begin{enumerate} \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten oder Bereichen für Bewegungsdaten. \item Die Digigruppe kopiert Roh-Images und User-Images in einen Dokumenten"=Ordner nach der Namenskonvention (Abschnitt~\ref{sec:zweite-eben-dokum}), der sich in einem mit dem Projekt abgesprochenen Bereich des Projektes befindet, z.B. \url{archive/data/PROJEKT/literature}. Roh"=Images werden in einem Unterordner \url{raw} abgelegt und User-Images in \url{img}. \item Die Digigruppe benachrichtigt das entsprechende Projekt über den Aufenthaltsort der Daten. \item Das Projekt verwendet die User-Images und archiviert weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie. \item Das Projekt veranlasst die vollständige Archivierung und Migration der Daten sobald sie nicht mehr direkt verwendet werden. \end{enumerate} \subsection{Ablage der Online-Images} \label{sec:ablage-der-online} Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache mit dem Projekt \begin{itemize} \item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist \item als fertige Images im Archivbereich bei den User-Images in einem Ordner \url{jpg} zur Nutzung durch das Projekt in seinem Online-Bereich \item für Projekte, die selbst weiter verarbeitete Online-Images zur Verfügung stellen werden keine Online-Images erzeugt. \end{itemize} \end{document} %%% Local Variables: %%% mode: latex %%% TeX-master: t %%% End: