File:  [Repository] / storage / names / file-format.tex
Revision 1.6: download - view: text, annotated - select for diffs - revision graph
Fri Aug 15 22:29:00 2003 UTC (20 years, 9 months ago) by casties
Branches: MAIN
CVS tags: HEAD
*** empty log message ***

\documentclass[a4paper]{article}

\usepackage{ngerman}

\usepackage[latin1]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{ae}
%\usepackage{times}
%\usepackage{courier}

% create in-text links in black (with PDF)
%\usepackage[colorlinks=true,linkcolor=black]{hyperref}
% Format URLs nicely (without PDF)
\usepackage{url}

\title{Ablage von Massendaten im Archiv- und Backupsystem}

\author{Dirk Wintergrün, Robert Casties}

\date{V0.9.4 of \today}

\begin{document}

\maketitle

\begin{abstract}
  In diesem Dokument werden die Ablage von Massendaten auf dem
  zentralen Archiv- und Filesystem des MPIWG beschrieben
\end{abstract}

\tableofcontents


\section{Datentypen für die dieses Dokument gilt}
\label{sec:datentypen-fur-die}


Die in diesem Dokument definierten Regeln gelten
für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.}

\begin{description}
\item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
  Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
  ständigen Zugriff langfristig gesichert werden sollen (Pfad:
  \url{archive/data})
  
\item[Langfristige Präsentationsdaten] die über das Internet verfügbar
  gemacht werden sollen und deren URL bzw. URI langfristig stabil
  gehalten werden sollen (Pfad: \url{online/permanent})
  

\item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
  online verfügbar sein sollen (Pfad: \url{online/experimental})
  
\item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von
  Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
  z.B. zum Zweck der Synchronisation notwendig ist.(Pfad:
  \url{mirrors})
\end{description}


\section{Zugang zum Server}
\label{sec:zugang-zum-server}

Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
\texttt{foxridge}, der physisch am FHI steht.

\begin{itemize}
\item Zugang per FTP, SCP, SFTP über:
  \url{foxridge.mpiwg-berlin.mpg.de} \\
  Zugang zu den Daten in den Verzeichnissen
  \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent},
  \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors}
  
\item Zugang per Appletalk (AFP) über: Auswahl des Servers
  \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
  Zugang zu den Daten über die Freigaben \url{archive\_data},
  \url{online\_permanent}, \url{online\_experimental} und
  \url{mirrors}
\end{itemize}


\section{Benutzerkennung}
\label{sec:benutzerkennung}

Benutzerkennungen und Passworte für die Ablage der Massendaten werden
projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der
  Zugriffsrechte fehlt noch.}


\section{Erlaubte Zeichen in Datei- und Ordnernamen}
\label{sec:erla-zeich-datei}

Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. Es
wird empfohlen für Datei- und Ordnernamen ausschliesslich
Kleinschreibung zu verwenden.


\section{Ablage von Archivdaten}
\label{sec:ablage-von-arch}

Archivdaten werden nur temporär auf der Festplatte des Servers
gehalten. Nach der Archivierung auf Magnetbänder werden sie von der
Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad

\url{/mpiwg/archive/data} bzw \url{archive_data}

\noindent vorgesehen. 


\subsection{Erste Ebene: Projekte}
\label{sec:erste-eben-proj}

Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
dem Namen des Projektes angelegt:

\url{archive/data/PROJEKTNAME}

\noindent Bsp: das Humboldtprojekt

\url{archive/data/humboldt}

\noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig,
weitere Unterordner zur Untergliederung der Dokumente anlegen.


\subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
  Bücher)}
\label{sec:zweite-eben-dokum}

Für jedes abzulegende Dokument wird unterhalb des Projektordners ein
weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
bestehen, wird folgende Bennenung
vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
  obligatorisch.}

\url{AUTHOR_TITLE_sernr_lang_year}

\noindent Also z.B.

\url{humbo_endec_01_de_1803}

\noindent Siehe dazu Tabelle~\ref{tab:benennung}.

\begin{table}[htbp]
\center
\begin{tabular}{lp{0.6\textwidth}l}
Feld & Erklärung & Beispiel\\ \hline

\texttt{AUTHOR} & Autor, Vorschlag 5 stellig (falls nicht vorhanden "`anon."') & \texttt{humbo}\\

\texttt{TITLE} & Abkürzung des Titels, Vorschlag 5 stellig & \texttt{endec}\\

\texttt{sernr} & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
beginnend mit 01, zweistellig & 01\\

\texttt{lang} & Sprache in der zweistelligen ISO-Kodierung\footnotemark & \texttt{de}\\

\texttt{year} & Erscheinungsjahr, vierstellig & 1803
\end{tabular}
\caption{Benennung Ordner}
\label{tab:benennung}
\end{table}
\footnotetext{\url{http://www.loc.gov/standards/iso639-2/englangn.html}}



\subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
\label{sec:dritte-eben-unter}

Innerhalb des Dokumentenordners werden weitere Unterordner für den
jeweiligen Datentyp angelegt:

\url{TYPE}

\noindent oder

\url{id-sernr-TYPE}

\begin{description}
\item[id] eine eindeutige ID des Dokumentes (dreistellig), die
  innerhalb des Projektes vergeben wird

\item[sernr] eine Seriennummer falls mehrere
Imagesätze zu einem Dokument gehören

\item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder
  \url{pageimg} bei Scans einzelner Seiten oder \url{ocr} für
  OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu den
  Dateien in den anderen Ordnern.
\end{description}

\noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:

\url{index.meta}

\noindent die Metadaten zum Ordner selbst enthält. Das Format dieser
Metadaten"=Datei ist im Dokument "`A simple metadata format for
resource bundles"'\footnote{\url{http://pythia/projects/storagesystem/metadaten.html}} beschrieben.


\subsection{Vierte Ebene: Dateien in den Ordnern}
\label{sec:vierte-eben-date}

Für Dateinamen gilt als Midestanforderung, dass die Dateiendung den
Dateityp anzeigt und die alphabetische Ordnung der Namen der
Reihenfolge der Daten entspricht. Nummerierte Dateien sollten daher
Namen mit führenden Nullen erhalten, z.B.  \url{00001.jpg}. Empfohlen
wird folgende Bennung:

\url{id-sernr-imagenumber.SUFFIX}

\noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
Ordners übereinstimmen. Imagenummer ist eine vierstellige Zahl. Das
Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.

\begin{table}[htbp]
  \centering
  \begin{tabular}{ll}

    suffix & Dateityp\\ \hline

    \texttt{jpg} & JPEG-Bilddateien\\
    
    \texttt{tif} & TIFF-Bilddateien \\
    
    \texttt{png} & PNG-Bilddateien
  \end{tabular}
  \caption{Dateiendungen}
  \label{tab:benennung-dateien}  
\end{table}


\section{Ablage der Onlinedaten}
\label{sec:ablage-der-onlin}

Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
werden auf foxridge zwei Pfade angeboten:

\url{online/experimental}

\noindent und

\url{online/permanent}

\noindent Für Dokumente, die nur temporär präsentiert werden sollen,
ist \url{online/eperimental} vorgesehen. Pfade innerhalb dieses
Bereiches können verändert und gelöscht werden.

Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
\url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
oder umbenannt werden.

Die interne Struktur der Projekt- und Dokumentordner in
\url{online/permanent} entspricht der in
Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von
\url{archive/data}.



\section{Workflow für die Übergabe von gescannten Texten}
\label{sec:workflow-fur-die}

Größere Mengen von Büchern und Manuskripten werden von der
Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt.
Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen
Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate
werden zunächst in drei verschiedenen Formen erzeugt:

\begin{itemize}
\item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
  ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
  weitere Nutzung durch Andere gedacht und sollen nur archiviert
  werden.
  
\item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
  Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
  Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
  werden.

\item Als \emph{Online-Image} in reduzierter Auflösung für die
  Online-Präsentation. Diese Dateien können ebenfalls durch andere
  Projekte genutzt werden und müssen online zur Verfügung stehen.
\end{itemize}

Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
von der Digigruppe selbständig durchgeführt. Für den Workflow der
Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
Anforderungen:

\begin{itemize}
\item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
  Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?

\item Die Daten müssen archiviert werden.

\item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
  stehen und über einen allgemeinen Katalog gefunden werden können.
  
\item Daten sollten nach Möglichkeit nicht kopiert und doppelt
  abgelegt werden.
\end{itemize}

Der Workflow der Ablage der Daten ist abhängig davon ob die Scans im
Auftrag eines etablierten Projektes durchgeführt wurden. In diesem
Fall werden die Roh- und User"=Images von der Digigruppe in
entsprechenden Unterordnern der jeweiligen Projektordner abgelegt
(Abschnitt~\ref{sec:ablage-bei-den}). Wenn die Scans im Auftrag
einzelner Wissenschaftler oder auf Initiative der Bibliothek erstellt
wurden, werden sie in der \url{library} Hierarchie abgelegt
(Abschnitt~\ref{sec:ablage-libr-proj})


\subsection{Ablage in "`library"' Projekt}
\label{sec:ablage-libr-proj}

\begin{enumerate}
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
  oder Bereichen für Bewegungsdaten.
  
\item Die Digigruppe kopiert Roh-Images und User-Images in einen
  Dokumenten-Ordner nach der Namenskonvention
  (\url{AUTHOR_TITLE_SERNR_lang_year}) im Bereich
  \url{archive/data/library}.  Roh-Images werden in einem
  Unterordner \url{raw} abgelegt und User-Images in \url{img}.
  
\item Die Digigruppe startet eine Prä-Migration der Daten (Roh- und
  User"=images) ins Bandarchiv. Die Daten werden auf Band kopiert aber
  (nach Maßgabe des verfügbaren Speicherplatzes) noch nicht von der
  Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
    bereits von der Platte gelöscht während die User-Daten erhalten
    bleiben.}

\item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag)
  über den Ablageort der Daten.
  
\item Der Auftraggeber verwendet die User-Images. Veränderte Formen
  der Images erstellt und archiviert der Auftraggeber in seiner
  eigenen Projekt"=Hierarchie.
  
\item Der Auftraggeber veranlasst die vollständige Migration (Löschung
  von der Festplatte) der von der Digigruppe erstellten Daten sobald
  sie nicht mehr direkt verwendet werden.
\end{enumerate}


\subsection{Ablage bei den Projekten}
\label{sec:ablage-bei-den}

\begin{enumerate}
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
  oder Bereichen für Bewegungsdaten.
  
\item Die Digigruppe kopiert Roh-Images und User-Images in einen
  Dokumenten"=Ordner nach der Namenskonvention
  (Abschnitt~\ref{sec:zweite-eben-dokum}), der sich in einem mit dem
  Projekt abgesprochenen Bereich des Projektes befindet, z.B.
  \url{archive/data/PROJEKT/literature}. Roh"=Images werden in einem
  Unterordner \url{raw} abgelegt und User-Images in \url{img}.

\item Die Digigruppe benachrichtigt das entsprechende Projekt über den
  Aufenthaltsort der Daten.

\item Das Projekt verwendet die User-Images und archiviert
  weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
  
\item Das Projekt veranlasst die vollständige Archivierung und
  Migration der Daten sobald sie nicht mehr direkt verwendet werden.
\end{enumerate}


\subsection{Ablage der Online-Images}
\label{sec:ablage-der-online}

Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache
mit dem Projekt

\begin{itemize}
\item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn
  es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
  
\item als fertige Images im Archivbereich bei den User-Images in einem
  Ordner \url{jpg} zur Nutzung durch das Projekt in seinem
  Online-Bereich

\item für Projekte, die selbst weiter verarbeitete Online-Images zur
  Verfügung stellen werden keine Online-Images erzeugt.
\end{itemize}




\end{document}



%%% Local Variables: 
%%% mode: latex
%%% TeX-master: t
%%% End: 


FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>