File:  [Repository] / storage / names / file-format.tex
Revision 1.2: download - view: text, annotated - select for diffs - revision graph
Wed Jun 25 19:34:07 2003 UTC (20 years, 11 months ago) by casties
Branches: MAIN
CVS tags: HEAD
Weitere Verschönerungen.

\documentclass[a4paper, abstracton]{article}

\usepackage{ngerman}

\usepackage[latin1]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{ae}
%\usepackage{times}
%\usepackage{courier}

% create in-text links in black (with PDF)
%\usepackage[colorlinks=true,linkcolor=black]{hyperref}
% Format URLs nicely (without PDF)
%\usepackage{url}

\title{Ablage von Massendaten im Archiv- und Backupsystem}

\author{Dirk Wintergrün, Robert Casties}

\begin{document}

\maketitle

\begin{abstract}
  In diesem Dokument werden die Ablage von Massendaten auf dem
  zentralen Archiv- und Filesystem des MPIWG beschrieben
\end{abstract}

\tableofcontents


\section{Datentypen für die dieses Dokument gilt}
\label{sec:datentypen-fur-die}


Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}

\begin{description}
\item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
  Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
  ständigen Zugriff langfristig gesichert werden sollen (Pfad:
  \texttt{archive/data})
  
\item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
  sollen und deren URL bzw. URI langfristig stabil gehalten werden
  sollen (Pfad: \texttt{online/permanent})
  

\item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
  online verfügbar sein sollen (Pfad: \texttt{online/experimental})
  
\item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
  Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
  z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
  \texttt{mirrors})
\end{description}


\section{Zugang zum Server}
\label{sec:zugang-zum-server}

Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
\texttt{foxridge}, der physisch am FHI steht.

\begin{itemize}
\item Zugang per FTP, SCP, SFTP über:
  \texttt{foxridge.mpiwg-berlin.mpg.de} \\
  Zugang zu den Daten in den Verzeichnissen
  \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
  \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
  
\item Zugang per Appletalk (AFP) über: Auswahl des Servers
  \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
  Zugang zu den Daten über die Freigaben \texttt{archive\_data},
  \texttt{online\_permanent}, \texttt{online\_experimental} und
  \texttt{mirrors}
\end{itemize}


\section{Benutzerkennung}
\label{sec:benutzerkennung}

Benutzerkennungen und Passworte für die Ablage der Massendaten werden
projektspezifisch vergeben.


\section{Erlaubte Zeichen in Datei- und Ordnernamen}
\label{sec:erla-zeich-datei}

Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.


\section{Ablage von Archivdaten}
\label{sec:ablage-von-arch}

Archivdaten werden nur temporär auf der Festplatte des Servers
gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
gelöscht. Für Archivdaten ist auf Foxridge der Pfad

\texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}

\noindent vorgesehen. 


\subsection{Erste Ebene: Projekte}
\label{sec:erste-eben-proj}

Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
dem Namen des Projektes angelegt:

\texttt{archive/data/PROJEKTNAME}

\noindent Bsp: das Humboldtprojekt

\texttt{archive/data/humboldt}


\subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
  Bücher)}
\label{sec:zweite-eben-dokum}

Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
bestehen, wird folgende Bennenung
vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
  obligatorisch.}

\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}

\noindent Siehe dazu Tabelle~\ref{tab:benennung}.

\begin{table}[htbp]
\center
\begin{tabular}{lp{0.6\textwidth}l}
Feld & Erklärung & Beispiel\\ \hline

AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\

TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\

SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also
in der Regel 01. & 01\\

lang & Sprache in der zweistelligen ISO-Codierung & de\\

year & Erscheinungsjahr, vierstellig & 1803
\end{tabular}
\caption{Benennung Ordner}
\label{tab:benennung}
\end{table}




\subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
\label{sec:dritte-eben-unter}

Innerhalb des Dokumentenordners werden weitere Unterordner für den
jeweiligen Datentyp angelegt:

\texttt{TYPE}

\noindent oder

\texttt{id-sernr-TYPE}

\begin{description}
\item[id] beschreibt eine eindeutige ID des Dokumentes
(dreistellig)

\item[sernr] eine Seriennummer falls mehrere
Imagesätze zu einem Dokument gehören

\item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
  \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
  OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
  Dateien in den anderen Ordnern.
\end{description}

\noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:

\texttt{index.meta}

\noindent die Metadaten zum Ordner selbst enthält.


\subsection{Vierte Ebene: Dateien in den Ordnern}
\label{sec:vierte-eben-date}

Für Dateinamen gilt als Midestanforderung, dass die alphabetische
Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
Dateien sollten Namen mit führenden Nullen erhalten, z.B.
\texttt{00001.jpg}. Empfohlen wird folgende Bennung:

\texttt{id-sernr-imagenumber.SUFFIX}

\noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.

\begin{table}[htbp]
  \centering
  \begin{tabular}{ll}

    suffix & Dateityp\\ \hline

    jpg & JPEG-Bilddateien\\
    
    tif & TIFF-Bilddateien \\
    
    png & PNG-Bilddateien
  \end{tabular}
  \caption{Dateiendungen}
  \label{tab:benennung-dateien}  
\end{table}


\section{Ablage der Onlinedaten}
\label{sec:ablage-der-onlin}

Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
werden auf foxridge zwei Pfade angeboten:

\texttt{online/experimental}

\noindent und

\texttt{online/permanent}

\noindent Für Dokumente, die nur temporär präsentiert werden sollen,
ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
Bereiches können verändert und gelöscht werden.

Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
\texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
werden.

Die interne Struktur der Dokumentordner in \texttt{online/permanent}
entspricht der oben dargestellten Struktur von \texttt{archive/data}.



\end{document}



%%% Local Variables: 
%%% mode: latex
%%% TeX-master: t
%%% End: 


FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>