File:  [Repository] / storage / names / file-format.tex
Revision 1.1.1.1 (vendor branch): download - view: text, annotated - select for diffs - revision graph
Tue Jun 24 14:15:07 2003 UTC (20 years, 11 months ago) by casties
Branches: vend
CVS tags: start
First import.


\documentclass[a4paper, abstracton]{scrartcl}

\usepackage{ngerman}

\usepackage[latin1]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{ae}
%\usepackage{times}
%\usepackage{courier}

% create in-text links in black (with PDF)
%\usepackage[colorlinks=true,linkcolor=black]{hyperref}
% Format URLs nicely (without PDF)
%\usepackage{url}

\title{Ablage von Massendaten im Archiv- und Backupsystem}

\author{Dirk Wintergrün, Robert Casties}

\begin{document}

\maketitle

\begin{abstract}
  In diesem Dokument werden die Ablage von Massendaten auf dem
  zentralen Archiv- und Filesystem des MPIWG beschrieben
\end{abstract}

\tableofcontents


\section{Datentypen für die dieses Dokument gilt}
\label{sec:datentypen-fur-die}


Die in diesem Dokument definierten Regeln gelten für
\footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)}

\begin{description}
\item[Archivdaten], die innerhalb der Digitalisierungsprojekte des
  Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
  ständigen Zugriff langfristig gesichert werden sollen (Pfad:
  archive/data)
  
\item[Präsentationsdaten], die über das Internet verfügbar gemacht werden
  sollen und deren URL bzw. URI langfristig stabil gehalten werden
  sollen (Pfad: \texttt{online/permanent})
  

\item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig
  online verfügbar sein sollen (Pfad: \texttt{online/experimental})
  
\item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
  Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
  z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
  \texttt{mirrors})
\end{description}


\section{Zugang zum Server}
\label{sec:zugang-zum-server}

Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
\texttt{foxridge}, der physikalisch am FHI beheimatet ist.

Zugang per FTP, SCP, SFTP über:

\texttt{foxridge.mpiwg-berlin.mpg.de}

Zugang zu den Daten in den Verzeichnissen
\texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
\texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}

Zugang per Appletalk (AFP) über:

Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver}

Zugang zu den Daten über die Freigaben \texttt{archive\_data},
\texttt{online\_permanent}, \texttt{online\_experimental} und
\texttt{mirrors}



\section{Benutzerkennung}
\label{sec:benutzerkennung}

Benutzerkennungen und Passworte für die Ablage der Massendaten werden
projektspezifisch vergeben.


\section{Erlaubte Zeichen in Datei- und Ordnernamen}
\label{sec:erla-zeich-datei}

Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.


\section{Ablage von Archivdaten}
\label{sec:ablage-von-arch}

Archivdaten werden nur temporär auf dem Server gehalten und dann auf
Band gesichert. Auf Foxridge ist dafür der Pfad

\texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}

vorgesehen. 


\subsection{Erste Ebene: Projekte}
\label{sec:erste-eben-proj}

Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
dem Namen des Projektes angelegt:

\texttt{archive/data/PROJEKTNAME}

Bsp: das Humboldtprojekt

\texttt{archive/data/humboldt}


\subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
  Bücher)}
\label{sec:zweite-eben-dokum}

Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen:

\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}

Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch

\begin{table}[htbp]

\begin{tabular}{lll}
&&Beispiel:\\ \hline

AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\

TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\

SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\

lang&Sprache in der zweistelligen ISO-Codierung&de\\

year&Erscheinungsjahr, vierstellig&1803

\end{tabular}
\caption{Benennung Ordner}
\label{tab:benennung}
\end{table}
Tabelle 1: Benennung Ordner




\subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
\label{sec:dritte-eben-unter}

Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt:


\begin{table}[htbp]
  \centering
  \begin{tabular}{lll}
&Benennung&\\ \hline

für die Images (verpflichtend)&id-sernr-TYPE\\



oder\\



TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\

weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\



oder\\



TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\

Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern

  \end{tabular}
  \caption{Benennung Unterordner}
  \label{tab:unter}
\end{table}

Tabelle 2: Ordner



Ausserdem liegt in jedem Dokumentenordner eine Datei:

index.meta

die die Metadaten zum Ordner selbst enthält.


\subsection{Vierte Ebene: Dateien in den Ordnern}
\label{sec:vierte-eben-date}

Minimal müssen die Dateinamen so sein, dass ihre alphanumerische
Ordnung der Ordnung der Daten entspricht. Insbesondere sollten
nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten.

Das Suffix muss den Dateityp angeben.

\begin{table}[htbp]
  \centering
  \begin{tabular}{ll}

suffix&Dateityp\\ \hline

jpg&jpg-Bilddateien\\

tif&tif-Format nicht komprimiert\\

png&png

  \end{tabular}
  \caption{Benennung Dateien}
\label{tab:benennung-dateien}  
\end{table}


Empfohlen wird folgende Bennung:

\texttt{id-sernr-imagenumber.suffx}

wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl.

Übersicht:






\section{Ablage der Onlinedaten}
\label{sec:ablage-der-onlin}

Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
werden auf foxridge zwei Pfade angeboten

\texttt{online/experimental}

und

\texttt{online/permanent}

\texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur
temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches
können verändert und gelöscht werden.

\texttt{online/permanent} ist für Dokumente die auf längere Zeit im
Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert
oder gelöscht werden, Dokumente dürfen nicht verschoben werden.

Die interne Struktur der Dokumentordner in \texttt{online/permanent}
entspricht der oben dargestellten Struktur innerhalb von
\texttt{archive/data}.



\end{document}



%%% Local Variables: 
%%% mode: latex
%%% TeX-master: t
%%% End: 


FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>