File:  [Repository] / storage / names / file-format.tex
Revision 1.7: download - view: text, annotated - select for diffs - revision graph
Tue Dec 9 17:45:02 2003 UTC (20 years, 5 months ago) by casties
Branches: MAIN
CVS tags: HEAD
reworked to hopefully match the latest expectations (as of today)

\documentclass[a4paper]{article}

\usepackage{ngerman}

\usepackage[latin1]{inputenc}
\usepackage[T1]{fontenc}
\usepackage{ae}
%\usepackage{times}
%\usepackage{courier}

% create in-text links in black (with PDF)
\usepackage[colorlinks=true,linkcolor=black]{hyperref}
% Format URLs nicely (without PDF)
%\usepackage{url}
% Grafik
\usepackage{graphicx}
% Verzeichnis mit Abbildungen
\graphicspath{{images/}}

\title{Ablage von Massendaten im Archiv- und Backupsystem}

\author{Dirk Wintergrün, Robert Casties}

\date{V0.10.1 of \today}

\begin{document}

\maketitle

\begin{abstract}
  In diesem Dokument wird die Ablage von Massendaten auf dem
  zentralen Archiv- und Ablagesystem des MPIWG beschrieben
\end{abstract}

\tableofcontents


\section{Datentypen für die dieses Dokument gilt}
\label{sec:datentypen-fur-die}


Die in diesem Dokument definierten Regeln gelten
für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.}

\begin{description}
\item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
  Instituts anfallen und als Rohdaten oder Produktionsdaten in
  möglichst hoher Qualität ohne ständigen Zugriff langfristig
  gesichert werden sollen (Pfad: \url{archive/data})
  
\item[Langfristige Präsentationsdaten] die über das Internet verfügbar
  gemacht werden sollen und deren URL bzw. URI langfristig stabil
  gehalten werden sollen (Pfad: \url{online/permanent})
  
  
\item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die
  kurzfristig und nur für begrenzte Zeit online verfügbar sein sollen
  (Pfad: \url{online/experimental})
  
\item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von
  Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
  z.B. zum Zweck der Synchronisation notwendig ist.(Pfad:
  \url{mirrors})
\end{description}


\section{Zugang zum Server}
\label{sec:zugang-zum-server}

Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
\texttt{foxridge}, der physisch am FHI steht.

\begin{itemize}
\item Zugang per FTP, SCP, SFTP über:
  \url{foxridge.mpiwg-berlin.mpg.de} \\
  Zugang zu den Daten in den Verzeichnissen
  \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent},
  \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors}
  
\item Zugang per Appletalk (AFP) über: Auswahl des Servers
  \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
  Zugang zu den Daten über die Freigaben \url{archive\_data},
  \url{online\_permanent}, \url{online\_experimental} und
  \url{mirrors}
\end{itemize}


\section{Benutzerkennung}
\label{sec:benutzerkennung}

Benutzerkennungen und Passworte für die Ablage der Massendaten werden
projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der
  Zugriffsrechte fehlt noch.}


\section{Erlaubte Zeichen in Datei- und Ordnernamen}
\label{sec:erla-zeich-datei}

Erlaubte Zeichen in Datei- und Ordnernamen sind Kleinbuchstaben (a-z),
Großbuchstaben (A-Z), Ziffern (0-9), Bindestrich ("`-"'), Unterstrich
("`\_"') und Punkt ("`."'). Andere Zeichen und Leerzeichen sind nicht
zulässig. Es wird empfohlen für Datei- und Ordnernamen ausschliesslich
Kleinschreibung zu verwenden.

Für die Umsezung von Dateinamen, die anderen Zeichen enthalten wird
empfohlen alle Leerzeichen durch Bindestriche ("`-"') und andere
nichtzulässige Zeichen durch Unterstriche ("`\_"') zu ersetzen.


\section{Ablage von Archivdaten}
\label{sec:ablage-von-arch}

Archivdaten werden nur temporär auf der Festplatte des Servers
gehalten. Nach der Archivierung auf Magnetbänder werden sie von der
Festplatte gelöscht. Die Metadaten bleiben auch nach dem Löschen der
Daten auf der Festplatte. Für Archivdaten ist auf Foxridge der Pfad

\url{/mpiwg/archive/data} bzw. \url{archive_data}

\noindent vorgesehen. 

Die Ablage von Archivdaten erfolgt abhängig davon ob es sich um 
\emph{Rohdaten} oder \emph{Produktionsdaten} handelt.


\subsection{Ablage von Rohdaten im Archiv}
\label{sec:ablage-von-rohdaten}

Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft
wurden oder am Institut erzeugt werden und am Anfang eines workflows stehen.

Rohdaten können entweder über ein Web-Frontend oder direkt im
Filesystem des Servers abgelegt werden. Bei der Ablage über das
Web-Frontend wird ein Metadaten-File automatisch erzeugt. Bei der
Ablage "`von Hand"' auf dem Server kann ein Metadaten-File
nachträglich mit Hilfe eines Web-Frontends erzeugt werden.

Die wichtigste Information über die Rohdaten ist ihre Quelle, die in
einem \texttt{acquisition} Metadaten-Element beschrieben wird.
Außerdem müssen, je nach Medientyp verschiedene technische Angaben
über die abgelegten Daten erfolgen.

Weitere inhaltliche Metadaten, wie eine bibliographische Bestimmung
erhalten zunächst nur den Metadaten-Status "`vorläufig"'
(\texttt{wf-status} \texttt{preliminary}).


\subsubsection{Erste Ebene: Provider}
\label{sec:ebene-provider}

Die Rohdaten werden im Filesystem des Servers in Ordnern entsprechend
ihrer Quelle, ihres \emph{Providers} abgelegt. Bei externen
Lieferungen ist der Lieferant direkt als Provider angesehen
werden. Das gleiche gilt z.B. für Arbeiten der Digitalisierungsgruppe der
Bibliothek. Bei Arbeiten, die im Rahmen von Projekten von einzelnen
Mitarbeitern im Haus erstellt werden, liegt es in der Verantwortung
der Projekte einen Provider-Namen zu benennen. 

Zur Vereinheitlichung der Provider-Bezeichnungen wird ein zentrales
Verzeichnis mit Provider-Namen und IDs erstellt.


\subsubsection{Zweite Ebene: Dokumente}
\label{sec:ebene-dokumente}

Unterhalb der Provider-Ebene werden Dokumente nach ihrer ID abgelegt.
Zu diesem Zweck erhalten alle Dokumente eine \texttt{archive-id}, eine
eindeutige achtstellige Zeichenfolge, vom Archiv"=ID"=Server

\url{http://content.mpiwg-berlin.mpg.de/archive/ids}. 

\noindent Wenn die Daten direkt im Filesystem abgelegt werden muss vor der
Ablage im Webfrontend des ID-Servers eine Archiv-ID für das Dokument
reserviert werden.

\begin{figure}[htbp]
  \centering
  \includegraphics[width=0.6\textwidth]{archive-dirs}
  \caption{Verzeichnisstruktur für den Rohdaten-Archivbereich}
  \label{fig:dir-arch-raw}
\end{figure}

Die Rohdaten werden in einzelne Verzeichnisse gelegt, die jeweils
einzelnen Dokumenten entsprechen. Als Verzeichnisname wird die
\texttt{archive-id} verwendet. Je nach Art der Daten sollten
Unterordner nach den Empfehlungen in
Abschnitt~\ref{sec:dritte-eben-unter} angelegt werden. Für die
Dateinamen gelten ebenfalls die in
Abschnitt~\ref{sec:vierte-eben-date} angegebenen Regeln.

Einen schematischen Überblick über die Verzeichnisstruktur zeigt
Abbildung~\ref{fig:dir-arch-raw}.



\subsection{Ablage von Produktdaten im Archiv}
\label{sec:ablage-von-produkt}

\subsubsection{Erste Ebene: Projekte}
\label{sec:erste-eben-proj}

Für jedes Projekt, das als Datenproduzent Archivdaten ablegen will,
wird ein Ordner mit dem Namen des Projektes angelegt:

\url{archive/data/PROJEKTNAME}

\noindent Bsp: das Humboldtprojekt

\url{archive/data/humboldt}

\noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig,
weitere Unterordner zur Untergliederung der Dokumente anlegen.


\subsubsection{Zweite Ebene: Dokumente}
\label{sec:zweite-eben-dokum}

Für jedes abzulegende Dokument wird unterhalb des Projektordners ein
weiterer Ordner angelegt. Die Benennung dieser Ordner ist Teil des
Workflows des jeweiligen Projekts. Möglich die Verwendung
der \texttt{archive-id} als Ordnername analog zur Ablage der Rohdaten
(siehe Abschnitt~\ref{sec:ebene-dokumente}) aber auch andere Schemas.

Jedes zu archivierende Dokument muss eine \texttt{archive-id}
haben. Bevor ein neuer Ordner für ein neues Dokument angelegt wird,
sollte vom Archive-ID-Server eine neue \texttt{archive-id} reserviert
werden.


\subsubsection{Dritte Ebene: Unterordner}
\label{sec:dritte-eben-unter}

Innerhalb des Dokumentenordners werden weitere Unterordner für den
jeweiligen Datentyp angelegt:

\url{TYPE}

\noindent oder

\url{TYPE-sernr}

\begin{description}
\item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder
  \url{pageimg} für Scans einzelner Seiten oder \url{ocr} für
  OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu
  Dateien in den anderen Ordnern.

\item[sernr] eine Seriennummer falls mehrere
  Imagesätze zu einem Dokument gehören
\end{description}

\noindent Außerdem muss in jedem Dokumentenordner eine Datei

\url{index.meta}

\noindent liegen, die Metadaten zum Ordner selbst enthält. Das Format dieser
Metadaten"=Datei ist im Dokument "`A simple metadata format for
resource
bundles"'\footnote{\url{http://pythia.mpiwg-berlin.mpg.de/projects/storagesystem/metadaten.html}}
beschrieben.


\subsubsection{Vierte Ebene: Dateien in den Ordnern}
\label{sec:vierte-eben-date}

Für Dateinamen gilt als Mindestanforderung, dass der Dateiname nur aus
zulässigen Zeichen besteht und die Dateiendung den Dateityp anzeigt.
Die alphabetische Ordnung der Namen muss der Reihenfolge der Daten
entsprechen. Nummerierte Dateien sollten daher Namen mit führenden
Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen wird folgende
Benennung:

\url{imagenummer.SUFFIX}

\noindent Imagenummer ist eine fünfstellige Zahl. Das Suffix muss den
Dateityp angeben. Eine (nicht erschöpfende) Liste von Dateitypen zeigt
Tabelle~\ref{tab:benennung-dateien}.

\begin{table}[htbp]
  \centering
  \begin{tabular}{ll}

    suffix & Dateityp\\ \hline

    \texttt{jpg}, \texttt{jpeg}  & JPEG-Bilddateien\\
    
    \texttt{tif}, \texttt{tiff} & TIFF-Bilddateien \\
    
    \texttt{png} & PNG-Bilddateien
  \end{tabular}
  \caption{Dateiendungen}
  \label{tab:benennung-dateien}  
\end{table}


\section{Ablage der Onlinedaten}
\label{sec:ablage-der-onlin}

Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
werden auf foxridge zwei Pfade angeboten:

\url{online/experimental}

\noindent und

\url{online/permanent}

\noindent Für Dokumente, die nur temporär präsentiert werden sollen,
ist \url{online/experimental} vorgesehen. Pfade innerhalb dieses
Bereiches können verändert und gelöscht werden.

Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
\url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
oder umbenannt werden.

Die interne Struktur der Projekt- und Dokumentordner in
\url{online/permanent} entspricht der in
Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von
\url{archive/data}.



\section{Workflow: Scannen durch die Digitalisierungsgruppe}
\label{sec:workflow-fur-die}


Größere Mengen von Büchern und Manuskripten werden von der
Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt.
Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen
Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate
werden zunächst in drei verschiedenen Formen erzeugt.

\subsection{Typen von Bilddaten}
\label{sec:daten-typen}

\begin{itemize}
\item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
  ohne weitere Nachbearbeitung\footnote{Die Digitalisierungsgruppe
    dokumentieren dazu welche Arbeits- und Bearbeitungsschritte bei
    welchem Gerät als integraler Teil des Scanvorgangs betrachtet
    werden.}. Diese Dateien sind nicht für die weitere Nutzung durch
  Andere gedacht und sollen nur archiviert werden.
  
\item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
  Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
  Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
  werden.

\item Als \emph{Online-Image} in reduzierter Auflösung für die
  Online-Präsentation. Diese Dateien können ebenfalls durch andere
  Projekte genutzt werden und müssen online zur Verfügung stehen.
\end{itemize}

Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
von der Digitalisierungsgruppe selbständig durchgeführt. 


\subsection{Ablage und Übergabe der Rohdaten}
\label{sec:ablage-und-ubergabe}

\begin{enumerate}
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
  oder Bereichen für Bewegungsdaten.
  
\item Die Digigruppe kopiert Roh-Images und User-Images in einen
  Dokumenten-Ordner mit den notwendigen Metadaten und einer neuen
  Archiv-ID nach den Regeln in Abschnitt~\ref{sec:ebene-dokumente} im
  Bereich \url{archive/data/library}.  Roh-Images werden in einem
  Unterordner \url{raw} abgelegt und User-Images in \url{pageimg}.
  
\item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag)
  über den Ablageort der Daten.\footnote{Idealerweise würden die Roh-Images
    bereits archiviert und von der Platte gelöscht während die User-Daten erhalten
    bleiben.}
  
\item Der Auftraggeber verwendet die User-Images. Veränderte Formen
  der Images erstellt und archiviert der Auftraggeber in seiner
  eigenen Projekt"=Hierarchie.
  
\item Der Auftraggeber veranlasst die vollständige Migration (Löschung
  von der Festplatte) der von der Digigruppe erstellten Daten sobald
  sie nicht mehr direkt verwendet werden.
\end{enumerate}



\subsection{Ablage der Online-Images}
\label{sec:ablage-der-online}

Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache
mit dem Projekt

\begin{itemize}
\item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn
  es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
  
\item als fertige Images im Archivbereich bei den User-Images in einem
  Ordner \url{jpg} (o.ä.) zur Nutzung durch das Projekt in seinem
  Online-Bereich

\item für Projekte, die selbst weiter verarbeitete Online-Images zur
  Verfügung stellen werden keine Online-Images erzeugt.
\end{itemize}



\section{Erfassung der Metadaten für Archivdaten}
\label{sec:use-case-workflow}


\subsection{Abfrage der Metadaten}
\label{sec:abfr-der-metad}

Den Entscheidungsbaum der Metadaten-Abfrage zeigt
Abbildung~\ref{fig:arch-meta-abfrage}.

\begin{figure}[htbp]
  \centering
  \includegraphics[width=\textwidth]{meta-decision}
  \caption{Entscheidungsbaum der Metadaten-Abfrage für Archivdaten}
  \label{fig:arch-meta-abfrage}
\end{figure}


\subsubsection{Dokumentenstatus: Rohdaten}
\label{sec:dokum-rohd}

Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft
wurden oder am Institut erzeugt werden und am Anfang eines möglichen
workflows stehen.

Zu Rohdaten müssen weitere Informationen für einen
\texttt{acquisition} Block in den Metadaten eingegeben werden:

\begin{description}
\item[acquisition] the acquisition source of this resource -- required
  \begin{description}
  \item[provider] where this resource came from --required
    \begin{description}
    \item[name] free-text name of the provider (institution or
      individual)

    \item[address] address of the provider

    \item[contact] contact person at the provider (i.e. name and email)

    \item[url] URL related to the provider
    \end{description}

  \item[date] date of acquisition -- required

  \item[description] free-text description of the acquisition source or
    additional information

  \item[provider-id] id of the provider (internally used) -- deduced
  \end{description}
\end{description}


\subsubsection{Dokumentenstatus: Verarbeitete Daten}
\label{sec:dokum-verarb-daten}

Wenn die verarbeiteten Daten aus bereits abgelegten Rohdaten erzeugt
wurden, dann sollte ein Hinweis auf das Rohdaten-Verzeichnis im Tag
\texttt{derived-from} angebracht werden.

\begin{description}
\item[derived-from] Container for the description of the original
  resource if this resource is a modified version of another resource
  -- required for processed data.

  \begin{description}
  \item[archive-id] The ID of the original resource
    -- required.

  \item[archive-path] The full path to the original resource
    -- deduced.

  \item[description] An informal textual description of the relation
  of this resource to the original resource -- optional.
  \end{description}
\end{description}


\subsubsection{Medientyp: Video}
\label{sec:medientyp-video}

Filme haben den Medientyp \texttt{video}. Sie können zusätzlich mit
Metadaten in einem \texttt{film-acquisition} Metadaten-ELement
beschrieben werden.

\begin{description}
\item[film-acquisition] description of a (documentary) film --
  required for documentary film
  \begin{description}
  \item[recording] specification of the recording process
    \begin{description}
    \item[author] the person or persons doing the recording

    \item[date] the date or time span when the film was recorded

    \item[location] the place where the film was recorded

    \item[device] recording device used (e.g. ``Sony CP-DV8 Camcorder'')

    \item[format] format of the recorded film -- required (e.g. ``DV 720x524 25fps
    interlaced'')
    \end{description}
 
  \item[description] free-form description of the recording and the
    content of the film
  \end{description}
\end{description}


\subsubsection{Medientyp: Audio}
\label{sec:medientyp-audio}

Für den Medientyp \texttt{audio} exisitieren noch keine
Metadaten-Vorschläge.



\subsubsection{Medientyp: Image}
\label{sec:medientyp-image}

Der Medientyp \texttt{image} ist für Einzelbilder und Gruppen von
Bildern gedacht, die kein Buch o.ä. darstellen.

Für die Beschreibung der Erfassung und das Format der digitalisierten
Bilder gibt es die Metadaten-Elemente \texttt{image-acquisition} und
\texttt{img}.

\begin{description}
\item[image-acquisition] description of the image production process
  -- required
  \begin{description}
  \item[device] acquisition device (e.g. ``flatbed scanner'')

  \item[image-type] type and color-depth of the image -- required (e.g. ``RGB 24
    bit'')

  \item[production-comment] additional textual information about the
    production process
  \end{description}
\end{description}

\begin{description}
\item[img] digital image information.

  \begin{description}
  \item[original-size-x] The width of the original
    image -- required. \\
    The unit of measure can be contained as parameter \texttt{unit},
    the default is meter ``m''. The width to be considered is the
    total width of the scanned area.
    
  \item[original-size-y] The height of the original image -- required.
    
  \item[original-pixel-x] The width of the hi-res scan in pixels -- deduced.
    
  \item[original-pixel-y] The height of the hi-res scan in pixels -- deduced.
  \end{description}
\end{description}

Für die Inhaltliche Erfassung von Bildern gibt es bisher keinen
Metadaten-Vorschlag.


\subsubsection{Medientyp: Text}
\label{sec:medientyp-text}

Für Volltexte, d.h. maschinenlesbaren Text in verschiedenen Formaten
ist der Medientyp \texttt{text} gedacht.

Die inhaltliche Erfassung erfolgt über das Metadaten-Element
\texttt{bib} mit verschiedenen Untertypen, das sich an der
Projektbibliographie des MPIWG orientiert.



\subsubsection{Medientyp: Scanned Text}
\label{sec:medi-scann-text}

Zum Medientyp \texttt{scanned-text} gehören alle gescannten Bilder von
Texten, die als Text behandelt werden.

Die Medienerfassung orientiert sich am Medientyp \texttt{image} mit
den Elementen \texttt{image-acquisition} und \texttt{img}.

Die inhaltliche Erfassung orientiert sich am Medientyp \texttt{text}
mit dem \texttt{bib} Element.


\subsubsection{Medientyp: other}
\label{sec:medientyp-other}

Die Vergabe und Behandlung von Medientypen sollte flexibel und
erweiterbar sein.


\end{document}



%%% Local Variables: 
%%% mode: latex
%%% TeX-master: t
%%% End: 


FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>