storage/names/file-format.tex - diff

Return to file-format.tex CVS log

Up to [Repository] / storage / names

Diff for /storage/names/file-format.tex between versions 1.1 and 1.7

-version 1.1, 2003/06/24 14:15:07
+version 1.7, 2003/12/09 17:45:02
  Line 1
- \documentclass[a4paper, abstracton]{scrartcl}
+ \documentclass[a4paper]{article}
  \usepackage{ngerman}
  Line 9
  %\usepackage{courier}
  % create in-text links in black (with PDF)
- %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
+ \usepackage[colorlinks=true,linkcolor=black]{hyperref}
  % Format URLs nicely (without PDF)
  %\usepackage{url}
+ % Grafik
+ \usepackage{graphicx}
+ % Verzeichnis mit Abbildungen
+ \graphicspath{{images/}}
  \title{Ablage von Massendaten im Archiv- und Backupsystem}
  \author{Dirk Wintergrün, Robert Casties}
+ \date{V0.10.1 of \today}
  \begin{document}
  \maketitle
  \begin{abstract}
-   In diesem Dokument werden die Ablage von Massendaten auf dem
+   In diesem Dokument wird die Ablage von Massendaten auf dem
-   zentralen Archiv- und Filesystem des MPIWG beschrieben
+   zentralen Archiv- und Ablagesystem des MPIWG beschrieben
  \end{abstract}
  \tableofcontents
- Line 33
+ Line 39
  \label{sec:datentypen-fur-die}
- Die in diesem Dokument definierten Regeln gelten für
+ Die in diesem Dokument definierten Regeln gelten
- \footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)}
+ für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.}
  \begin{description}
- \item[Archivdaten], die innerhalb der Digitalisierungsprojekte des
+ \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
-   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
+   Instituts anfallen und als Rohdaten oder Produktionsdaten in
-   ständigen Zugriff langfristig gesichert werden sollen (Pfad:
+   möglichst hoher Qualität ohne ständigen Zugriff langfristig
-   archive/data)
+   gesichert werden sollen (Pfad: \url{archive/data})
- \item[Präsentationsdaten], die über das Internet verfügbar gemacht werden
+ \item[Langfristige Präsentationsdaten] die über das Internet verfügbar
-   sollen und deren URL bzw. URI langfristig stabil gehalten werden
+   gemacht werden sollen und deren URL bzw. URI langfristig stabil
-   sollen (Pfad: \texttt{online/permanent})
+   gehalten werden sollen (Pfad: \url{online/permanent})
- \item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig
+ \item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die
-   online verfügbar sein sollen (Pfad: \texttt{online/experimental})
+   kurzfristig und nur für begrenzte Zeit online verfügbar sein sollen
+   (Pfad: \url{online/experimental})
- \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
+ \item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von
    Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
-   z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
+   z.B. zum Zweck der Synchronisation notwendig ist.(Pfad:
-   \texttt{mirrors})
+   \url{mirrors})
  \end{description}
- Line 61  Die in diesem Dokument definierten Regel
+ Line 68  Die in diesem Dokument definierten Regel
  \label{sec:zugang-zum-server}
  Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
- \texttt{foxridge}, der physikalisch am FHI beheimatet ist.
+ \texttt{foxridge}, der physisch am FHI steht.
- Zugang per FTP, SCP, SFTP über:
- \texttt{foxridge.mpiwg-berlin.mpg.de}
+ \begin{itemize}
+ \item Zugang per FTP, SCP, SFTP über:
+   \url{foxridge.mpiwg-berlin.mpg.de} \\
  Zugang zu den Daten in den Verzeichnissen
- \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
+   \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent},
- \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
+   \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors}
- Zugang per Appletalk (AFP) über:
- Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver}
- Zugang zu den Daten über die Freigaben \texttt{archive\_data},
- \texttt{online\_permanent}, \texttt{online\_experimental} und
- \texttt{mirrors}
+ \item Zugang per Appletalk (AFP) über: Auswahl des Servers
+   \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
+   Zugang zu den Daten über die Freigaben \url{archive\_data},
+   \url{online\_permanent}, \url{online\_experimental} und
+   \url{mirrors}
+ \end{itemize}
  \section{Benutzerkennung}
  \label{sec:benutzerkennung}
  Benutzerkennungen und Passworte für die Ablage der Massendaten werden
- projektspezifisch vergeben.
+ projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der
+   Zugriffsrechte fehlt noch.}
  \section{Erlaubte Zeichen in Datei- und Ordnernamen}
  \label{sec:erla-zeich-datei}
- Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
+ Erlaubte Zeichen in Datei- und Ordnernamen sind Kleinbuchstaben (a-z),
- "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.
+ Großbuchstaben (A-Z), Ziffern (0-9), Bindestrich ("`-"'), Unterstrich
+ ("`\_"') und Punkt ("`."'). Andere Zeichen und Leerzeichen sind nicht
+ zulässig. Es wird empfohlen für Datei- und Ordnernamen ausschliesslich
+ Kleinschreibung zu verwenden.
+ Für die Umsezung von Dateinamen, die anderen Zeichen enthalten wird
+ empfohlen alle Leerzeichen durch Bindestriche ("`-"') und andere
+ nichtzulässige Zeichen durch Unterstriche ("`\_"') zu ersetzen.
  \section{Ablage von Archivdaten}
  \label{sec:ablage-von-arch}
- Archivdaten werden nur temporär auf dem Server gehalten und dann auf
+ Archivdaten werden nur temporär auf der Festplatte des Servers
- Band gesichert. Auf Foxridge ist dafür der Pfad
+ gehalten. Nach der Archivierung auf Magnetbänder werden sie von der
+ Festplatte gelöscht. Die Metadaten bleiben auch nach dem Löschen der
+ Daten auf der Festplatte. Für Archivdaten ist auf Foxridge der Pfad
+ \url{/mpiwg/archive/data} bzw. \url{archive_data}
+ \noindent vorgesehen.
+ Die Ablage von Archivdaten erfolgt abhängig davon ob es sich um
+ \emph{Rohdaten} oder \emph{Produktionsdaten} handelt.
+ \subsection{Ablage von Rohdaten im Archiv}
+ \label{sec:ablage-von-rohdaten}
+ Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft
+ wurden oder am Institut erzeugt werden und am Anfang eines workflows stehen.
+ Rohdaten können entweder über ein Web-Frontend oder direkt im
+ Filesystem des Servers abgelegt werden. Bei der Ablage über das
+ Web-Frontend wird ein Metadaten-File automatisch erzeugt. Bei der
+ Ablage "`von Hand"' auf dem Server kann ein Metadaten-File
+ nachträglich mit Hilfe eines Web-Frontends erzeugt werden.
+ Die wichtigste Information über die Rohdaten ist ihre Quelle, die in
+ einem \texttt{acquisition} Metadaten-Element beschrieben wird.
+ Außerdem müssen, je nach Medientyp verschiedene technische Angaben
+ über die abgelegten Daten erfolgen.
+ Weitere inhaltliche Metadaten, wie eine bibliographische Bestimmung
+ erhalten zunächst nur den Metadaten-Status "`vorläufig"'
+ (\texttt{wf-status} \texttt{preliminary}).
+ \subsubsection{Erste Ebene: Provider}
+ \label{sec:ebene-provider}
- \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
+ Die Rohdaten werden im Filesystem des Servers in Ordnern entsprechend
+ ihrer Quelle, ihres \emph{Providers} abgelegt. Bei externen
+ Lieferungen ist der Lieferant direkt als Provider angesehen
+ werden. Das gleiche gilt z.B. für Arbeiten der Digitalisierungsgruppe der
+ Bibliothek. Bei Arbeiten, die im Rahmen von Projekten von einzelnen
+ Mitarbeitern im Haus erstellt werden, liegt es in der Verantwortung
+ der Projekte einen Provider-Namen zu benennen.
- vorgesehen.
+ Zur Vereinheitlichung der Provider-Bezeichnungen wird ein zentrales
+ Verzeichnis mit Provider-Namen und IDs erstellt.
- \subsection{Erste Ebene: Projekte}
+ \subsubsection{Zweite Ebene: Dokumente}
+ \label{sec:ebene-dokumente}
+ Unterhalb der Provider-Ebene werden Dokumente nach ihrer ID abgelegt.
+ Zu diesem Zweck erhalten alle Dokumente eine \texttt{archive-id}, eine
+ eindeutige achtstellige Zeichenfolge, vom Archiv"=ID"=Server
+ \url{http://content.mpiwg-berlin.mpg.de/archive/ids}.
+ \noindent Wenn die Daten direkt im Filesystem abgelegt werden muss vor der
+ Ablage im Webfrontend des ID-Servers eine Archiv-ID für das Dokument
+ reserviert werden.
+ \begin{figure}[htbp]
+   \centering
+   \includegraphics[width=0.6\textwidth]{archive-dirs}
+   \caption{Verzeichnisstruktur für den Rohdaten-Archivbereich}
+   \label{fig:dir-arch-raw}
+ \end{figure}
+ Die Rohdaten werden in einzelne Verzeichnisse gelegt, die jeweils
+ einzelnen Dokumenten entsprechen. Als Verzeichnisname wird die
+ \texttt{archive-id} verwendet. Je nach Art der Daten sollten
+ Unterordner nach den Empfehlungen in
+ Abschnitt~\ref{sec:dritte-eben-unter} angelegt werden. Für die
+ Dateinamen gelten ebenfalls die in
+ Abschnitt~\ref{sec:vierte-eben-date} angegebenen Regeln.
+ Einen schematischen Überblick über die Verzeichnisstruktur zeigt
+ Abbildung~\ref{fig:dir-arch-raw}.
+ \subsection{Ablage von Produktdaten im Archiv}
+ \label{sec:ablage-von-produkt}
+ \subsubsection{Erste Ebene: Projekte}
  \label{sec:erste-eben-proj}
- Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
+ Für jedes Projekt, das als Datenproduzent Archivdaten ablegen will,
- dem Namen des Projektes angelegt:
+ wird ein Ordner mit dem Namen des Projektes angelegt:
+ \url{archive/data/PROJEKTNAME}
- \texttt{archive/data/PROJEKTNAME}
+ \noindent Bsp: das Humboldtprojekt
- Bsp: das Humboldtprojekt
+ \url{archive/data/humboldt}
- \texttt{archive/data/humboldt}
+ \noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig,
+ weitere Unterordner zur Untergliederung der Dokumente anlegen.
- \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
+ \subsubsection{Zweite Ebene: Dokumente}
-   Bücher)}
  \label{sec:zweite-eben-dokum}
- Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen:
+ Für jedes abzulegende Dokument wird unterhalb des Projektordners ein
+ weiterer Ordner angelegt. Die Benennung dieser Ordner ist Teil des
+ Workflows des jeweiligen Projekts. Möglich die Verwendung
+ der \texttt{archive-id} als Ordnername analog zur Ablage der Rohdaten
+ (siehe Abschnitt~\ref{sec:ebene-dokumente}) aber auch andere Schemas.
+ Jedes zu archivierende Dokument muss eine \texttt{archive-id}
+ haben. Bevor ein neuer Ordner für ein neues Dokument angelegt wird,
+ sollte vom Archive-ID-Server eine neue \texttt{archive-id} reserviert
+ werden.
- \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
- Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch
+ \subsubsection{Dritte Ebene: Unterordner}
+ \label{sec:dritte-eben-unter}
- \begin{table}[htbp]
+ Innerhalb des Dokumentenordners werden weitere Unterordner für den
+ jeweiligen Datentyp angelegt:
- \begin{tabular}{lll}
+ \url{TYPE}
- &&Beispiel:\\ \hline
- AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\
+ \noindent oder
- TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\
+ \url{TYPE-sernr}
- SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\
+ \begin{description}
+ \item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder
+   \url{pageimg} für Scans einzelner Seiten oder \url{ocr} für
+   OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu
+   Dateien in den anderen Ordnern.
- lang&Sprache in der zweistelligen ISO-Codierung&de\\
+ \item[sernr] eine Seriennummer falls mehrere
+   Imagesätze zu einem Dokument gehören
+ \end{description}
- year&Erscheinungsjahr, vierstellig&1803
+ \noindent Außerdem muss in jedem Dokumentenordner eine Datei
+ \url{index.meta}
+ \noindent liegen, die Metadaten zum Ordner selbst enthält. Das Format dieser
+ Metadaten"=Datei ist im Dokument "`A simple metadata format for
+ resource
+ bundles"'\footnote{\url{http://pythia.mpiwg-berlin.mpg.de/projects/storagesystem/metadaten.html}}
+ beschrieben.
+ \subsubsection{Vierte Ebene: Dateien in den Ordnern}
+ \label{sec:vierte-eben-date}
+ Für Dateinamen gilt als Mindestanforderung, dass der Dateiname nur aus
+ zulässigen Zeichen besteht und die Dateiendung den Dateityp anzeigt.
+ Die alphabetische Ordnung der Namen muss der Reihenfolge der Daten
+ entsprechen. Nummerierte Dateien sollten daher Namen mit führenden
+ Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen wird folgende
+ Benennung:
+ \url{imagenummer.SUFFIX}
+ \noindent Imagenummer ist eine fünfstellige Zahl. Das Suffix muss den
+ Dateityp angeben. Eine (nicht erschöpfende) Liste von Dateitypen zeigt
+ Tabelle~\ref{tab:benennung-dateien}.
+ \begin{table}[htbp]
+   \centering
+   \begin{tabular}{ll}
+     suffix & Dateityp\\ \hline
+     \texttt{jpg}, \texttt{jpeg}  & JPEG-Bilddateien\\
+     \texttt{tif}, \texttt{tiff} & TIFF-Bilddateien \\
+     \texttt{png} & PNG-Bilddateien
  \end{tabular}
- \caption{Benennung Ordner}
+   \caption{Dateiendungen}
- \label{tab:benennung}
+   \label{tab:benennung-dateien}
  \end{table}
- Tabelle 1: Benennung Ordner
+ \section{Ablage der Onlinedaten}
+ \label{sec:ablage-der-onlin}
+ Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
+ werden auf foxridge zwei Pfade angeboten:
+ \url{online/experimental}
- \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
+ \noindent und
- \label{sec:dritte-eben-unter}
- Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt:
+ \url{online/permanent}
+ \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
+ ist \url{online/experimental} vorgesehen. Pfade innerhalb dieses
+ Bereiches können verändert und gelöscht werden.
- \begin{table}[htbp]
+ Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
-   \centering
+ \url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
-   \begin{tabular}{lll}
+ nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
- &Benennung&\\ \hline
+ oder umbenannt werden.
- für die Images (verpflichtend)&id-sernr-TYPE\\
+ Die interne Struktur der Projekt- und Dokumentordner in
+ \url{online/permanent} entspricht der in
+ Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von
+ \url{archive/data}.
- oder\\
+ \section{Workflow: Scannen durch die Digitalisierungsgruppe}
+ \label{sec:workflow-fur-die}
+ Größere Mengen von Büchern und Manuskripten werden von der
+ Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt.
+ Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen
+ Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate
+ werden zunächst in drei verschiedenen Formen erzeugt.
- TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\
+ \subsection{Typen von Bilddaten}
+ \label{sec:daten-typen}
- weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\
+ \begin{itemize}
+ \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
+   ohne weitere Nachbearbeitung\footnote{Die Digitalisierungsgruppe
+     dokumentieren dazu welche Arbeits- und Bearbeitungsschritte bei
+     welchem Gerät als integraler Teil des Scanvorgangs betrachtet
+     werden.}. Diese Dateien sind nicht für die weitere Nutzung durch
+   Andere gedacht und sollen nur archiviert werden.
+ \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
+   Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
+   Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
+   werden.
+ \item Als \emph{Online-Image} in reduzierter Auflösung für die
+   Online-Präsentation. Diese Dateien können ebenfalls durch andere
+   Projekte genutzt werden und müssen online zur Verfügung stehen.
+ \end{itemize}
- oder\\
+ Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
+ von der Digitalisierungsgruppe selbständig durchgeführt.
+ \subsection{Ablage und Übergabe der Rohdaten}
+ \label{sec:ablage-und-ubergabe}
- TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\
+ \begin{enumerate}
+ \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
+   oder Bereichen für Bewegungsdaten.
- Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern
+ \item Die Digigruppe kopiert Roh-Images und User-Images in einen
+   Dokumenten-Ordner mit den notwendigen Metadaten und einer neuen
+   Archiv-ID nach den Regeln in Abschnitt~\ref{sec:ebene-dokumente} im
+   Bereich \url{archive/data/library}.  Roh-Images werden in einem
+   Unterordner \url{raw} abgelegt und User-Images in \url{pageimg}.
-   \end{tabular}
+ \item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag)
-   \caption{Benennung Unterordner}
+   über den Ablageort der Daten.\footnote{Idealerweise würden die Roh-Images
-   \label{tab:unter}
+     bereits archiviert und von der Platte gelöscht während die User-Daten erhalten
- \end{table}
+     bleiben.}
- Tabelle 2: Ordner
+ \item Der Auftraggeber verwendet die User-Images. Veränderte Formen
+   der Images erstellt und archiviert der Auftraggeber in seiner
+   eigenen Projekt"=Hierarchie.
+ \item Der Auftraggeber veranlasst die vollständige Migration (Löschung
+   von der Festplatte) der von der Digigruppe erstellten Daten sobald
+   sie nicht mehr direkt verwendet werden.
+ \end{enumerate}
- Ausserdem liegt in jedem Dokumentenordner eine Datei:
- index.meta
+ \subsection{Ablage der Online-Images}
+ \label{sec:ablage-der-online}
- die die Metadaten zum Ordner selbst enthält.
+ Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache
+ mit dem Projekt
+ \begin{itemize}
+ \item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn
+   es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
- \subsection{Vierte Ebene: Dateien in den Ordnern}
+ \item als fertige Images im Archivbereich bei den User-Images in einem
- \label{sec:vierte-eben-date}
+   Ordner \url{jpg} (o.ä.) zur Nutzung durch das Projekt in seinem
+   Online-Bereich
- Minimal müssen die Dateinamen so sein, dass ihre alphanumerische
+ \item für Projekte, die selbst weiter verarbeitete Online-Images zur
- Ordnung der Ordnung der Daten entspricht. Insbesondere sollten
+   Verfügung stellen werden keine Online-Images erzeugt.
- nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten.
+ \end{itemize}
- Das Suffix muss den Dateityp angeben.
- \begin{table}[htbp]
+ \section{Erfassung der Metadaten für Archivdaten}
+ \label{sec:use-case-workflow}
+ \subsection{Abfrage der Metadaten}
+ \label{sec:abfr-der-metad}
+ Den Entscheidungsbaum der Metadaten-Abfrage zeigt
+ Abbildung~\ref{fig:arch-meta-abfrage}.
+ \begin{figure}[htbp]
    \centering
-   \begin{tabular}{ll}
+   \includegraphics[width=\textwidth]{meta-decision}
+   \caption{Entscheidungsbaum der Metadaten-Abfrage für Archivdaten}
+   \label{fig:arch-meta-abfrage}
+ \end{figure}
- suffix&Dateityp\\ \hline
- jpg&jpg-Bilddateien\\
+ \subsubsection{Dokumentenstatus: Rohdaten}
+ \label{sec:dokum-rohd}
- tif&tif-Format nicht komprimiert\\
+ Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft
+ wurden oder am Institut erzeugt werden und am Anfang eines möglichen
+ workflows stehen.
- png&png
+ Zu Rohdaten müssen weitere Informationen für einen
+ \texttt{acquisition} Block in den Metadaten eingegeben werden:
-   \end{tabular}
+ \begin{description}
-   \caption{Benennung Dateien}
+ \item[acquisition] the acquisition source of this resource -- required
- \label{tab:benennung-dateien}
+   \begin{description}
- \end{table}
+   \item[provider] where this resource came from --required
+     \begin{description}
+     \item[name] free-text name of the provider (institution or
+       individual)
+     \item[address] address of the provider
+     \item[contact] contact person at the provider (i.e. name and email)
- Empfohlen wird folgende Bennung:
+     \item[url] URL related to the provider
+     \end{description}
- \texttt{id-sernr-imagenumber.suffx}
+   \item[date] date of acquisition -- required
- wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl.
+   \item[description] free-text description of the acquisition source or
+     additional information
- Übersicht:
+   \item[provider-id] id of the provider (internally used) -- deduced
+   \end{description}
+ \end{description}
+ \subsubsection{Dokumentenstatus: Verarbeitete Daten}
+ \label{sec:dokum-verarb-daten}
+ Wenn die verarbeiteten Daten aus bereits abgelegten Rohdaten erzeugt
+ wurden, dann sollte ein Hinweis auf das Rohdaten-Verzeichnis im Tag
+ \texttt{derived-from} angebracht werden.
+ \begin{description}
+ \item[derived-from] Container for the description of the original
+   resource if this resource is a modified version of another resource
+   -- required for processed data.
+   \begin{description}
+   \item[archive-id] The ID of the original resource
+     -- required.
+   \item[archive-path] The full path to the original resource
+     -- deduced.
+   \item[description] An informal textual description of the relation
+   of this resource to the original resource -- optional.
+   \end{description}
+ \end{description}
+ \subsubsection{Medientyp: Video}
+ \label{sec:medientyp-video}
+ Filme haben den Medientyp \texttt{video}. Sie können zusätzlich mit
+ Metadaten in einem \texttt{film-acquisition} Metadaten-ELement
+ beschrieben werden.
+ \begin{description}
+ \item[film-acquisition] description of a (documentary) film --
+   required for documentary film
+   \begin{description}
+   \item[recording] specification of the recording process
+     \begin{description}
+     \item[author] the person or persons doing the recording
+     \item[date] the date or time span when the film was recorded
+     \item[location] the place where the film was recorded
+     \item[device] recording device used (e.g. ``Sony CP-DV8 Camcorder'')
+     \item[format] format of the recorded film -- required (e.g. ``DV 720x524 25fps
+     interlaced'')
+     \end{description}
+   \item[description] free-form description of the recording and the
+     content of the film
+   \end{description}
+ \end{description}
+ \subsubsection{Medientyp: Audio}
+ \label{sec:medientyp-audio}
+ Für den Medientyp \texttt{audio} exisitieren noch keine
+ Metadaten-Vorschläge.
+ \subsubsection{Medientyp: Image}
+ \label{sec:medientyp-image}
+ Der Medientyp \texttt{image} ist für Einzelbilder und Gruppen von
+ Bildern gedacht, die kein Buch o.ä. darstellen.
+ Für die Beschreibung der Erfassung und das Format der digitalisierten
+ Bilder gibt es die Metadaten-Elemente \texttt{image-acquisition} und
+ \texttt{img}.
+ \begin{description}
+ \item[image-acquisition] description of the image production process
+   -- required
+   \begin{description}
+   \item[device] acquisition device (e.g. ``flatbed scanner'')
+   \item[image-type] type and color-depth of the image -- required (e.g. ``RGB 24
+     bit'')
+   \item[production-comment] additional textual information about the
+     production process
+   \end{description}
+ \end{description}
+ \begin{description}
+ \item[img] digital image information.
+   \begin{description}
+   \item[original-size-x] The width of the original
+     image -- required. \\
+     The unit of measure can be contained as parameter \texttt{unit},
+     the default is meter ``m''. The width to be considered is the
+     total width of the scanned area.
+   \item[original-size-y] The height of the original image -- required.
+   \item[original-pixel-x] The width of the hi-res scan in pixels -- deduced.
+   \item[original-pixel-y] The height of the hi-res scan in pixels -- deduced.
+   \end{description}
+ \end{description}
+ Für die Inhaltliche Erfassung von Bildern gibt es bisher keinen
+ Metadaten-Vorschlag.
+ \subsubsection{Medientyp: Text}
+ \label{sec:medientyp-text}
+ Für Volltexte, d.h. maschinenlesbaren Text in verschiedenen Formaten
+ ist der Medientyp \texttt{text} gedacht.
+ Die inhaltliche Erfassung erfolgt über das Metadaten-Element
+ \texttt{bib} mit verschiedenen Untertypen, das sich an der
+ Projektbibliographie des MPIWG orientiert.
- \section{Ablage der Onlinedaten}
- \label{sec:ablage-der-onlin}
- Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
- werden auf foxridge zwei Pfade angeboten
- \texttt{online/experimental}
+ \subsubsection{Medientyp: Scanned Text}
+ \label{sec:medi-scann-text}
- und
+ Zum Medientyp \texttt{scanned-text} gehören alle gescannten Bilder von
+ Texten, die als Text behandelt werden.
- \texttt{online/permanent}
+ Die Medienerfassung orientiert sich am Medientyp \texttt{image} mit
+ den Elementen \texttt{image-acquisition} und \texttt{img}.
- \texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur
+ Die inhaltliche Erfassung orientiert sich am Medientyp \texttt{text}
- temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches
+ mit dem \texttt{bib} Element.
- können verändert und gelöscht werden.
- \texttt{online/permanent} ist für Dokumente die auf längere Zeit im
- Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert
- oder gelöscht werden, Dokumente dürfen nicht verschoben werden.
- Die interne Struktur der Dokumentordner in \texttt{online/permanent}
+ \subsubsection{Medientyp: other}
- entspricht der oben dargestellten Struktur innerhalb von
+ \label{sec:medientyp-other}
- \texttt{archive/data}.
+ Die Vergabe und Behandlung von Medientypen sollte flexibel und
+ erweiterbar sein.
  \end{document}

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>

Removed from v.1.1
changed lines
	Added in v.1.7