Diff for /storage/names/file-format.tex between versions 1.1 and 1.7

version 1.1, 2003/06/24 14:15:07 version 1.7, 2003/12/09 17:45:02
Line 1 Line 1
 \documentclass[a4paper, abstracton]{scrartcl}  \documentclass[a4paper]{article}
   
 \usepackage{ngerman}  \usepackage{ngerman}
   
Line 9 Line 9
 %\usepackage{courier}  %\usepackage{courier}
   
 % create in-text links in black (with PDF)  % create in-text links in black (with PDF)
 %\usepackage[colorlinks=true,linkcolor=black]{hyperref}  \usepackage[colorlinks=true,linkcolor=black]{hyperref}
 % Format URLs nicely (without PDF)  % Format URLs nicely (without PDF)
 %\usepackage{url}  %\usepackage{url}
   % Grafik
   \usepackage{graphicx}
   % Verzeichnis mit Abbildungen
   \graphicspath{{images/}}
   
 \title{Ablage von Massendaten im Archiv- und Backupsystem}  \title{Ablage von Massendaten im Archiv- und Backupsystem}
   
 \author{Dirk Wintergrün, Robert Casties}  \author{Dirk Wintergrün, Robert Casties}
   
   \date{V0.10.1 of \today}
   
 \begin{document}  \begin{document}
   
 \maketitle  \maketitle
   
 \begin{abstract}  \begin{abstract}
   In diesem Dokument werden die Ablage von Massendaten auf dem    In diesem Dokument wird die Ablage von Massendaten auf dem
   zentralen Archiv- und Filesystem des MPIWG beschrieben    zentralen Archiv- und Ablagesystem des MPIWG beschrieben
 \end{abstract}  \end{abstract}
   
 \tableofcontents  \tableofcontents
Line 33 Line 39
 \label{sec:datentypen-fur-die}  \label{sec:datentypen-fur-die}
   
   
 Die in diesem Dokument definierten Regeln gelten für  Die in diesem Dokument definierten Regeln gelten
 \footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)}  für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.}
   
 \begin{description}  \begin{description}
 \item[Archivdaten], die innerhalb der Digitalisierungsprojekte des  \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne    Instituts anfallen und als Rohdaten oder Produktionsdaten in
   ständigen Zugriff langfristig gesichert werden sollen (Pfad:    möglichst hoher Qualität ohne ständigen Zugriff langfristig
   archive/data)    gesichert werden sollen (Pfad: \url{archive/data})
       
 \item[Präsentationsdaten], die über das Internet verfügbar gemacht werden  \item[Langfristige Präsentationsdaten] die über das Internet verfügbar
   sollen und deren URL bzw. URI langfristig stabil gehalten werden    gemacht werden sollen und deren URL bzw. URI langfristig stabil
   sollen (Pfad: \texttt{online/permanent})    gehalten werden sollen (Pfad: \url{online/permanent})
       
   
 \item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig  \item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die
   online verfügbar sein sollen (Pfad: \texttt{online/experimental})    kurzfristig und nur für begrenzte Zeit online verfügbar sein sollen
     (Pfad: \url{online/experimental})
       
 \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von  \item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von
   Kooperationsprojekten gehalten werden und auf die ständiger Zugriff    Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
   z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:    z.B. zum Zweck der Synchronisation notwendig ist.(Pfad:
   \texttt{mirrors})    \url{mirrors})
 \end{description}  \end{description}
   
   
Line 61  Die in diesem Dokument definierten Regel Line 68  Die in diesem Dokument definierten Regel
 \label{sec:zugang-zum-server}  \label{sec:zugang-zum-server}
   
 Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver  Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
 \texttt{foxridge}, der physikalisch am FHI beheimatet ist.  \texttt{foxridge}, der physisch am FHI steht.
   
 Zugang per FTP, SCP, SFTP über:  
   
 \texttt{foxridge.mpiwg-berlin.mpg.de}  
   
   \begin{itemize}
   \item Zugang per FTP, SCP, SFTP über:
     \url{foxridge.mpiwg-berlin.mpg.de} \\
 Zugang zu den Daten in den Verzeichnissen  Zugang zu den Daten in den Verzeichnissen
 \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},    \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent},
 \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}    \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors}
   
 Zugang per Appletalk (AFP) über:  
   
 Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver}  
   
 Zugang zu den Daten über die Freigaben \texttt{archive\_data},  
 \texttt{online\_permanent}, \texttt{online\_experimental} und  
 \texttt{mirrors}  
   
   \item Zugang per Appletalk (AFP) über: Auswahl des Servers
     \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
     Zugang zu den Daten über die Freigaben \url{archive\_data},
     \url{online\_permanent}, \url{online\_experimental} und
     \url{mirrors}
   \end{itemize}
   
   
 \section{Benutzerkennung}  \section{Benutzerkennung}
 \label{sec:benutzerkennung}  \label{sec:benutzerkennung}
   
 Benutzerkennungen und Passworte für die Ablage der Massendaten werden  Benutzerkennungen und Passworte für die Ablage der Massendaten werden
 projektspezifisch vergeben.  projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der
     Zugriffsrechte fehlt noch.}
   
   
 \section{Erlaubte Zeichen in Datei- und Ordnernamen}  \section{Erlaubte Zeichen in Datei- und Ordnernamen}
 \label{sec:erla-zeich-datei}  \label{sec:erla-zeich-datei}
   
 Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',  Erlaubte Zeichen in Datei- und Ordnernamen sind Kleinbuchstaben (a-z),
 "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.  Großbuchstaben (A-Z), Ziffern (0-9), Bindestrich ("`-"'), Unterstrich
   ("`\_"') und Punkt ("`."'). Andere Zeichen und Leerzeichen sind nicht
   zulässig. Es wird empfohlen für Datei- und Ordnernamen ausschliesslich
   Kleinschreibung zu verwenden.
   
   Für die Umsezung von Dateinamen, die anderen Zeichen enthalten wird
   empfohlen alle Leerzeichen durch Bindestriche ("`-"') und andere
   nichtzulässige Zeichen durch Unterstriche ("`\_"') zu ersetzen.
   
   
 \section{Ablage von Archivdaten}  \section{Ablage von Archivdaten}
 \label{sec:ablage-von-arch}  \label{sec:ablage-von-arch}
   
 Archivdaten werden nur temporär auf dem Server gehalten und dann auf  Archivdaten werden nur temporär auf der Festplatte des Servers
 Band gesichert. Auf Foxridge ist dafür der Pfad  gehalten. Nach der Archivierung auf Magnetbänder werden sie von der
   Festplatte gelöscht. Die Metadaten bleiben auch nach dem Löschen der
   Daten auf der Festplatte. Für Archivdaten ist auf Foxridge der Pfad
   
   \url{/mpiwg/archive/data} bzw. \url{archive_data}
   
   \noindent vorgesehen. 
   
   Die Ablage von Archivdaten erfolgt abhängig davon ob es sich um 
   \emph{Rohdaten} oder \emph{Produktionsdaten} handelt.
   
   
   \subsection{Ablage von Rohdaten im Archiv}
   \label{sec:ablage-von-rohdaten}
   
   Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft
   wurden oder am Institut erzeugt werden und am Anfang eines workflows stehen.
   
   Rohdaten können entweder über ein Web-Frontend oder direkt im
   Filesystem des Servers abgelegt werden. Bei der Ablage über das
   Web-Frontend wird ein Metadaten-File automatisch erzeugt. Bei der
   Ablage "`von Hand"' auf dem Server kann ein Metadaten-File
   nachträglich mit Hilfe eines Web-Frontends erzeugt werden.
   
   Die wichtigste Information über die Rohdaten ist ihre Quelle, die in
   einem \texttt{acquisition} Metadaten-Element beschrieben wird.
   Außerdem müssen, je nach Medientyp verschiedene technische Angaben
   über die abgelegten Daten erfolgen.
   
   Weitere inhaltliche Metadaten, wie eine bibliographische Bestimmung
   erhalten zunächst nur den Metadaten-Status "`vorläufig"'
   (\texttt{wf-status} \texttt{preliminary}).
   
   
   \subsubsection{Erste Ebene: Provider}
   \label{sec:ebene-provider}
   
 \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}  Die Rohdaten werden im Filesystem des Servers in Ordnern entsprechend
   ihrer Quelle, ihres \emph{Providers} abgelegt. Bei externen
   Lieferungen ist der Lieferant direkt als Provider angesehen
   werden. Das gleiche gilt z.B. für Arbeiten der Digitalisierungsgruppe der
   Bibliothek. Bei Arbeiten, die im Rahmen von Projekten von einzelnen
   Mitarbeitern im Haus erstellt werden, liegt es in der Verantwortung
   der Projekte einen Provider-Namen zu benennen. 
   
 vorgesehen.   Zur Vereinheitlichung der Provider-Bezeichnungen wird ein zentrales
   Verzeichnis mit Provider-Namen und IDs erstellt.
   
   
 \subsection{Erste Ebene: Projekte}  \subsubsection{Zweite Ebene: Dokumente}
   \label{sec:ebene-dokumente}
   
   Unterhalb der Provider-Ebene werden Dokumente nach ihrer ID abgelegt.
   Zu diesem Zweck erhalten alle Dokumente eine \texttt{archive-id}, eine
   eindeutige achtstellige Zeichenfolge, vom Archiv"=ID"=Server
   
   \url{http://content.mpiwg-berlin.mpg.de/archive/ids}. 
   
   \noindent Wenn die Daten direkt im Filesystem abgelegt werden muss vor der
   Ablage im Webfrontend des ID-Servers eine Archiv-ID für das Dokument
   reserviert werden.
   
   \begin{figure}[htbp]
     \centering
     \includegraphics[width=0.6\textwidth]{archive-dirs}
     \caption{Verzeichnisstruktur für den Rohdaten-Archivbereich}
     \label{fig:dir-arch-raw}
   \end{figure}
   
   Die Rohdaten werden in einzelne Verzeichnisse gelegt, die jeweils
   einzelnen Dokumenten entsprechen. Als Verzeichnisname wird die
   \texttt{archive-id} verwendet. Je nach Art der Daten sollten
   Unterordner nach den Empfehlungen in
   Abschnitt~\ref{sec:dritte-eben-unter} angelegt werden. Für die
   Dateinamen gelten ebenfalls die in
   Abschnitt~\ref{sec:vierte-eben-date} angegebenen Regeln.
   
   Einen schematischen Überblick über die Verzeichnisstruktur zeigt
   Abbildung~\ref{fig:dir-arch-raw}.
   
   
   
   \subsection{Ablage von Produktdaten im Archiv}
   \label{sec:ablage-von-produkt}
   
   \subsubsection{Erste Ebene: Projekte}
 \label{sec:erste-eben-proj}  \label{sec:erste-eben-proj}
   
 Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit  Für jedes Projekt, das als Datenproduzent Archivdaten ablegen will,
 dem Namen des Projektes angelegt:  wird ein Ordner mit dem Namen des Projektes angelegt:
   
   \url{archive/data/PROJEKTNAME}
   
 \texttt{archive/data/PROJEKTNAME}  \noindent Bsp: das Humboldtprojekt
   
 Bsp: das Humboldtprojekt  \url{archive/data/humboldt}
   
 \texttt{archive/data/humboldt}  \noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig,
   weitere Unterordner zur Untergliederung der Dokumente anlegen.
   
   
 \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,  \subsubsection{Zweite Ebene: Dokumente}
   Bücher)}  
 \label{sec:zweite-eben-dokum}  \label{sec:zweite-eben-dokum}
   
 Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen:  Für jedes abzulegende Dokument wird unterhalb des Projektordners ein
   weiterer Ordner angelegt. Die Benennung dieser Ordner ist Teil des
   Workflows des jeweiligen Projekts. Möglich die Verwendung
   der \texttt{archive-id} als Ordnername analog zur Ablage der Rohdaten
   (siehe Abschnitt~\ref{sec:ebene-dokumente}) aber auch andere Schemas.
   
   Jedes zu archivierende Dokument muss eine \texttt{archive-id}
   haben. Bevor ein neuer Ordner für ein neues Dokument angelegt wird,
   sollte vom Archive-ID-Server eine neue \texttt{archive-id} reserviert
   werden.
   
 \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}  
   
 Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch  \subsubsection{Dritte Ebene: Unterordner}
   \label{sec:dritte-eben-unter}
   
 \begin{table}[htbp]  Innerhalb des Dokumentenordners werden weitere Unterordner für den
   jeweiligen Datentyp angelegt:
   
 \begin{tabular}{lll}  \url{TYPE}
 &&Beispiel:\\ \hline  
   
 AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\  \noindent oder
   
 TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\  \url{TYPE-sernr}
   
 SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\  \begin{description}
   \item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder
     \url{pageimg} für Scans einzelner Seiten oder \url{ocr} für
     OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu
     Dateien in den anderen Ordnern.
   
 lang&Sprache in der zweistelligen ISO-Codierung&de\\  \item[sernr] eine Seriennummer falls mehrere
     Imagesätze zu einem Dokument gehören
   \end{description}
   
 year&Erscheinungsjahr, vierstellig&1803  \noindent Außerdem muss in jedem Dokumentenordner eine Datei
   
   \url{index.meta}
   
   \noindent liegen, die Metadaten zum Ordner selbst enthält. Das Format dieser
   Metadaten"=Datei ist im Dokument "`A simple metadata format for
   resource
   bundles"'\footnote{\url{http://pythia.mpiwg-berlin.mpg.de/projects/storagesystem/metadaten.html}}
   beschrieben.
   
   
   \subsubsection{Vierte Ebene: Dateien in den Ordnern}
   \label{sec:vierte-eben-date}
   
   Für Dateinamen gilt als Mindestanforderung, dass der Dateiname nur aus
   zulässigen Zeichen besteht und die Dateiendung den Dateityp anzeigt.
   Die alphabetische Ordnung der Namen muss der Reihenfolge der Daten
   entsprechen. Nummerierte Dateien sollten daher Namen mit führenden
   Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen wird folgende
   Benennung:
   
   \url{imagenummer.SUFFIX}
   
   \noindent Imagenummer ist eine fünfstellige Zahl. Das Suffix muss den
   Dateityp angeben. Eine (nicht erschöpfende) Liste von Dateitypen zeigt
   Tabelle~\ref{tab:benennung-dateien}.
   
   \begin{table}[htbp]
     \centering
     \begin{tabular}{ll}
   
       suffix & Dateityp\\ \hline
   
       \texttt{jpg}, \texttt{jpeg}  & JPEG-Bilddateien\\
       
       \texttt{tif}, \texttt{tiff} & TIFF-Bilddateien \\
       
       \texttt{png} & PNG-Bilddateien
 \end{tabular}  \end{tabular}
 \caption{Benennung Ordner}    \caption{Dateiendungen}
 \label{tab:benennung}    \label{tab:benennung-dateien}  
 \end{table}  \end{table}
 Tabelle 1: Benennung Ordner  
   
   
   \section{Ablage der Onlinedaten}
   \label{sec:ablage-der-onlin}
   
   Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
   werden auf foxridge zwei Pfade angeboten:
   
   \url{online/experimental}
   
 \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}  \noindent und
 \label{sec:dritte-eben-unter}  
   
 Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt:  \url{online/permanent}
   
   \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
   ist \url{online/experimental} vorgesehen. Pfade innerhalb dieses
   Bereiches können verändert und gelöscht werden.
   
 \begin{table}[htbp]  Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
   \centering  \url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
   \begin{tabular}{lll}  nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
 &Benennung&\\ \hline  oder umbenannt werden.
   
 für die Images (verpflichtend)&id-sernr-TYPE\\  Die interne Struktur der Projekt- und Dokumentordner in
   \url{online/permanent} entspricht der in
   Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von
   \url{archive/data}.
   
   
   
 oder\\  \section{Workflow: Scannen durch die Digitalisierungsgruppe}
   \label{sec:workflow-fur-die}
   
   
   Größere Mengen von Büchern und Manuskripten werden von der
   Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt.
   Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen
   Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate
   werden zunächst in drei verschiedenen Formen erzeugt.
   
 TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\  \subsection{Typen von Bilddaten}
   \label{sec:daten-typen}
   
 weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\  \begin{itemize}
   \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
     ohne weitere Nachbearbeitung\footnote{Die Digitalisierungsgruppe
       dokumentieren dazu welche Arbeits- und Bearbeitungsschritte bei
       welchem Gerät als integraler Teil des Scanvorgangs betrachtet
       werden.}. Diese Dateien sind nicht für die weitere Nutzung durch
     Andere gedacht und sollen nur archiviert werden.
   
   \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
     Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
     Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
     werden.
   
   \item Als \emph{Online-Image} in reduzierter Auflösung für die
     Online-Präsentation. Diese Dateien können ebenfalls durch andere
     Projekte genutzt werden und müssen online zur Verfügung stehen.
   \end{itemize}
   
 oder\\  Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
   von der Digitalisierungsgruppe selbständig durchgeführt. 
   
   
   \subsection{Ablage und Übergabe der Rohdaten}
   \label{sec:ablage-und-ubergabe}
   
 TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\  \begin{enumerate}
   \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
     oder Bereichen für Bewegungsdaten.
   
 Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern  \item Die Digigruppe kopiert Roh-Images und User-Images in einen
     Dokumenten-Ordner mit den notwendigen Metadaten und einer neuen
     Archiv-ID nach den Regeln in Abschnitt~\ref{sec:ebene-dokumente} im
     Bereich \url{archive/data/library}.  Roh-Images werden in einem
     Unterordner \url{raw} abgelegt und User-Images in \url{pageimg}.
   
   \end{tabular}  \item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag)
   \caption{Benennung Unterordner}    über den Ablageort der Daten.\footnote{Idealerweise würden die Roh-Images
   \label{tab:unter}      bereits archiviert und von der Platte gelöscht während die User-Daten erhalten
 \end{table}      bleiben.}
   
 Tabelle 2: Ordner  \item Der Auftraggeber verwendet die User-Images. Veränderte Formen
     der Images erstellt und archiviert der Auftraggeber in seiner
     eigenen Projekt"=Hierarchie.
   
   \item Der Auftraggeber veranlasst die vollständige Migration (Löschung
     von der Festplatte) der von der Digigruppe erstellten Daten sobald
     sie nicht mehr direkt verwendet werden.
   \end{enumerate}
   
   
 Ausserdem liegt in jedem Dokumentenordner eine Datei:  
   
 index.meta  \subsection{Ablage der Online-Images}
   \label{sec:ablage-der-online}
   
 die die Metadaten zum Ordner selbst enthält.  Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache
   mit dem Projekt
   
   \begin{itemize}
   \item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn
     es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
   
 \subsection{Vierte Ebene: Dateien in den Ordnern}  \item als fertige Images im Archivbereich bei den User-Images in einem
 \label{sec:vierte-eben-date}    Ordner \url{jpg} (o.ä.) zur Nutzung durch das Projekt in seinem
     Online-Bereich
   
 Minimal müssen die Dateinamen so sein, dass ihre alphanumerische  \item für Projekte, die selbst weiter verarbeitete Online-Images zur
 Ordnung der Ordnung der Daten entspricht. Insbesondere sollten    Verfügung stellen werden keine Online-Images erzeugt.
 nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten.  \end{itemize}
   
 Das Suffix muss den Dateityp angeben.  
   
 \begin{table}[htbp]  
   \section{Erfassung der Metadaten für Archivdaten}
   \label{sec:use-case-workflow}
   
   
   \subsection{Abfrage der Metadaten}
   \label{sec:abfr-der-metad}
   
   Den Entscheidungsbaum der Metadaten-Abfrage zeigt
   Abbildung~\ref{fig:arch-meta-abfrage}.
   
   \begin{figure}[htbp]
   \centering    \centering
   \begin{tabular}{ll}    \includegraphics[width=\textwidth]{meta-decision}
     \caption{Entscheidungsbaum der Metadaten-Abfrage für Archivdaten}
     \label{fig:arch-meta-abfrage}
   \end{figure}
   
 suffix&Dateityp\\ \hline  
   
 jpg&jpg-Bilddateien\\  \subsubsection{Dokumentenstatus: Rohdaten}
   \label{sec:dokum-rohd}
   
 tif&tif-Format nicht komprimiert\\  Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft
   wurden oder am Institut erzeugt werden und am Anfang eines möglichen
   workflows stehen.
   
 png&png  Zu Rohdaten müssen weitere Informationen für einen
   \texttt{acquisition} Block in den Metadaten eingegeben werden:
   
   \end{tabular}  \begin{description}
   \caption{Benennung Dateien}  \item[acquisition] the acquisition source of this resource -- required
 \label{tab:benennung-dateien}      \begin{description}
 \end{table}    \item[provider] where this resource came from --required
       \begin{description}
       \item[name] free-text name of the provider (institution or
         individual)
   
       \item[address] address of the provider
   
       \item[contact] contact person at the provider (i.e. name and email)
   
 Empfohlen wird folgende Bennung:      \item[url] URL related to the provider
       \end{description}
   
 \texttt{id-sernr-imagenumber.suffx}    \item[date] date of acquisition -- required
   
 wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl.    \item[description] free-text description of the acquisition source or
       additional information
   
 Übersicht:    \item[provider-id] id of the provider (internally used) -- deduced
     \end{description}
   \end{description}
   
   
   \subsubsection{Dokumentenstatus: Verarbeitete Daten}
   \label{sec:dokum-verarb-daten}
   
   Wenn die verarbeiteten Daten aus bereits abgelegten Rohdaten erzeugt
   wurden, dann sollte ein Hinweis auf das Rohdaten-Verzeichnis im Tag
   \texttt{derived-from} angebracht werden.
   
   \begin{description}
   \item[derived-from] Container for the description of the original
     resource if this resource is a modified version of another resource
     -- required for processed data.
   
     \begin{description}
     \item[archive-id] The ID of the original resource
       -- required.
   
     \item[archive-path] The full path to the original resource
       -- deduced.
   
     \item[description] An informal textual description of the relation
     of this resource to the original resource -- optional.
     \end{description}
   \end{description}
   
   
   \subsubsection{Medientyp: Video}
   \label{sec:medientyp-video}
   
   Filme haben den Medientyp \texttt{video}. Sie können zusätzlich mit
   Metadaten in einem \texttt{film-acquisition} Metadaten-ELement
   beschrieben werden.
   
   \begin{description}
   \item[film-acquisition] description of a (documentary) film --
     required for documentary film
     \begin{description}
     \item[recording] specification of the recording process
       \begin{description}
       \item[author] the person or persons doing the recording
   
       \item[date] the date or time span when the film was recorded
   
       \item[location] the place where the film was recorded
   
       \item[device] recording device used (e.g. ``Sony CP-DV8 Camcorder'')
   
       \item[format] format of the recorded film -- required (e.g. ``DV 720x524 25fps
       interlaced'')
       \end{description}
    
     \item[description] free-form description of the recording and the
       content of the film
     \end{description}
   \end{description}
   
   
   \subsubsection{Medientyp: Audio}
   \label{sec:medientyp-audio}
   
   Für den Medientyp \texttt{audio} exisitieren noch keine
   Metadaten-Vorschläge.
   
   
   
   \subsubsection{Medientyp: Image}
   \label{sec:medientyp-image}
   
   Der Medientyp \texttt{image} ist für Einzelbilder und Gruppen von
   Bildern gedacht, die kein Buch o.ä. darstellen.
   
   Für die Beschreibung der Erfassung und das Format der digitalisierten
   Bilder gibt es die Metadaten-Elemente \texttt{image-acquisition} und
   \texttt{img}.
   
   \begin{description}
   \item[image-acquisition] description of the image production process
     -- required
     \begin{description}
     \item[device] acquisition device (e.g. ``flatbed scanner'')
   
     \item[image-type] type and color-depth of the image -- required (e.g. ``RGB 24
       bit'')
   
     \item[production-comment] additional textual information about the
       production process
     \end{description}
   \end{description}
   
   \begin{description}
   \item[img] digital image information.
   
     \begin{description}
     \item[original-size-x] The width of the original
       image -- required. \\
       The unit of measure can be contained as parameter \texttt{unit},
       the default is meter ``m''. The width to be considered is the
       total width of the scanned area.
       
     \item[original-size-y] The height of the original image -- required.
       
     \item[original-pixel-x] The width of the hi-res scan in pixels -- deduced.
       
     \item[original-pixel-y] The height of the hi-res scan in pixels -- deduced.
     \end{description}
   \end{description}
   
   Für die Inhaltliche Erfassung von Bildern gibt es bisher keinen
   Metadaten-Vorschlag.
   
   
   \subsubsection{Medientyp: Text}
   \label{sec:medientyp-text}
   
   Für Volltexte, d.h. maschinenlesbaren Text in verschiedenen Formaten
   ist der Medientyp \texttt{text} gedacht.
   
   Die inhaltliche Erfassung erfolgt über das Metadaten-Element
   \texttt{bib} mit verschiedenen Untertypen, das sich an der
   Projektbibliographie des MPIWG orientiert.
   
 \section{Ablage der Onlinedaten}  
 \label{sec:ablage-der-onlin}  
   
 Für Daten die für die direkte Präsentation im Netz vorgesehen sind,  
 werden auf foxridge zwei Pfade angeboten  
   
 \texttt{online/experimental}  \subsubsection{Medientyp: Scanned Text}
   \label{sec:medi-scann-text}
   
 und  Zum Medientyp \texttt{scanned-text} gehören alle gescannten Bilder von
   Texten, die als Text behandelt werden.
   
 \texttt{online/permanent}  Die Medienerfassung orientiert sich am Medientyp \texttt{image} mit
   den Elementen \texttt{image-acquisition} und \texttt{img}.
   
 \texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur  Die inhaltliche Erfassung orientiert sich am Medientyp \texttt{text}
 temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches  mit dem \texttt{bib} Element.
 können verändert und gelöscht werden.  
   
 \texttt{online/permanent} ist für Dokumente die auf längere Zeit im  
 Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert  
 oder gelöscht werden, Dokumente dürfen nicht verschoben werden.  
   
 Die interne Struktur der Dokumentordner in \texttt{online/permanent}  \subsubsection{Medientyp: other}
 entspricht der oben dargestellten Struktur innerhalb von  \label{sec:medientyp-other}
 \texttt{archive/data}.  
   
   Die Vergabe und Behandlung von Medientypen sollte flexibel und
   erweiterbar sein.
   
   
 \end{document}  \end{document}

Removed from v.1.1  
changed lines
  Added in v.1.7


FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>