Diff for /storage/names/file-format.tex between versions 1.6 and 1.7

version 1.6, 2003/08/15 22:29:00 version 1.7, 2003/12/09 17:45:02
Line 9 Line 9
 %\usepackage{courier}  %\usepackage{courier}
   
 % create in-text links in black (with PDF)  % create in-text links in black (with PDF)
 %\usepackage[colorlinks=true,linkcolor=black]{hyperref}  \usepackage[colorlinks=true,linkcolor=black]{hyperref}
 % Format URLs nicely (without PDF)  % Format URLs nicely (without PDF)
 \usepackage{url}  %\usepackage{url}
   % Grafik
   \usepackage{graphicx}
   % Verzeichnis mit Abbildungen
   \graphicspath{{images/}}
   
 \title{Ablage von Massendaten im Archiv- und Backupsystem}  \title{Ablage von Massendaten im Archiv- und Backupsystem}
   
 \author{Dirk Wintergrün, Robert Casties}  \author{Dirk Wintergrün, Robert Casties}
   
 \date{V0.9.4 of \today}  \date{V0.10.1 of \today}
   
 \begin{document}  \begin{document}
   
 \maketitle  \maketitle
   
 \begin{abstract}  \begin{abstract}
   In diesem Dokument werden die Ablage von Massendaten auf dem    In diesem Dokument wird die Ablage von Massendaten auf dem
   zentralen Archiv- und Filesystem des MPIWG beschrieben    zentralen Archiv- und Ablagesystem des MPIWG beschrieben
 \end{abstract}  \end{abstract}
   
 \tableofcontents  \tableofcontents
Line 40  für\footnote{Empfehlungen zu Standards f Line 44  für\footnote{Empfehlungen zu Standards f
   
 \begin{description}  \begin{description}
 \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des  \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne    Instituts anfallen und als Rohdaten oder Produktionsdaten in
   ständigen Zugriff langfristig gesichert werden sollen (Pfad:    möglichst hoher Qualität ohne ständigen Zugriff langfristig
   \url{archive/data})    gesichert werden sollen (Pfad: \url{archive/data})
       
 \item[Langfristige Präsentationsdaten] die über das Internet verfügbar  \item[Langfristige Präsentationsdaten] die über das Internet verfügbar
   gemacht werden sollen und deren URL bzw. URI langfristig stabil    gemacht werden sollen und deren URL bzw. URI langfristig stabil
   gehalten werden sollen (Pfad: \url{online/permanent})    gehalten werden sollen (Pfad: \url{online/permanent})
       
   
 \item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig  \item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die
   online verfügbar sein sollen (Pfad: \url{online/experimental})    kurzfristig und nur für begrenzte Zeit online verfügbar sein sollen
     (Pfad: \url{online/experimental})
       
 \item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von  \item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von
   Kooperationsprojekten gehalten werden und auf die ständiger Zugriff    Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
Line 91  projektspezifisch vergeben.\footnote{Ein Line 96  projektspezifisch vergeben.\footnote{Ein
 \section{Erlaubte Zeichen in Datei- und Ordnernamen}  \section{Erlaubte Zeichen in Datei- und Ordnernamen}
 \label{sec:erla-zeich-datei}  \label{sec:erla-zeich-datei}
   
 Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',  Erlaubte Zeichen in Datei- und Ordnernamen sind Kleinbuchstaben (a-z),
 "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. Es  Großbuchstaben (A-Z), Ziffern (0-9), Bindestrich ("`-"'), Unterstrich
 wird empfohlen für Datei- und Ordnernamen ausschliesslich  ("`\_"') und Punkt ("`."'). Andere Zeichen und Leerzeichen sind nicht
   zulässig. Es wird empfohlen für Datei- und Ordnernamen ausschliesslich
 Kleinschreibung zu verwenden.  Kleinschreibung zu verwenden.
   
   Für die Umsezung von Dateinamen, die anderen Zeichen enthalten wird
   empfohlen alle Leerzeichen durch Bindestriche ("`-"') und andere
   nichtzulässige Zeichen durch Unterstriche ("`\_"') zu ersetzen.
   
   
 \section{Ablage von Archivdaten}  \section{Ablage von Archivdaten}
 \label{sec:ablage-von-arch}  \label{sec:ablage-von-arch}
   
 Archivdaten werden nur temporär auf der Festplatte des Servers  Archivdaten werden nur temporär auf der Festplatte des Servers
 gehalten. Nach der Archivierung auf Magnetbänder werden sie von der  gehalten. Nach der Archivierung auf Magnetbänder werden sie von der
 Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad  Festplatte gelöscht. Die Metadaten bleiben auch nach dem Löschen der
   Daten auf der Festplatte. Für Archivdaten ist auf Foxridge der Pfad
   
 \url{/mpiwg/archive/data} bzw \url{archive_data}  \url{/mpiwg/archive/data} bzw. \url{archive_data}
   
 \noindent vorgesehen.   \noindent vorgesehen. 
   
   Die Ablage von Archivdaten erfolgt abhängig davon ob es sich um 
   \emph{Rohdaten} oder \emph{Produktionsdaten} handelt.
   
 \subsection{Erste Ebene: Projekte}  
 \label{sec:erste-eben-proj}  
   
 Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit  \subsection{Ablage von Rohdaten im Archiv}
 dem Namen des Projektes angelegt:  \label{sec:ablage-von-rohdaten}
   
 \url{archive/data/PROJEKTNAME}  Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft
   wurden oder am Institut erzeugt werden und am Anfang eines workflows stehen.
   
 \noindent Bsp: das Humboldtprojekt  Rohdaten können entweder über ein Web-Frontend oder direkt im
   Filesystem des Servers abgelegt werden. Bei der Ablage über das
   Web-Frontend wird ein Metadaten-File automatisch erzeugt. Bei der
   Ablage "`von Hand"' auf dem Server kann ein Metadaten-File
   nachträglich mit Hilfe eines Web-Frontends erzeugt werden.
   
 \url{archive/data/humboldt}  Die wichtigste Information über die Rohdaten ist ihre Quelle, die in
   einem \texttt{acquisition} Metadaten-Element beschrieben wird.
   Außerdem müssen, je nach Medientyp verschiedene technische Angaben
   über die abgelegten Daten erfolgen.
   
 \noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig,  Weitere inhaltliche Metadaten, wie eine bibliographische Bestimmung
 weitere Unterordner zur Untergliederung der Dokumente anlegen.  erhalten zunächst nur den Metadaten-Status "`vorläufig"'
   (\texttt{wf-status} \texttt{preliminary}).
   
   
 \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,  \subsubsection{Erste Ebene: Provider}
   Bücher)}  \label{sec:ebene-provider}
 \label{sec:zweite-eben-dokum}  
   
 Für jedes abzulegende Dokument wird unterhalb des Projektordners ein  Die Rohdaten werden im Filesystem des Servers in Ordnern entsprechend
 weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten  ihrer Quelle, ihres \emph{Providers} abgelegt. Bei externen
 bestehen, wird folgende Bennenung  Lieferungen ist der Lieferant direkt als Provider angesehen
 vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils  werden. Das gleiche gilt z.B. für Arbeiten der Digitalisierungsgruppe der
   obligatorisch.}  Bibliothek. Bei Arbeiten, die im Rahmen von Projekten von einzelnen
   Mitarbeitern im Haus erstellt werden, liegt es in der Verantwortung
   der Projekte einen Provider-Namen zu benennen. 
   
 \url{AUTHOR_TITLE_sernr_lang_year}  Zur Vereinheitlichung der Provider-Bezeichnungen wird ein zentrales
   Verzeichnis mit Provider-Namen und IDs erstellt.
   
 \noindent Also z.B.  
   
 \url{humbo_endec_01_de_1803}  \subsubsection{Zweite Ebene: Dokumente}
   \label{sec:ebene-dokumente}
   
 \noindent Siehe dazu Tabelle~\ref{tab:benennung}.  Unterhalb der Provider-Ebene werden Dokumente nach ihrer ID abgelegt.
   Zu diesem Zweck erhalten alle Dokumente eine \texttt{archive-id}, eine
   eindeutige achtstellige Zeichenfolge, vom Archiv"=ID"=Server
   
 \begin{table}[htbp]  \url{http://content.mpiwg-berlin.mpg.de/archive/ids}. 
 \center  
 \begin{tabular}{lp{0.6\textwidth}l}  
 Feld & Erklärung & Beispiel\\ \hline  
   
 \texttt{AUTHOR} & Autor, Vorschlag 5 stellig (falls nicht vorhanden "`anon."') & \texttt{humbo}\\  \noindent Wenn die Daten direkt im Filesystem abgelegt werden muss vor der
   Ablage im Webfrontend des ID-Servers eine Archiv-ID für das Dokument
   reserviert werden.
   
 \texttt{TITLE} & Abkürzung des Titels, Vorschlag 5 stellig & \texttt{endec}\\  \begin{figure}[htbp]
     \centering
     \includegraphics[width=0.6\textwidth]{archive-dirs}
     \caption{Verzeichnisstruktur für den Rohdaten-Archivbereich}
     \label{fig:dir-arch-raw}
   \end{figure}
   
 \texttt{sernr} & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,  Die Rohdaten werden in einzelne Verzeichnisse gelegt, die jeweils
 beginnend mit 01, zweistellig & 01\\  einzelnen Dokumenten entsprechen. Als Verzeichnisname wird die
   \texttt{archive-id} verwendet. Je nach Art der Daten sollten
   Unterordner nach den Empfehlungen in
   Abschnitt~\ref{sec:dritte-eben-unter} angelegt werden. Für die
   Dateinamen gelten ebenfalls die in
   Abschnitt~\ref{sec:vierte-eben-date} angegebenen Regeln.
   
 \texttt{lang} & Sprache in der zweistelligen ISO-Kodierung\footnotemark & \texttt{de}\\  Einen schematischen Überblick über die Verzeichnisstruktur zeigt
   Abbildung~\ref{fig:dir-arch-raw}.
   
 \texttt{year} & Erscheinungsjahr, vierstellig & 1803  
 \end{tabular}  
 \caption{Benennung Ordner}  
 \label{tab:benennung}  
 \end{table}  
 \footnotetext{\url{http://www.loc.gov/standards/iso639-2/englangn.html}}  
   
   
   \subsection{Ablage von Produktdaten im Archiv}
   \label{sec:ablage-von-produkt}
   
   \subsubsection{Erste Ebene: Projekte}
   \label{sec:erste-eben-proj}
   
 \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}  Für jedes Projekt, das als Datenproduzent Archivdaten ablegen will,
   wird ein Ordner mit dem Namen des Projektes angelegt:
   
   \url{archive/data/PROJEKTNAME}
   
   \noindent Bsp: das Humboldtprojekt
   
   \url{archive/data/humboldt}
   
   \noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig,
   weitere Unterordner zur Untergliederung der Dokumente anlegen.
   
   
   \subsubsection{Zweite Ebene: Dokumente}
   \label{sec:zweite-eben-dokum}
   
   Für jedes abzulegende Dokument wird unterhalb des Projektordners ein
   weiterer Ordner angelegt. Die Benennung dieser Ordner ist Teil des
   Workflows des jeweiligen Projekts. Möglich die Verwendung
   der \texttt{archive-id} als Ordnername analog zur Ablage der Rohdaten
   (siehe Abschnitt~\ref{sec:ebene-dokumente}) aber auch andere Schemas.
   
   Jedes zu archivierende Dokument muss eine \texttt{archive-id}
   haben. Bevor ein neuer Ordner für ein neues Dokument angelegt wird,
   sollte vom Archive-ID-Server eine neue \texttt{archive-id} reserviert
   werden.
   
   
   \subsubsection{Dritte Ebene: Unterordner}
 \label{sec:dritte-eben-unter}  \label{sec:dritte-eben-unter}
   
 Innerhalb des Dokumentenordners werden weitere Unterordner für den  Innerhalb des Dokumentenordners werden weitere Unterordner für den
Line 176  jeweiligen Datentyp angelegt: Line 237  jeweiligen Datentyp angelegt:
   
 \noindent oder  \noindent oder
   
 \url{id-sernr-TYPE}  \url{TYPE-sernr}
   
 \begin{description}  \begin{description}
 \item[id] eine eindeutige ID des Dokumentes (dreistellig), die  \item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder
   innerhalb des Projektes vergeben wird    \url{pageimg} für Scans einzelner Seiten oder \url{ocr} für
     OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu
     Dateien in den anderen Ordnern.
   
 \item[sernr] eine Seriennummer falls mehrere  \item[sernr] eine Seriennummer falls mehrere
 Imagesätze zu einem Dokument gehören  Imagesätze zu einem Dokument gehören
   
 \item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder  
   \url{pageimg} bei Scans einzelner Seiten oder \url{ocr} für  
   OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu den  
   Dateien in den anderen Ordnern.  
 \end{description}  \end{description}
   
 \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:  \noindent Außerdem muss in jedem Dokumentenordner eine Datei
   
 \url{index.meta}  \url{index.meta}
   
 \noindent die Metadaten zum Ordner selbst enthält. Das Format dieser  \noindent liegen, die Metadaten zum Ordner selbst enthält. Das Format dieser
 Metadaten"=Datei ist im Dokument "`A simple metadata format for  Metadaten"=Datei ist im Dokument "`A simple metadata format for
 resource bundles"'\footnote{\url{http://pythia/projects/storagesystem/metadaten.html}} beschrieben.  resource
   bundles"'\footnote{\url{http://pythia.mpiwg-berlin.mpg.de/projects/storagesystem/metadaten.html}}
   beschrieben.
   
   
 \subsection{Vierte Ebene: Dateien in den Ordnern}  \subsubsection{Vierte Ebene: Dateien in den Ordnern}
 \label{sec:vierte-eben-date}  \label{sec:vierte-eben-date}
   
 Für Dateinamen gilt als Midestanforderung, dass die Dateiendung den  Für Dateinamen gilt als Mindestanforderung, dass der Dateiname nur aus
 Dateityp anzeigt und die alphabetische Ordnung der Namen der  zulässigen Zeichen besteht und die Dateiendung den Dateityp anzeigt.
 Reihenfolge der Daten entspricht. Nummerierte Dateien sollten daher  Die alphabetische Ordnung der Namen muss der Reihenfolge der Daten
 Namen mit führenden Nullen erhalten, z.B.  \url{00001.jpg}. Empfohlen  entsprechen. Nummerierte Dateien sollten daher Namen mit führenden
 wird folgende Bennung:  Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen wird folgende
   Benennung:
 \url{id-sernr-imagenumber.SUFFIX}  
   \url{imagenummer.SUFFIX}
 \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des  
 Ordners übereinstimmen. Imagenummer ist eine vierstellige Zahl. Das  \noindent Imagenummer ist eine fünfstellige Zahl. Das Suffix muss den
 Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von  Dateityp angeben. Eine (nicht erschöpfende) Liste von Dateitypen zeigt
 Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.  Tabelle~\ref{tab:benennung-dateien}.
   
 \begin{table}[htbp]  \begin{table}[htbp]
   \centering    \centering
Line 222  Dateitypen zeigt Tabelle~\ref{tab:benenn Line 282  Dateitypen zeigt Tabelle~\ref{tab:benenn
   
     suffix & Dateityp\\ \hline      suffix & Dateityp\\ \hline
   
     \texttt{jpg} & JPEG-Bilddateien\\      \texttt{jpg}, \texttt{jpeg}  & JPEG-Bilddateien\\
           
     \texttt{tif} & TIFF-Bilddateien \\      \texttt{tif}, \texttt{tiff} & TIFF-Bilddateien \\
           
     \texttt{png} & PNG-Bilddateien      \texttt{png} & PNG-Bilddateien
   \end{tabular}    \end{tabular}
Line 246  werden auf foxridge zwei Pfade angeboten Line 306  werden auf foxridge zwei Pfade angeboten
 \url{online/permanent}  \url{online/permanent}
   
 \noindent Für Dokumente, die nur temporär präsentiert werden sollen,  \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
 ist \url{online/eperimental} vorgesehen. Pfade innerhalb dieses  ist \url{online/experimental} vorgesehen. Pfade innerhalb dieses
 Bereiches können verändert und gelöscht werden.  Bereiches können verändert und gelöscht werden.
   
 Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist  Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
Line 261  Abschnitt~\ref{sec:ablage-von-arch} darg Line 321  Abschnitt~\ref{sec:ablage-von-arch} darg
   
   
   
 \section{Workflow für die Übergabe von gescannten Texten}  \section{Workflow: Scannen durch die Digitalisierungsgruppe}
 \label{sec:workflow-fur-die}  \label{sec:workflow-fur-die}
   
   
 Größere Mengen von Büchern und Manuskripten werden von der  Größere Mengen von Büchern und Manuskripten werden von der
 Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt.  Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt.
 Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen  Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen
 Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate  Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate
 werden zunächst in drei verschiedenen Formen erzeugt:  werden zunächst in drei verschiedenen Formen erzeugt.
   
   \subsection{Typen von Bilddaten}
   \label{sec:daten-typen}
   
 \begin{itemize}  \begin{itemize}
 \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,  \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
   ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die    ohne weitere Nachbearbeitung\footnote{Die Digitalisierungsgruppe
   weitere Nutzung durch Andere gedacht und sollen nur archiviert      dokumentieren dazu welche Arbeits- und Bearbeitungsschritte bei
   werden.      welchem Gerät als integraler Teil des Scanvorgangs betrachtet
       werden.}. Diese Dateien sind nicht für die weitere Nutzung durch
     Andere gedacht und sollen nur archiviert werden.
       
 \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie  \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
   Farbkorrektur und Schärfung. Diese Dateien sind für die weitere    Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
Line 287  werden zunächst in drei verschiedenen Fo Line 353  werden zunächst in drei verschiedenen Fo
 \end{itemize}  \end{itemize}
   
 Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden  Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
 von der Digigruppe selbständig durchgeführt. Für den Workflow der  von der Digitalisierungsgruppe selbständig durchgeführt. 
 Übergabe der Bilddaten an die Projekte ergeben sich verschiedene  
 Anforderungen:  
   
 \begin{itemize}  
 \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die  
   Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?  
   
 \item Die Daten müssen archiviert werden.  
   
 \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung  
   stehen und über einen allgemeinen Katalog gefunden werden können.  
     
 \item Daten sollten nach Möglichkeit nicht kopiert und doppelt  
   abgelegt werden.  
 \end{itemize}  
   
 Der Workflow der Ablage der Daten ist abhängig davon ob die Scans im  
 Auftrag eines etablierten Projektes durchgeführt wurden. In diesem  
 Fall werden die Roh- und User"=Images von der Digigruppe in  
 entsprechenden Unterordnern der jeweiligen Projektordner abgelegt  
 (Abschnitt~\ref{sec:ablage-bei-den}). Wenn die Scans im Auftrag  
 einzelner Wissenschaftler oder auf Initiative der Bibliothek erstellt  
 wurden, werden sie in der \url{library} Hierarchie abgelegt  
 (Abschnitt~\ref{sec:ablage-libr-proj})  
   
   
 \subsection{Ablage in "`library"' Projekt}  \subsection{Ablage und Übergabe der Rohdaten}
 \label{sec:ablage-libr-proj}  \label{sec:ablage-und-ubergabe}
   
 \begin{enumerate}  \begin{enumerate}
 \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten  \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
   oder Bereichen für Bewegungsdaten.    oder Bereichen für Bewegungsdaten.
       
 \item Die Digigruppe kopiert Roh-Images und User-Images in einen  \item Die Digigruppe kopiert Roh-Images und User-Images in einen
   Dokumenten-Ordner nach der Namenskonvention    Dokumenten-Ordner mit den notwendigen Metadaten und einer neuen
   (\url{AUTHOR_TITLE_SERNR_lang_year}) im Bereich    Archiv-ID nach den Regeln in Abschnitt~\ref{sec:ebene-dokumente} im
   \url{archive/data/library}.  Roh-Images werden in einem    Bereich \url{archive/data/library}.  Roh-Images werden in einem
   Unterordner \url{raw} abgelegt und User-Images in \url{img}.    Unterordner \url{raw} abgelegt und User-Images in \url{pageimg}.
     
 \item Die Digigruppe startet eine Prä-Migration der Daten (Roh- und  
   User"=images) ins Bandarchiv. Die Daten werden auf Band kopiert aber  
   (nach Maßgabe des verfügbaren Speicherplatzes) noch nicht von der  
   Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images  
     bereits von der Platte gelöscht während die User-Daten erhalten  
     bleiben.}  
   
 \item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag)  \item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag)
   über den Ablageort der Daten.    über den Ablageort der Daten.\footnote{Idealerweise würden die Roh-Images
       bereits archiviert und von der Platte gelöscht während die User-Daten erhalten
       bleiben.}
       
 \item Der Auftraggeber verwendet die User-Images. Veränderte Formen  \item Der Auftraggeber verwendet die User-Images. Veränderte Formen
   der Images erstellt und archiviert der Auftraggeber in seiner    der Images erstellt und archiviert der Auftraggeber in seiner
Line 347  wurden, werden sie in der \url{library} Line 384  wurden, werden sie in der \url{library}
 \end{enumerate}  \end{enumerate}
   
   
 \subsection{Ablage bei den Projekten}  
 \label{sec:ablage-bei-den}  
   
 \begin{enumerate}  
 \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten  
   oder Bereichen für Bewegungsdaten.  
     
 \item Die Digigruppe kopiert Roh-Images und User-Images in einen  
   Dokumenten"=Ordner nach der Namenskonvention  
   (Abschnitt~\ref{sec:zweite-eben-dokum}), der sich in einem mit dem  
   Projekt abgesprochenen Bereich des Projektes befindet, z.B.  
   \url{archive/data/PROJEKT/literature}. Roh"=Images werden in einem  
   Unterordner \url{raw} abgelegt und User-Images in \url{img}.  
   
 \item Die Digigruppe benachrichtigt das entsprechende Projekt über den  
   Aufenthaltsort der Daten.  
   
 \item Das Projekt verwendet die User-Images und archiviert  
   weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.  
     
 \item Das Projekt veranlasst die vollständige Archivierung und  
   Migration der Daten sobald sie nicht mehr direkt verwendet werden.  
 \end{enumerate}  
   
   
 \subsection{Ablage der Online-Images}  \subsection{Ablage der Online-Images}
 \label{sec:ablage-der-online}  \label{sec:ablage-der-online}
Line 383  mit dem Projekt Line 396  mit dem Projekt
   es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist    es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
       
 \item als fertige Images im Archivbereich bei den User-Images in einem  \item als fertige Images im Archivbereich bei den User-Images in einem
   Ordner \url{jpg} zur Nutzung durch das Projekt in seinem    Ordner \url{jpg} (o.ä.) zur Nutzung durch das Projekt in seinem
   Online-Bereich    Online-Bereich
   
 \item für Projekte, die selbst weiter verarbeitete Online-Images zur  \item für Projekte, die selbst weiter verarbeitete Online-Images zur
Line 392  mit dem Projekt Line 405  mit dem Projekt
   
   
   
   \section{Erfassung der Metadaten für Archivdaten}
   \label{sec:use-case-workflow}
   
   
   \subsection{Abfrage der Metadaten}
   \label{sec:abfr-der-metad}
   
   Den Entscheidungsbaum der Metadaten-Abfrage zeigt
   Abbildung~\ref{fig:arch-meta-abfrage}.
   
   \begin{figure}[htbp]
     \centering
     \includegraphics[width=\textwidth]{meta-decision}
     \caption{Entscheidungsbaum der Metadaten-Abfrage für Archivdaten}
     \label{fig:arch-meta-abfrage}
   \end{figure}
   
   
   \subsubsection{Dokumentenstatus: Rohdaten}
   \label{sec:dokum-rohd}
   
   Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft
   wurden oder am Institut erzeugt werden und am Anfang eines möglichen
   workflows stehen.
   
   Zu Rohdaten müssen weitere Informationen für einen
   \texttt{acquisition} Block in den Metadaten eingegeben werden:
   
   \begin{description}
   \item[acquisition] the acquisition source of this resource -- required
     \begin{description}
     \item[provider] where this resource came from --required
       \begin{description}
       \item[name] free-text name of the provider (institution or
         individual)
   
       \item[address] address of the provider
   
       \item[contact] contact person at the provider (i.e. name and email)
   
       \item[url] URL related to the provider
       \end{description}
   
     \item[date] date of acquisition -- required
   
     \item[description] free-text description of the acquisition source or
       additional information
   
     \item[provider-id] id of the provider (internally used) -- deduced
     \end{description}
   \end{description}
   
   
   \subsubsection{Dokumentenstatus: Verarbeitete Daten}
   \label{sec:dokum-verarb-daten}
   
   Wenn die verarbeiteten Daten aus bereits abgelegten Rohdaten erzeugt
   wurden, dann sollte ein Hinweis auf das Rohdaten-Verzeichnis im Tag
   \texttt{derived-from} angebracht werden.
   
   \begin{description}
   \item[derived-from] Container for the description of the original
     resource if this resource is a modified version of another resource
     -- required for processed data.
   
     \begin{description}
     \item[archive-id] The ID of the original resource
       -- required.
   
     \item[archive-path] The full path to the original resource
       -- deduced.
   
     \item[description] An informal textual description of the relation
     of this resource to the original resource -- optional.
     \end{description}
   \end{description}
   
   
   \subsubsection{Medientyp: Video}
   \label{sec:medientyp-video}
   
   Filme haben den Medientyp \texttt{video}. Sie können zusätzlich mit
   Metadaten in einem \texttt{film-acquisition} Metadaten-ELement
   beschrieben werden.
   
   \begin{description}
   \item[film-acquisition] description of a (documentary) film --
     required for documentary film
     \begin{description}
     \item[recording] specification of the recording process
       \begin{description}
       \item[author] the person or persons doing the recording
   
       \item[date] the date or time span when the film was recorded
   
       \item[location] the place where the film was recorded
   
       \item[device] recording device used (e.g. ``Sony CP-DV8 Camcorder'')
   
       \item[format] format of the recorded film -- required (e.g. ``DV 720x524 25fps
       interlaced'')
       \end{description}
    
     \item[description] free-form description of the recording and the
       content of the film
     \end{description}
   \end{description}
   
   
   \subsubsection{Medientyp: Audio}
   \label{sec:medientyp-audio}
   
   Für den Medientyp \texttt{audio} exisitieren noch keine
   Metadaten-Vorschläge.
   
   
   
   \subsubsection{Medientyp: Image}
   \label{sec:medientyp-image}
   
   Der Medientyp \texttt{image} ist für Einzelbilder und Gruppen von
   Bildern gedacht, die kein Buch o.ä. darstellen.
   
   Für die Beschreibung der Erfassung und das Format der digitalisierten
   Bilder gibt es die Metadaten-Elemente \texttt{image-acquisition} und
   \texttt{img}.
   
   \begin{description}
   \item[image-acquisition] description of the image production process
     -- required
     \begin{description}
     \item[device] acquisition device (e.g. ``flatbed scanner'')
   
     \item[image-type] type and color-depth of the image -- required (e.g. ``RGB 24
       bit'')
   
     \item[production-comment] additional textual information about the
       production process
     \end{description}
   \end{description}
   
   \begin{description}
   \item[img] digital image information.
   
     \begin{description}
     \item[original-size-x] The width of the original
       image -- required. \\
       The unit of measure can be contained as parameter \texttt{unit},
       the default is meter ``m''. The width to be considered is the
       total width of the scanned area.
       
     \item[original-size-y] The height of the original image -- required.
       
     \item[original-pixel-x] The width of the hi-res scan in pixels -- deduced.
       
     \item[original-pixel-y] The height of the hi-res scan in pixels -- deduced.
     \end{description}
   \end{description}
   
   Für die Inhaltliche Erfassung von Bildern gibt es bisher keinen
   Metadaten-Vorschlag.
   
   
   \subsubsection{Medientyp: Text}
   \label{sec:medientyp-text}
   
   Für Volltexte, d.h. maschinenlesbaren Text in verschiedenen Formaten
   ist der Medientyp \texttt{text} gedacht.
   
   Die inhaltliche Erfassung erfolgt über das Metadaten-Element
   \texttt{bib} mit verschiedenen Untertypen, das sich an der
   Projektbibliographie des MPIWG orientiert.
   
   
   
   \subsubsection{Medientyp: Scanned Text}
   \label{sec:medi-scann-text}
   
   Zum Medientyp \texttt{scanned-text} gehören alle gescannten Bilder von
   Texten, die als Text behandelt werden.
   
   Die Medienerfassung orientiert sich am Medientyp \texttt{image} mit
   den Elementen \texttt{image-acquisition} und \texttt{img}.
   
   Die inhaltliche Erfassung orientiert sich am Medientyp \texttt{text}
   mit dem \texttt{bib} Element.
   
   
   \subsubsection{Medientyp: other}
   \label{sec:medientyp-other}
   
   Die Vergabe und Behandlung von Medientypen sollte flexibel und
   erweiterbar sein.
   
   
 \end{document}  \end{document}
   

Removed from v.1.6  
changed lines
  Added in v.1.7


FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>