version 1.6, 2003/08/15 22:29:00
|
version 1.7, 2003/12/09 17:45:02
|
Line 9
|
Line 9
|
%\usepackage{courier} |
%\usepackage{courier} |
|
|
% create in-text links in black (with PDF) |
% create in-text links in black (with PDF) |
%\usepackage[colorlinks=true,linkcolor=black]{hyperref} |
\usepackage[colorlinks=true,linkcolor=black]{hyperref} |
% Format URLs nicely (without PDF) |
% Format URLs nicely (without PDF) |
\usepackage{url} |
%\usepackage{url} |
|
% Grafik |
|
\usepackage{graphicx} |
|
% Verzeichnis mit Abbildungen |
|
\graphicspath{{images/}} |
|
|
\title{Ablage von Massendaten im Archiv- und Backupsystem} |
\title{Ablage von Massendaten im Archiv- und Backupsystem} |
|
|
\author{Dirk Wintergrün, Robert Casties} |
\author{Dirk Wintergrün, Robert Casties} |
|
|
\date{V0.9.4 of \today} |
\date{V0.10.1 of \today} |
|
|
\begin{document} |
\begin{document} |
|
|
\maketitle |
\maketitle |
|
|
\begin{abstract} |
\begin{abstract} |
In diesem Dokument werden die Ablage von Massendaten auf dem |
In diesem Dokument wird die Ablage von Massendaten auf dem |
zentralen Archiv- und Filesystem des MPIWG beschrieben |
zentralen Archiv- und Ablagesystem des MPIWG beschrieben |
\end{abstract} |
\end{abstract} |
|
|
\tableofcontents |
\tableofcontents |
Line 40 für\footnote{Empfehlungen zu Standards f
|
Line 44 für\footnote{Empfehlungen zu Standards f
|
|
|
\begin{description} |
\begin{description} |
\item[Archivdaten] die innerhalb der Digitalisierungsprojekte des |
\item[Archivdaten] die innerhalb der Digitalisierungsprojekte des |
Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne |
Instituts anfallen und als Rohdaten oder Produktionsdaten in |
ständigen Zugriff langfristig gesichert werden sollen (Pfad: |
möglichst hoher Qualität ohne ständigen Zugriff langfristig |
\url{archive/data}) |
gesichert werden sollen (Pfad: \url{archive/data}) |
|
|
\item[Langfristige Präsentationsdaten] die über das Internet verfügbar |
\item[Langfristige Präsentationsdaten] die über das Internet verfügbar |
gemacht werden sollen und deren URL bzw. URI langfristig stabil |
gemacht werden sollen und deren URL bzw. URI langfristig stabil |
gehalten werden sollen (Pfad: \url{online/permanent}) |
gehalten werden sollen (Pfad: \url{online/permanent}) |
|
|
|
|
\item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig |
\item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die |
online verfügbar sein sollen (Pfad: \url{online/experimental}) |
kurzfristig und nur für begrenzte Zeit online verfügbar sein sollen |
|
(Pfad: \url{online/experimental}) |
|
|
\item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von |
\item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von |
Kooperationsprojekten gehalten werden und auf die ständiger Zugriff |
Kooperationsprojekten gehalten werden und auf die ständiger Zugriff |
Line 91 projektspezifisch vergeben.\footnote{Ein
|
Line 96 projektspezifisch vergeben.\footnote{Ein
|
\section{Erlaubte Zeichen in Datei- und Ordnernamen} |
\section{Erlaubte Zeichen in Datei- und Ordnernamen} |
\label{sec:erla-zeich-datei} |
\label{sec:erla-zeich-datei} |
|
|
Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"', |
Erlaubte Zeichen in Datei- und Ordnernamen sind Kleinbuchstaben (a-z), |
"`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. Es |
Großbuchstaben (A-Z), Ziffern (0-9), Bindestrich ("`-"'), Unterstrich |
wird empfohlen für Datei- und Ordnernamen ausschliesslich |
("`\_"') und Punkt ("`."'). Andere Zeichen und Leerzeichen sind nicht |
|
zulässig. Es wird empfohlen für Datei- und Ordnernamen ausschliesslich |
Kleinschreibung zu verwenden. |
Kleinschreibung zu verwenden. |
|
|
|
Für die Umsezung von Dateinamen, die anderen Zeichen enthalten wird |
|
empfohlen alle Leerzeichen durch Bindestriche ("`-"') und andere |
|
nichtzulässige Zeichen durch Unterstriche ("`\_"') zu ersetzen. |
|
|
|
|
\section{Ablage von Archivdaten} |
\section{Ablage von Archivdaten} |
\label{sec:ablage-von-arch} |
\label{sec:ablage-von-arch} |
|
|
Archivdaten werden nur temporär auf der Festplatte des Servers |
Archivdaten werden nur temporär auf der Festplatte des Servers |
gehalten. Nach der Archivierung auf Magnetbänder werden sie von der |
gehalten. Nach der Archivierung auf Magnetbänder werden sie von der |
Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad |
Festplatte gelöscht. Die Metadaten bleiben auch nach dem Löschen der |
|
Daten auf der Festplatte. Für Archivdaten ist auf Foxridge der Pfad |
|
|
\url{/mpiwg/archive/data} bzw \url{archive_data} |
\url{/mpiwg/archive/data} bzw. \url{archive_data} |
|
|
\noindent vorgesehen. |
\noindent vorgesehen. |
|
|
|
Die Ablage von Archivdaten erfolgt abhängig davon ob es sich um |
|
\emph{Rohdaten} oder \emph{Produktionsdaten} handelt. |
|
|
\subsection{Erste Ebene: Projekte} |
|
\label{sec:erste-eben-proj} |
|
|
|
Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit |
\subsection{Ablage von Rohdaten im Archiv} |
dem Namen des Projektes angelegt: |
\label{sec:ablage-von-rohdaten} |
|
|
\url{archive/data/PROJEKTNAME} |
Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft |
|
wurden oder am Institut erzeugt werden und am Anfang eines workflows stehen. |
|
|
\noindent Bsp: das Humboldtprojekt |
Rohdaten können entweder über ein Web-Frontend oder direkt im |
|
Filesystem des Servers abgelegt werden. Bei der Ablage über das |
|
Web-Frontend wird ein Metadaten-File automatisch erzeugt. Bei der |
|
Ablage "`von Hand"' auf dem Server kann ein Metadaten-File |
|
nachträglich mit Hilfe eines Web-Frontends erzeugt werden. |
|
|
\url{archive/data/humboldt} |
Die wichtigste Information über die Rohdaten ist ihre Quelle, die in |
|
einem \texttt{acquisition} Metadaten-Element beschrieben wird. |
|
Außerdem müssen, je nach Medientyp verschiedene technische Angaben |
|
über die abgelegten Daten erfolgen. |
|
|
\noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig, |
Weitere inhaltliche Metadaten, wie eine bibliographische Bestimmung |
weitere Unterordner zur Untergliederung der Dokumente anlegen. |
erhalten zunächst nur den Metadaten-Status "`vorläufig"' |
|
(\texttt{wf-status} \texttt{preliminary}). |
|
|
|
|
\subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte, |
\subsubsection{Erste Ebene: Provider} |
Bücher)} |
\label{sec:ebene-provider} |
\label{sec:zweite-eben-dokum} |
|
|
|
Für jedes abzulegende Dokument wird unterhalb des Projektordners ein |
Die Rohdaten werden im Filesystem des Servers in Ordnern entsprechend |
weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten |
ihrer Quelle, ihres \emph{Providers} abgelegt. Bei externen |
bestehen, wird folgende Bennenung |
Lieferungen ist der Lieferant direkt als Provider angesehen |
vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils |
werden. Das gleiche gilt z.B. für Arbeiten der Digitalisierungsgruppe der |
obligatorisch.} |
Bibliothek. Bei Arbeiten, die im Rahmen von Projekten von einzelnen |
|
Mitarbeitern im Haus erstellt werden, liegt es in der Verantwortung |
|
der Projekte einen Provider-Namen zu benennen. |
|
|
\url{AUTHOR_TITLE_sernr_lang_year} |
Zur Vereinheitlichung der Provider-Bezeichnungen wird ein zentrales |
|
Verzeichnis mit Provider-Namen und IDs erstellt. |
|
|
\noindent Also z.B. |
|
|
|
\url{humbo_endec_01_de_1803} |
\subsubsection{Zweite Ebene: Dokumente} |
|
\label{sec:ebene-dokumente} |
|
|
\noindent Siehe dazu Tabelle~\ref{tab:benennung}. |
Unterhalb der Provider-Ebene werden Dokumente nach ihrer ID abgelegt. |
|
Zu diesem Zweck erhalten alle Dokumente eine \texttt{archive-id}, eine |
|
eindeutige achtstellige Zeichenfolge, vom Archiv"=ID"=Server |
|
|
\begin{table}[htbp] |
\url{http://content.mpiwg-berlin.mpg.de/archive/ids}. |
\center |
|
\begin{tabular}{lp{0.6\textwidth}l} |
|
Feld & Erklärung & Beispiel\\ \hline |
|
|
|
\texttt{AUTHOR} & Autor, Vorschlag 5 stellig (falls nicht vorhanden "`anon."') & \texttt{humbo}\\ |
\noindent Wenn die Daten direkt im Filesystem abgelegt werden muss vor der |
|
Ablage im Webfrontend des ID-Servers eine Archiv-ID für das Dokument |
|
reserviert werden. |
|
|
\texttt{TITLE} & Abkürzung des Titels, Vorschlag 5 stellig & \texttt{endec}\\ |
\begin{figure}[htbp] |
|
\centering |
|
\includegraphics[width=0.6\textwidth]{archive-dirs} |
|
\caption{Verzeichnisstruktur für den Rohdaten-Archivbereich} |
|
\label{fig:dir-arch-raw} |
|
\end{figure} |
|
|
\texttt{sernr} & Seriennummer, falls AUTHOR und TITLE nicht eindeutig, |
Die Rohdaten werden in einzelne Verzeichnisse gelegt, die jeweils |
beginnend mit 01, zweistellig & 01\\ |
einzelnen Dokumenten entsprechen. Als Verzeichnisname wird die |
|
\texttt{archive-id} verwendet. Je nach Art der Daten sollten |
|
Unterordner nach den Empfehlungen in |
|
Abschnitt~\ref{sec:dritte-eben-unter} angelegt werden. Für die |
|
Dateinamen gelten ebenfalls die in |
|
Abschnitt~\ref{sec:vierte-eben-date} angegebenen Regeln. |
|
|
\texttt{lang} & Sprache in der zweistelligen ISO-Kodierung\footnotemark & \texttt{de}\\ |
Einen schematischen Überblick über die Verzeichnisstruktur zeigt |
|
Abbildung~\ref{fig:dir-arch-raw}. |
|
|
\texttt{year} & Erscheinungsjahr, vierstellig & 1803 |
|
\end{tabular} |
|
\caption{Benennung Ordner} |
|
\label{tab:benennung} |
|
\end{table} |
|
\footnotetext{\url{http://www.loc.gov/standards/iso639-2/englangn.html}} |
|
|
|
|
|
|
\subsection{Ablage von Produktdaten im Archiv} |
|
\label{sec:ablage-von-produkt} |
|
|
|
\subsubsection{Erste Ebene: Projekte} |
|
\label{sec:erste-eben-proj} |
|
|
\subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)} |
Für jedes Projekt, das als Datenproduzent Archivdaten ablegen will, |
|
wird ein Ordner mit dem Namen des Projektes angelegt: |
|
|
|
\url{archive/data/PROJEKTNAME} |
|
|
|
\noindent Bsp: das Humboldtprojekt |
|
|
|
\url{archive/data/humboldt} |
|
|
|
\noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig, |
|
weitere Unterordner zur Untergliederung der Dokumente anlegen. |
|
|
|
|
|
\subsubsection{Zweite Ebene: Dokumente} |
|
\label{sec:zweite-eben-dokum} |
|
|
|
Für jedes abzulegende Dokument wird unterhalb des Projektordners ein |
|
weiterer Ordner angelegt. Die Benennung dieser Ordner ist Teil des |
|
Workflows des jeweiligen Projekts. Möglich die Verwendung |
|
der \texttt{archive-id} als Ordnername analog zur Ablage der Rohdaten |
|
(siehe Abschnitt~\ref{sec:ebene-dokumente}) aber auch andere Schemas. |
|
|
|
Jedes zu archivierende Dokument muss eine \texttt{archive-id} |
|
haben. Bevor ein neuer Ordner für ein neues Dokument angelegt wird, |
|
sollte vom Archive-ID-Server eine neue \texttt{archive-id} reserviert |
|
werden. |
|
|
|
|
|
\subsubsection{Dritte Ebene: Unterordner} |
\label{sec:dritte-eben-unter} |
\label{sec:dritte-eben-unter} |
|
|
Innerhalb des Dokumentenordners werden weitere Unterordner für den |
Innerhalb des Dokumentenordners werden weitere Unterordner für den |
Line 176 jeweiligen Datentyp angelegt:
|
Line 237 jeweiligen Datentyp angelegt:
|
|
|
\noindent oder |
\noindent oder |
|
|
\url{id-sernr-TYPE} |
\url{TYPE-sernr} |
|
|
\begin{description} |
\begin{description} |
\item[id] eine eindeutige ID des Dokumentes (dreistellig), die |
\item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder |
innerhalb des Projektes vergeben wird |
\url{pageimg} für Scans einzelner Seiten oder \url{ocr} für |
|
OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu |
|
Dateien in den anderen Ordnern. |
|
|
\item[sernr] eine Seriennummer falls mehrere |
\item[sernr] eine Seriennummer falls mehrere |
Imagesätze zu einem Dokument gehören |
Imagesätze zu einem Dokument gehören |
|
|
\item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder |
|
\url{pageimg} bei Scans einzelner Seiten oder \url{ocr} für |
|
OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu den |
|
Dateien in den anderen Ordnern. |
|
\end{description} |
\end{description} |
|
|
\noindent Ausserdem liegt in jedem Dokumentenordner eine Datei: |
\noindent Außerdem muss in jedem Dokumentenordner eine Datei |
|
|
\url{index.meta} |
\url{index.meta} |
|
|
\noindent die Metadaten zum Ordner selbst enthält. Das Format dieser |
\noindent liegen, die Metadaten zum Ordner selbst enthält. Das Format dieser |
Metadaten"=Datei ist im Dokument "`A simple metadata format for |
Metadaten"=Datei ist im Dokument "`A simple metadata format for |
resource bundles"'\footnote{\url{http://pythia/projects/storagesystem/metadaten.html}} beschrieben. |
resource |
|
bundles"'\footnote{\url{http://pythia.mpiwg-berlin.mpg.de/projects/storagesystem/metadaten.html}} |
|
beschrieben. |
|
|
|
|
\subsection{Vierte Ebene: Dateien in den Ordnern} |
\subsubsection{Vierte Ebene: Dateien in den Ordnern} |
\label{sec:vierte-eben-date} |
\label{sec:vierte-eben-date} |
|
|
Für Dateinamen gilt als Midestanforderung, dass die Dateiendung den |
Für Dateinamen gilt als Mindestanforderung, dass der Dateiname nur aus |
Dateityp anzeigt und die alphabetische Ordnung der Namen der |
zulässigen Zeichen besteht und die Dateiendung den Dateityp anzeigt. |
Reihenfolge der Daten entspricht. Nummerierte Dateien sollten daher |
Die alphabetische Ordnung der Namen muss der Reihenfolge der Daten |
Namen mit führenden Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen |
entsprechen. Nummerierte Dateien sollten daher Namen mit führenden |
wird folgende Bennung: |
Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen wird folgende |
|
Benennung: |
\url{id-sernr-imagenumber.SUFFIX} |
|
|
\url{imagenummer.SUFFIX} |
\noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des |
|
Ordners übereinstimmen. Imagenummer ist eine vierstellige Zahl. Das |
\noindent Imagenummer ist eine fünfstellige Zahl. Das Suffix muss den |
Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von |
Dateityp angeben. Eine (nicht erschöpfende) Liste von Dateitypen zeigt |
Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}. |
Tabelle~\ref{tab:benennung-dateien}. |
|
|
\begin{table}[htbp] |
\begin{table}[htbp] |
\centering |
\centering |
Line 222 Dateitypen zeigt Tabelle~\ref{tab:benenn
|
Line 282 Dateitypen zeigt Tabelle~\ref{tab:benenn
|
|
|
suffix & Dateityp\\ \hline |
suffix & Dateityp\\ \hline |
|
|
\texttt{jpg} & JPEG-Bilddateien\\ |
\texttt{jpg}, \texttt{jpeg} & JPEG-Bilddateien\\ |
|
|
\texttt{tif} & TIFF-Bilddateien \\ |
\texttt{tif}, \texttt{tiff} & TIFF-Bilddateien \\ |
|
|
\texttt{png} & PNG-Bilddateien |
\texttt{png} & PNG-Bilddateien |
\end{tabular} |
\end{tabular} |
Line 246 werden auf foxridge zwei Pfade angeboten
|
Line 306 werden auf foxridge zwei Pfade angeboten
|
\url{online/permanent} |
\url{online/permanent} |
|
|
\noindent Für Dokumente, die nur temporär präsentiert werden sollen, |
\noindent Für Dokumente, die nur temporär präsentiert werden sollen, |
ist \url{online/eperimental} vorgesehen. Pfade innerhalb dieses |
ist \url{online/experimental} vorgesehen. Pfade innerhalb dieses |
Bereiches können verändert und gelöscht werden. |
Bereiches können verändert und gelöscht werden. |
|
|
Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist |
Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist |
Line 261 Abschnitt~\ref{sec:ablage-von-arch} darg
|
Line 321 Abschnitt~\ref{sec:ablage-von-arch} darg
|
|
|
|
|
|
|
\section{Workflow für die Übergabe von gescannten Texten} |
\section{Workflow: Scannen durch die Digitalisierungsgruppe} |
\label{sec:workflow-fur-die} |
\label{sec:workflow-fur-die} |
|
|
|
|
Größere Mengen von Büchern und Manuskripten werden von der |
Größere Mengen von Büchern und Manuskripten werden von der |
Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt. |
Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt. |
Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen |
Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen |
Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate |
Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate |
werden zunächst in drei verschiedenen Formen erzeugt: |
werden zunächst in drei verschiedenen Formen erzeugt. |
|
|
|
\subsection{Typen von Bilddaten} |
|
\label{sec:daten-typen} |
|
|
\begin{itemize} |
\begin{itemize} |
\item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner, |
\item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner, |
ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die |
ohne weitere Nachbearbeitung\footnote{Die Digitalisierungsgruppe |
weitere Nutzung durch Andere gedacht und sollen nur archiviert |
dokumentieren dazu welche Arbeits- und Bearbeitungsschritte bei |
werden. |
welchem Gerät als integraler Teil des Scanvorgangs betrachtet |
|
werden.}. Diese Dateien sind nicht für die weitere Nutzung durch |
|
Andere gedacht und sollen nur archiviert werden. |
|
|
\item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie |
\item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie |
Farbkorrektur und Schärfung. Diese Dateien sind für die weitere |
Farbkorrektur und Schärfung. Diese Dateien sind für die weitere |
Line 287 werden zunächst in drei verschiedenen Fo
|
Line 353 werden zunächst in drei verschiedenen Fo
|
\end{itemize} |
\end{itemize} |
|
|
Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden |
Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden |
von der Digigruppe selbständig durchgeführt. Für den Workflow der |
von der Digitalisierungsgruppe selbständig durchgeführt. |
Übergabe der Bilddaten an die Projekte ergeben sich verschiedene |
|
Anforderungen: |
|
|
|
\begin{itemize} |
|
\item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die |
|
Dateien kopiert, wie werden Verzeichnisse und Dateien benannt? |
|
|
|
\item Die Daten müssen archiviert werden. |
|
|
|
\item Online-Versionen der Daten sollten möglichst schnell zur Verfügung |
|
stehen und über einen allgemeinen Katalog gefunden werden können. |
|
|
|
\item Daten sollten nach Möglichkeit nicht kopiert und doppelt |
|
abgelegt werden. |
|
\end{itemize} |
|
|
|
Der Workflow der Ablage der Daten ist abhängig davon ob die Scans im |
|
Auftrag eines etablierten Projektes durchgeführt wurden. In diesem |
|
Fall werden die Roh- und User"=Images von der Digigruppe in |
|
entsprechenden Unterordnern der jeweiligen Projektordner abgelegt |
|
(Abschnitt~\ref{sec:ablage-bei-den}). Wenn die Scans im Auftrag |
|
einzelner Wissenschaftler oder auf Initiative der Bibliothek erstellt |
|
wurden, werden sie in der \url{library} Hierarchie abgelegt |
|
(Abschnitt~\ref{sec:ablage-libr-proj}) |
|
|
|
|
|
\subsection{Ablage in "`library"' Projekt} |
\subsection{Ablage und Übergabe der Rohdaten} |
\label{sec:ablage-libr-proj} |
\label{sec:ablage-und-ubergabe} |
|
|
\begin{enumerate} |
\begin{enumerate} |
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten |
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten |
oder Bereichen für Bewegungsdaten. |
oder Bereichen für Bewegungsdaten. |
|
|
\item Die Digigruppe kopiert Roh-Images und User-Images in einen |
\item Die Digigruppe kopiert Roh-Images und User-Images in einen |
Dokumenten-Ordner nach der Namenskonvention |
Dokumenten-Ordner mit den notwendigen Metadaten und einer neuen |
(\url{AUTHOR_TITLE_SERNR_lang_year}) im Bereich |
Archiv-ID nach den Regeln in Abschnitt~\ref{sec:ebene-dokumente} im |
\url{archive/data/library}. Roh-Images werden in einem |
Bereich \url{archive/data/library}. Roh-Images werden in einem |
Unterordner \url{raw} abgelegt und User-Images in \url{img}. |
Unterordner \url{raw} abgelegt und User-Images in \url{pageimg}. |
|
|
\item Die Digigruppe startet eine Prä-Migration der Daten (Roh- und |
|
User"=images) ins Bandarchiv. Die Daten werden auf Band kopiert aber |
|
(nach Maßgabe des verfügbaren Speicherplatzes) noch nicht von der |
|
Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images |
|
bereits von der Platte gelöscht während die User-Daten erhalten |
|
bleiben.} |
|
|
|
\item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag) |
\item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag) |
über den Ablageort der Daten. |
über den Ablageort der Daten.\footnote{Idealerweise würden die Roh-Images |
|
bereits archiviert und von der Platte gelöscht während die User-Daten erhalten |
|
bleiben.} |
|
|
\item Der Auftraggeber verwendet die User-Images. Veränderte Formen |
\item Der Auftraggeber verwendet die User-Images. Veränderte Formen |
der Images erstellt und archiviert der Auftraggeber in seiner |
der Images erstellt und archiviert der Auftraggeber in seiner |
Line 347 wurden, werden sie in der \url{library}
|
Line 384 wurden, werden sie in der \url{library}
|
\end{enumerate} |
\end{enumerate} |
|
|
|
|
\subsection{Ablage bei den Projekten} |
|
\label{sec:ablage-bei-den} |
|
|
|
\begin{enumerate} |
|
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten |
|
oder Bereichen für Bewegungsdaten. |
|
|
|
\item Die Digigruppe kopiert Roh-Images und User-Images in einen |
|
Dokumenten"=Ordner nach der Namenskonvention |
|
(Abschnitt~\ref{sec:zweite-eben-dokum}), der sich in einem mit dem |
|
Projekt abgesprochenen Bereich des Projektes befindet, z.B. |
|
\url{archive/data/PROJEKT/literature}. Roh"=Images werden in einem |
|
Unterordner \url{raw} abgelegt und User-Images in \url{img}. |
|
|
|
\item Die Digigruppe benachrichtigt das entsprechende Projekt über den |
|
Aufenthaltsort der Daten. |
|
|
|
\item Das Projekt verwendet die User-Images und archiviert |
|
weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie. |
|
|
|
\item Das Projekt veranlasst die vollständige Archivierung und |
|
Migration der Daten sobald sie nicht mehr direkt verwendet werden. |
|
\end{enumerate} |
|
|
|
|
|
\subsection{Ablage der Online-Images} |
\subsection{Ablage der Online-Images} |
\label{sec:ablage-der-online} |
\label{sec:ablage-der-online} |
Line 383 mit dem Projekt
|
Line 396 mit dem Projekt
|
es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist |
es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist |
|
|
\item als fertige Images im Archivbereich bei den User-Images in einem |
\item als fertige Images im Archivbereich bei den User-Images in einem |
Ordner \url{jpg} zur Nutzung durch das Projekt in seinem |
Ordner \url{jpg} (o.ä.) zur Nutzung durch das Projekt in seinem |
Online-Bereich |
Online-Bereich |
|
|
\item für Projekte, die selbst weiter verarbeitete Online-Images zur |
\item für Projekte, die selbst weiter verarbeitete Online-Images zur |
Line 392 mit dem Projekt
|
Line 405 mit dem Projekt
|
|
|
|
|
|
|
|
\section{Erfassung der Metadaten für Archivdaten} |
|
\label{sec:use-case-workflow} |
|
|
|
|
|
\subsection{Abfrage der Metadaten} |
|
\label{sec:abfr-der-metad} |
|
|
|
Den Entscheidungsbaum der Metadaten-Abfrage zeigt |
|
Abbildung~\ref{fig:arch-meta-abfrage}. |
|
|
|
\begin{figure}[htbp] |
|
\centering |
|
\includegraphics[width=\textwidth]{meta-decision} |
|
\caption{Entscheidungsbaum der Metadaten-Abfrage für Archivdaten} |
|
\label{fig:arch-meta-abfrage} |
|
\end{figure} |
|
|
|
|
|
\subsubsection{Dokumentenstatus: Rohdaten} |
|
\label{sec:dokum-rohd} |
|
|
|
Als Rohdaten gelten alle Daten, die aus externen Quellen eingekauft |
|
wurden oder am Institut erzeugt werden und am Anfang eines möglichen |
|
workflows stehen. |
|
|
|
Zu Rohdaten müssen weitere Informationen für einen |
|
\texttt{acquisition} Block in den Metadaten eingegeben werden: |
|
|
|
\begin{description} |
|
\item[acquisition] the acquisition source of this resource -- required |
|
\begin{description} |
|
\item[provider] where this resource came from --required |
|
\begin{description} |
|
\item[name] free-text name of the provider (institution or |
|
individual) |
|
|
|
\item[address] address of the provider |
|
|
|
\item[contact] contact person at the provider (i.e. name and email) |
|
|
|
\item[url] URL related to the provider |
|
\end{description} |
|
|
|
\item[date] date of acquisition -- required |
|
|
|
\item[description] free-text description of the acquisition source or |
|
additional information |
|
|
|
\item[provider-id] id of the provider (internally used) -- deduced |
|
\end{description} |
|
\end{description} |
|
|
|
|
|
\subsubsection{Dokumentenstatus: Verarbeitete Daten} |
|
\label{sec:dokum-verarb-daten} |
|
|
|
Wenn die verarbeiteten Daten aus bereits abgelegten Rohdaten erzeugt |
|
wurden, dann sollte ein Hinweis auf das Rohdaten-Verzeichnis im Tag |
|
\texttt{derived-from} angebracht werden. |
|
|
|
\begin{description} |
|
\item[derived-from] Container for the description of the original |
|
resource if this resource is a modified version of another resource |
|
-- required for processed data. |
|
|
|
\begin{description} |
|
\item[archive-id] The ID of the original resource |
|
-- required. |
|
|
|
\item[archive-path] The full path to the original resource |
|
-- deduced. |
|
|
|
\item[description] An informal textual description of the relation |
|
of this resource to the original resource -- optional. |
|
\end{description} |
|
\end{description} |
|
|
|
|
|
\subsubsection{Medientyp: Video} |
|
\label{sec:medientyp-video} |
|
|
|
Filme haben den Medientyp \texttt{video}. Sie können zusätzlich mit |
|
Metadaten in einem \texttt{film-acquisition} Metadaten-ELement |
|
beschrieben werden. |
|
|
|
\begin{description} |
|
\item[film-acquisition] description of a (documentary) film -- |
|
required for documentary film |
|
\begin{description} |
|
\item[recording] specification of the recording process |
|
\begin{description} |
|
\item[author] the person or persons doing the recording |
|
|
|
\item[date] the date or time span when the film was recorded |
|
|
|
\item[location] the place where the film was recorded |
|
|
|
\item[device] recording device used (e.g. ``Sony CP-DV8 Camcorder'') |
|
|
|
\item[format] format of the recorded film -- required (e.g. ``DV 720x524 25fps |
|
interlaced'') |
|
\end{description} |
|
|
|
\item[description] free-form description of the recording and the |
|
content of the film |
|
\end{description} |
|
\end{description} |
|
|
|
|
|
\subsubsection{Medientyp: Audio} |
|
\label{sec:medientyp-audio} |
|
|
|
Für den Medientyp \texttt{audio} exisitieren noch keine |
|
Metadaten-Vorschläge. |
|
|
|
|
|
|
|
\subsubsection{Medientyp: Image} |
|
\label{sec:medientyp-image} |
|
|
|
Der Medientyp \texttt{image} ist für Einzelbilder und Gruppen von |
|
Bildern gedacht, die kein Buch o.ä. darstellen. |
|
|
|
Für die Beschreibung der Erfassung und das Format der digitalisierten |
|
Bilder gibt es die Metadaten-Elemente \texttt{image-acquisition} und |
|
\texttt{img}. |
|
|
|
\begin{description} |
|
\item[image-acquisition] description of the image production process |
|
-- required |
|
\begin{description} |
|
\item[device] acquisition device (e.g. ``flatbed scanner'') |
|
|
|
\item[image-type] type and color-depth of the image -- required (e.g. ``RGB 24 |
|
bit'') |
|
|
|
\item[production-comment] additional textual information about the |
|
production process |
|
\end{description} |
|
\end{description} |
|
|
|
\begin{description} |
|
\item[img] digital image information. |
|
|
|
\begin{description} |
|
\item[original-size-x] The width of the original |
|
image -- required. \\ |
|
The unit of measure can be contained as parameter \texttt{unit}, |
|
the default is meter ``m''. The width to be considered is the |
|
total width of the scanned area. |
|
|
|
\item[original-size-y] The height of the original image -- required. |
|
|
|
\item[original-pixel-x] The width of the hi-res scan in pixels -- deduced. |
|
|
|
\item[original-pixel-y] The height of the hi-res scan in pixels -- deduced. |
|
\end{description} |
|
\end{description} |
|
|
|
Für die Inhaltliche Erfassung von Bildern gibt es bisher keinen |
|
Metadaten-Vorschlag. |
|
|
|
|
|
\subsubsection{Medientyp: Text} |
|
\label{sec:medientyp-text} |
|
|
|
Für Volltexte, d.h. maschinenlesbaren Text in verschiedenen Formaten |
|
ist der Medientyp \texttt{text} gedacht. |
|
|
|
Die inhaltliche Erfassung erfolgt über das Metadaten-Element |
|
\texttt{bib} mit verschiedenen Untertypen, das sich an der |
|
Projektbibliographie des MPIWG orientiert. |
|
|
|
|
|
|
|
\subsubsection{Medientyp: Scanned Text} |
|
\label{sec:medi-scann-text} |
|
|
|
Zum Medientyp \texttt{scanned-text} gehören alle gescannten Bilder von |
|
Texten, die als Text behandelt werden. |
|
|
|
Die Medienerfassung orientiert sich am Medientyp \texttt{image} mit |
|
den Elementen \texttt{image-acquisition} und \texttt{img}. |
|
|
|
Die inhaltliche Erfassung orientiert sich am Medientyp \texttt{text} |
|
mit dem \texttt{bib} Element. |
|
|
|
|
|
\subsubsection{Medientyp: other} |
|
\label{sec:medientyp-other} |
|
|
|
Die Vergabe und Behandlung von Medientypen sollte flexibel und |
|
erweiterbar sein. |
|
|
|
|
\end{document} |
\end{document} |
|
|