version 1.1.1.1, 2003/06/24 14:15:07
|
version 1.4, 2003/07/02 19:12:49
|
Line 1
|
Line 1
|
\documentclass[a4paper, abstracton]{scrartcl} |
\documentclass[a4paper, abstracton]{article} |
|
|
\usepackage{ngerman} |
\usepackage{ngerman} |
|
|
Line 17
|
Line 17
|
|
|
\author{Dirk Wintergrün, Robert Casties} |
\author{Dirk Wintergrün, Robert Casties} |
|
|
|
\date{V0.9.2 \today} |
|
|
\begin{document} |
\begin{document} |
|
|
\maketitle |
\maketitle |
Line 33
|
Line 35
|
\label{sec:datentypen-fur-die} |
\label{sec:datentypen-fur-die} |
|
|
|
|
Die in diesem Dokument definierten Regeln gelten für |
Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.} |
\footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)} |
|
|
|
\begin{description} |
\begin{description} |
\item[Archivdaten], die innerhalb der Digitalisierungsprojekte des |
\item[Archivdaten] die innerhalb der Digitalisierungsprojekte des |
Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne |
Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne |
ständigen Zugriff langfristig gesichert werden sollen (Pfad: |
ständigen Zugriff langfristig gesichert werden sollen (Pfad: |
archive/data) |
\texttt{archive/data}) |
|
|
\item[Präsentationsdaten], die über das Internet verfügbar gemacht werden |
\item[Präsentationsdaten] die über das Internet verfügbar gemacht werden |
sollen und deren URL bzw. URI langfristig stabil gehalten werden |
sollen und deren URL bzw. URI langfristig stabil gehalten werden |
sollen (Pfad: \texttt{online/permanent}) |
sollen (Pfad: \texttt{online/permanent}) |
|
|
|
|
\item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig |
\item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig |
online verfügbar sein sollen (Pfad: \texttt{online/experimental}) |
online verfügbar sein sollen (Pfad: \texttt{online/experimental}) |
|
|
\item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von |
\item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von |
Line 61 Die in diesem Dokument definierten Regel
|
Line 62 Die in diesem Dokument definierten Regel
|
\label{sec:zugang-zum-server} |
\label{sec:zugang-zum-server} |
|
|
Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver |
Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver |
\texttt{foxridge}, der physikalisch am FHI beheimatet ist. |
\texttt{foxridge}, der physisch am FHI steht. |
|
|
Zugang per FTP, SCP, SFTP über: |
|
|
|
\texttt{foxridge.mpiwg-berlin.mpg.de} |
|
|
|
|
\begin{itemize} |
|
\item Zugang per FTP, SCP, SFTP über: |
|
\texttt{foxridge.mpiwg-berlin.mpg.de} \\ |
Zugang zu den Daten in den Verzeichnissen |
Zugang zu den Daten in den Verzeichnissen |
\texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent}, |
\texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent}, |
\texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors} |
\texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors} |
|
|
Zugang per Appletalk (AFP) über: |
\item Zugang per Appletalk (AFP) über: Auswahl des Servers |
|
\texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\ |
Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} |
|
|
|
Zugang zu den Daten über die Freigaben \texttt{archive\_data}, |
Zugang zu den Daten über die Freigaben \texttt{archive\_data}, |
\texttt{online\_permanent}, \texttt{online\_experimental} und |
\texttt{online\_permanent}, \texttt{online\_experimental} und |
\texttt{mirrors} |
\texttt{mirrors} |
|
\end{itemize} |
|
|
|
|
\section{Benutzerkennung} |
\section{Benutzerkennung} |
Line 98 Erlaubte Zeichen in Datei- und Ordnernam
|
Line 96 Erlaubte Zeichen in Datei- und Ordnernam
|
\section{Ablage von Archivdaten} |
\section{Ablage von Archivdaten} |
\label{sec:ablage-von-arch} |
\label{sec:ablage-von-arch} |
|
|
Archivdaten werden nur temporär auf dem Server gehalten und dann auf |
Archivdaten werden nur temporär auf der Festplatte des Servers |
Band gesichert. Auf Foxridge ist dafür der Pfad |
gehalten. Nach der Archivierung auf Band werden sie von der Festplatte |
|
gelöscht. Für Archivdaten ist auf Foxridge der Pfad |
|
|
\texttt{/mpiwg/archive/data} bzw \texttt{archive\_data} |
\texttt{/mpiwg/archive/data} bzw \texttt{archive\_data} |
|
|
vorgesehen. |
\noindent vorgesehen. |
|
|
|
|
\subsection{Erste Ebene: Projekte} |
\subsection{Erste Ebene: Projekte} |
Line 114 dem Namen des Projektes angelegt:
|
Line 113 dem Namen des Projektes angelegt:
|
|
|
\texttt{archive/data/PROJEKTNAME} |
\texttt{archive/data/PROJEKTNAME} |
|
|
Bsp: das Humboldtprojekt |
\noindent Bsp: das Humboldtprojekt |
|
|
\texttt{archive/data/humboldt} |
\texttt{archive/data/humboldt} |
|
|
Line 123 Bsp: das Humboldtprojekt
|
Line 122 Bsp: das Humboldtprojekt
|
Bücher)} |
Bücher)} |
\label{sec:zweite-eben-dokum} |
\label{sec:zweite-eben-dokum} |
|
|
Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen: |
Für jedes abzulegende Dokument wird innerhalb des Projektordners ein |
|
weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten |
|
bestehen, wird folgende Bennenung |
|
vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils |
|
obligatorisch.} |
|
|
\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year} |
\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year} |
|
|
Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch |
\noindent Siehe dazu Tabelle~\ref{tab:benennung}. |
|
|
\begin{table}[htbp] |
\begin{table}[htbp] |
|
\center |
\begin{tabular}{lll} |
\begin{tabular}{lp{0.6\textwidth}l} |
&&Beispiel:\\ \hline |
Feld & Erklärung & Beispiel\\ \hline |
|
|
AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\ |
AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\ |
|
|
TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\ |
TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\ |
|
|
SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\ |
SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig, |
|
beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also |
|
in der Regel 01. & 01\\ |
|
|
lang&Sprache in der zweistelligen ISO-Codierung&de\\ |
lang&Sprache in der zweistelligen ISO-Codierung&de\\ |
|
|
year&Erscheinungsjahr, vierstellig&1803 |
year&Erscheinungsjahr, vierstellig&1803 |
|
|
\end{tabular} |
\end{tabular} |
\caption{Benennung Ordner} |
\caption{Benennung Ordner} |
\label{tab:benennung} |
\label{tab:benennung} |
\end{table} |
\end{table} |
Tabelle 1: Benennung Ordner |
|
|
|
|
|
|
|
Line 156 Tabelle 1: Benennung Ordner
|
Line 159 Tabelle 1: Benennung Ordner
|
\subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)} |
\subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)} |
\label{sec:dritte-eben-unter} |
\label{sec:dritte-eben-unter} |
|
|
Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt: |
Innerhalb des Dokumentenordners werden weitere Unterordner für den |
|
jeweiligen Datentyp angelegt: |
|
|
\begin{table}[htbp] |
\texttt{TYPE} |
\centering |
|
\begin{tabular}{lll} |
|
&Benennung&\\ \hline |
|
|
|
für die Images (verpflichtend)&id-sernr-TYPE\\ |
\noindent oder |
|
|
|
\texttt{id-sernr-TYPE} |
|
|
|
\begin{description} |
|
\item[id] beschreibt eine eindeutige ID des Dokumentes |
|
(dreistellig) |
|
|
oder\\ |
\item[sernr] eine Seriennummer falls mehrere |
|
Imagesätze zu einem Dokument gehören |
|
|
|
\item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder |
|
\texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für |
|
OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den |
|
Dateien in den anderen Ordnern. |
|
\end{description} |
|
|
|
\noindent Ausserdem liegt in jedem Dokumentenordner eine Datei: |
|
|
TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\ |
\texttt{index.meta} |
|
|
weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\ |
\noindent die Metadaten zum Ordner selbst enthält. |
|
|
|
|
|
\subsection{Vierte Ebene: Dateien in den Ordnern} |
|
\label{sec:vierte-eben-date} |
|
|
oder\\ |
Für Dateinamen gilt als Midestanforderung, dass die alphabetische |
|
Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte |
|
Dateien sollten Namen mit führenden Nullen erhalten, z.B. |
|
\texttt{00001.jpg}. Empfohlen wird folgende Bennung: |
|
|
|
\texttt{id-sernr-imagenumber.SUFFIX} |
|
|
|
\noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des |
|
Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das |
|
Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von |
|
Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}. |
|
|
|
\begin{table}[htbp] |
|
\centering |
|
\begin{tabular}{ll} |
|
|
|
suffix & Dateityp\\ \hline |
|
|
TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\ |
jpg & JPEG-Bilddateien\\ |
|
|
Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern |
tif & TIFF-Bilddateien \\ |
|
|
|
png & PNG-Bilddateien |
\end{tabular} |
\end{tabular} |
\caption{Benennung Unterordner} |
\caption{Dateiendungen} |
\label{tab:unter} |
\label{tab:benennung-dateien} |
\end{table} |
\end{table} |
|
|
Tabelle 2: Ordner |
|
|
|
|
\section{Ablage der Onlinedaten} |
|
\label{sec:ablage-der-onlin} |
|
|
|
Für Daten die für die direkte Präsentation im Netz vorgesehen sind, |
|
werden auf foxridge zwei Pfade angeboten: |
|
|
|
\texttt{online/experimental} |
|
|
|
\noindent und |
|
|
|
\texttt{online/permanent} |
|
|
Ausserdem liegt in jedem Dokumentenordner eine Datei: |
\noindent Für Dokumente, die nur temporär präsentiert werden sollen, |
|
ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses |
|
Bereiches können verändert und gelöscht werden. |
|
|
|
Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist |
|
\texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen |
|
nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben |
|
werden. |
|
|
index.meta |
Die interne Struktur der Dokumentordner in \texttt{online/permanent} |
|
entspricht der oben dargestellten Struktur von \texttt{archive/data}. |
|
|
die die Metadaten zum Ordner selbst enthält. |
|
|
|
|
|
\subsection{Vierte Ebene: Dateien in den Ordnern} |
\section{Workflow für die Übergabe von gescannten Texten} |
\label{sec:vierte-eben-date} |
\label{sec:workflow-fur-die} |
|
|
Minimal müssen die Dateinamen so sein, dass ihre alphanumerische |
Größere Mengen von Büchern und Manuskripten werden von der |
Ordnung der Ordnung der Daten entspricht. Insbesondere sollten |
Digitalisierungsgruppe der Bibliothek in hoher Qualität |
nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten. |
gescannt. Diese Digitalisierungen erfolgen im Auftrag |
|
einzelner Projekte oder auf eigene Initiative der Bibliothek. Die |
|
Digitalisate werden zunächst in drei verschiedenen Formen erzeugt: |
|
|
Das Suffix muss den Dateityp angeben. |
\begin{itemize} |
|
\item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner, |
|
ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die |
|
weitere Nutzung durch Andere gedacht und sollen nur archiviert |
|
werden. |
|
|
\begin{table}[htbp] |
\item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie |
\centering |
Farbkorrektur und Schärfung. Diese Dateien sind für die weitere |
\begin{tabular}{ll} |
Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert |
|
werden. |
|
|
suffix&Dateityp\\ \hline |
\item Als \emph{Online-Image} in reduzierter Auflösung für die |
|
Online-Präsentation. Diese Dateien können ebenfalls durch andere |
|
Projekte genutzt werden und müssen online zur Verfügung stehen. |
|
\end{itemize} |
|
|
jpg&jpg-Bilddateien\\ |
Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden |
|
von der Digigruppe selbständig durchgeführt. Für den Workflow der |
|
Übergabe der Bilddaten an die Projekte ergeben sich verschiedene |
|
Anforderungen: |
|
|
tif&tif-Format nicht komprimiert\\ |
\begin{itemize} |
|
\item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die |
|
Dateien kopiert, wie werden Verzeichnisse und Dateien benannt? |
|
|
png&png |
\item Die Daten müssen archiviert werden. |
|
|
\end{tabular} |
\item Online-Versionen der Daten sollten möglichst schnell zur Verfügung |
\caption{Benennung Dateien} |
stehen und über einen allgemeinen Katalog gefunden werden können. |
\label{tab:benennung-dateien} |
|
\end{table} |
|
|
|
|
\item Daten sollten nach Möglichkeit nicht kopiert und doppelt |
|
abgelegt werden. |
|
\end{itemize} |
|
|
Empfohlen wird folgende Bennung: |
Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der |
|
Roh- und User-Images durch die Digigruppe in einer eigenen |
|
\texttt{library} Hierarchie oder die Ablage durch die Digigruppe in |
|
entsprechenden Unterordnern der jeweiligen Projekte. |
|
|
\texttt{id-sernr-imagenumber.suffx} |
|
|
|
wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. |
\subsection{Ablage in "`library"' Projekt} |
|
\label{sec:ablage-libr-proj} |
|
|
Übersicht: |
\begin{enumerate} |
|
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten |
|
oder Bereichen für Bewegungsdaten. |
|
|
|
\item Die Digigruppe kopiert Roh-Images und User-Images in einen |
|
Dokumenten-Ordner nach der Namenskonvention |
|
(\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich |
|
\texttt{archive/data/library}. Roh-Images werden in einem |
|
Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}. |
|
|
|
\item Die Digigruppe startet eine Prä-Migration der Daten ins |
|
Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des |
|
verfügbaren Speicherplatzes) noch nicht von |
|
der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images |
|
bereits von der Platte gelöscht während die User-Daten erhalten |
|
bleiben.} |
|
|
|
\item Die Digigruppe benachrichtigt das entsprechende Projekt über den |
|
Aufenthaltsort der Daten. |
|
|
|
\item Das Projekt verwendet die User-Images und archiviert |
|
weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie. |
|
|
|
\item Das Projekt veranlasst die vollständige Migration der |
|
User-Images (Löschung von der Festplatte) sobald die Daten nicht |
|
mehr direkt verwendet werden. |
|
\end{enumerate} |
|
|
\section{Ablage der Onlinedaten} |
|
\label{sec:ablage-der-onlin} |
|
|
|
Für Daten die für die direkte Präsentation im Netz vorgesehen sind, |
\subsection{Ablage bei den Projekten} |
werden auf foxridge zwei Pfade angeboten |
\label{sec:ablage-bei-den} |
|
|
\texttt{online/experimental} |
\begin{enumerate} |
|
\item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten |
|
oder Bereichen für Bewegungsdaten. |
|
|
und |
\item Die Digigruppe kopiert Roh-Images und User-Images in einen |
|
Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit |
|
dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B. |
|
\texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem |
|
Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}. |
|
|
\texttt{online/permanent} |
\item Die Digigruppe benachrichtigt das entsprechende Projekt über den |
|
Aufenthaltsort der Daten. |
|
|
\texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur |
\item Das Projekt verwendet die User-Images und archiviert |
temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches |
weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie. |
können verändert und gelöscht werden. |
|
|
\item Das Projekt veranlasst die vollständige Migration der Daten |
\texttt{online/permanent} ist für Dokumente die auf längere Zeit im |
sobald sie nicht mehr direkt verwendet werden. |
Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert |
\end{enumerate} |
oder gelöscht werden, Dokumente dürfen nicht verschoben werden. |
|
|
|
|
\subsection{Ablage der Online-Images} |
|
\label{sec:ablage-der-online} |
|
|
|
Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache |
|
mit dem Projekt |
|
\begin{itemize} |
|
\item als fertige Images in der Online-Hierarchie der Bibliothek, wenn |
|
es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist |
|
|
|
\item als fertige Images im Archivbereich bei den User-Images in einem |
|
Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem |
|
Online-Bereich |
|
|
|
\item für Projekte, die selbst weiter verarbeitete Online-Images zur |
|
Verfügung stellen werden keine Online-Images erzeugt. |
|
\end{itemize} |
|
|
Die interne Struktur der Dokumentordner in \texttt{online/permanent} |
|
entspricht der oben dargestellten Struktur innerhalb von |
|
\texttt{archive/data}. |
|
|
|
|
|
|
|