Diff for /storage/names/file-format.tex between versions 1.1.1.1 and 1.3

version 1.1.1.1, 2003/06/24 14:15:07 version 1.3, 2003/07/02 18:20:46
Line 1 Line 1
 \documentclass[a4paper, abstracton]{scrartcl}  \documentclass[a4paper, abstracton]{article}
   
 \usepackage{ngerman}  \usepackage{ngerman}
   
Line 33 Line 33
 \label{sec:datentypen-fur-die}  \label{sec:datentypen-fur-die}
   
   
 Die in diesem Dokument definierten Regeln gelten für  Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}
 \footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)}  
   
 \begin{description}  \begin{description}
 \item[Archivdaten], die innerhalb der Digitalisierungsprojekte des  \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne    Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
   ständigen Zugriff langfristig gesichert werden sollen (Pfad:    ständigen Zugriff langfristig gesichert werden sollen (Pfad:
   archive/data)    \texttt{archive/data})
       
 \item[Präsentationsdaten], die über das Internet verfügbar gemacht werden  \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
   sollen und deren URL bzw. URI langfristig stabil gehalten werden    sollen und deren URL bzw. URI langfristig stabil gehalten werden
   sollen (Pfad: \texttt{online/permanent})    sollen (Pfad: \texttt{online/permanent})
       
   
 \item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig  \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
   online verfügbar sein sollen (Pfad: \texttt{online/experimental})    online verfügbar sein sollen (Pfad: \texttt{online/experimental})
       
 \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von  \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
Line 61  Die in diesem Dokument definierten Regel Line 60  Die in diesem Dokument definierten Regel
 \label{sec:zugang-zum-server}  \label{sec:zugang-zum-server}
   
 Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver  Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
 \texttt{foxridge}, der physikalisch am FHI beheimatet ist.  \texttt{foxridge}, der physisch am FHI steht.
   
 Zugang per FTP, SCP, SFTP über:  
   
 \texttt{foxridge.mpiwg-berlin.mpg.de}  
   
   \begin{itemize}
   \item Zugang per FTP, SCP, SFTP über:
     \texttt{foxridge.mpiwg-berlin.mpg.de} \\
 Zugang zu den Daten in den Verzeichnissen  Zugang zu den Daten in den Verzeichnissen
 \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},  \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
 \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}  \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
   
 Zugang per Appletalk (AFP) über:  \item Zugang per Appletalk (AFP) über: Auswahl des Servers
     \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
 Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver}  
   
 Zugang zu den Daten über die Freigaben \texttt{archive\_data},  Zugang zu den Daten über die Freigaben \texttt{archive\_data},
 \texttt{online\_permanent}, \texttt{online\_experimental} und  \texttt{online\_permanent}, \texttt{online\_experimental} und
 \texttt{mirrors}  \texttt{mirrors}
   \end{itemize}
   
   
 \section{Benutzerkennung}  \section{Benutzerkennung}
Line 98  Erlaubte Zeichen in Datei- und Ordnernam Line 94  Erlaubte Zeichen in Datei- und Ordnernam
 \section{Ablage von Archivdaten}  \section{Ablage von Archivdaten}
 \label{sec:ablage-von-arch}  \label{sec:ablage-von-arch}
   
 Archivdaten werden nur temporär auf dem Server gehalten und dann auf  Archivdaten werden nur temporär auf der Festplatte des Servers
 Band gesichert. Auf Foxridge ist dafür der Pfad  gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
   gelöscht. Für Archivdaten ist auf Foxridge der Pfad
   
 \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}  \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
   
 vorgesehen.   \noindent vorgesehen. 
   
   
 \subsection{Erste Ebene: Projekte}  \subsection{Erste Ebene: Projekte}
Line 114  dem Namen des Projektes angelegt: Line 111  dem Namen des Projektes angelegt:
   
 \texttt{archive/data/PROJEKTNAME}  \texttt{archive/data/PROJEKTNAME}
   
 Bsp: das Humboldtprojekt  \noindent Bsp: das Humboldtprojekt
   
 \texttt{archive/data/humboldt}  \texttt{archive/data/humboldt}
   
Line 123  Bsp: das Humboldtprojekt Line 120  Bsp: das Humboldtprojekt
   Bücher)}    Bücher)}
 \label{sec:zweite-eben-dokum}  \label{sec:zweite-eben-dokum}
   
 Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen:  Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
   weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
   bestehen, wird folgende Bennenung
   vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
     obligatorisch.}
   
 \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}  \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
   
 Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch  \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
   
 \begin{table}[htbp]  \begin{table}[htbp]
   \center
 \begin{tabular}{lll}  \begin{tabular}{lp{0.6\textwidth}l}
 &&Beispiel:\\ \hline  Feld & Erklärung & Beispiel\\ \hline
   
 AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\  AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\
   
 TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\  TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\
   
 SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\  SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
   beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also
   in der Regel 01. & 01\\
   
 lang&Sprache in der zweistelligen ISO-Codierung&de\\  lang&Sprache in der zweistelligen ISO-Codierung&de\\
   
 year&Erscheinungsjahr, vierstellig&1803  year&Erscheinungsjahr, vierstellig&1803
   
 \end{tabular}  \end{tabular}
 \caption{Benennung Ordner}  \caption{Benennung Ordner}
 \label{tab:benennung}  \label{tab:benennung}
 \end{table}  \end{table}
 Tabelle 1: Benennung Ordner  
   
   
   
Line 156  Tabelle 1: Benennung Ordner Line 157  Tabelle 1: Benennung Ordner
 \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}  \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
 \label{sec:dritte-eben-unter}  \label{sec:dritte-eben-unter}
   
 Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt:  Innerhalb des Dokumentenordners werden weitere Unterordner für den
   jeweiligen Datentyp angelegt:
   
   \texttt{TYPE}
   
 \begin{table}[htbp]  \noindent oder
   \centering  
   \begin{tabular}{lll}  
 &Benennung&\\ \hline  
   
 für die Images (verpflichtend)&id-sernr-TYPE\\  
   
   \texttt{id-sernr-TYPE}
   
   \begin{description}
   \item[id] beschreibt eine eindeutige ID des Dokumentes
   (dreistellig)
   
 oder\\  \item[sernr] eine Seriennummer falls mehrere
   Imagesätze zu einem Dokument gehören
   
   \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
     \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
     OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
     Dateien in den anderen Ordnern.
   \end{description}
   
   \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
   
 TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\  \texttt{index.meta}
   
 weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\  \noindent die Metadaten zum Ordner selbst enthält.
   
   
   \subsection{Vierte Ebene: Dateien in den Ordnern}
   \label{sec:vierte-eben-date}
   
 oder\\  Für Dateinamen gilt als Midestanforderung, dass die alphabetische
   Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
   Dateien sollten Namen mit führenden Nullen erhalten, z.B.
   \texttt{00001.jpg}. Empfohlen wird folgende Bennung:
   
   \texttt{id-sernr-imagenumber.SUFFIX}
   
   \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
   Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
   Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
   Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
   
   \begin{table}[htbp]
     \centering
     \begin{tabular}{ll}
   
       suffix & Dateityp\\ \hline
   
 TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\      jpg & JPEG-Bilddateien\\
   
 Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern      tif & TIFF-Bilddateien \\
   
       png & PNG-Bilddateien
   \end{tabular}    \end{tabular}
   \caption{Benennung Unterordner}    \caption{Dateiendungen}
   \label{tab:unter}    \label{tab:benennung-dateien}  
 \end{table}  \end{table}
   
 Tabelle 2: Ordner  
   
   \section{Ablage der Onlinedaten}
   \label{sec:ablage-der-onlin}
   
   Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
   werden auf foxridge zwei Pfade angeboten:
   
 Ausserdem liegt in jedem Dokumentenordner eine Datei:  \texttt{online/experimental}
   
 index.meta  \noindent und
   
 die die Metadaten zum Ordner selbst enthält.  \texttt{online/permanent}
   
   \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
   ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
   Bereiches können verändert und gelöscht werden.
   
   Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
   \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
   nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
   werden.
   
 \subsection{Vierte Ebene: Dateien in den Ordnern}  Die interne Struktur der Dokumentordner in \texttt{online/permanent}
 \label{sec:vierte-eben-date}  entspricht der oben dargestellten Struktur von \texttt{archive/data}.
   
 Minimal müssen die Dateinamen so sein, dass ihre alphanumerische  
 Ordnung der Ordnung der Daten entspricht. Insbesondere sollten  
 nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten.  
   
 Das Suffix muss den Dateityp angeben.  
   
 \begin{table}[htbp]  \section{Workflow für die Übergabe von gescannten Texten}
   \centering  \label{sec:workflow-fur-die}
   \begin{tabular}{ll}  
   
 suffix&Dateityp\\ \hline  Größere Mengen von Büchern und Manuskripten werden von der
   Digitalisierungsgruppe der Bibliothek in hoher Qualität
   gescannt. Diese Digitalisierungen erfolgen im Auftrag
   einzelner Projekte oder auf eigene Initiative der Bibliothek. Die
   Digitalisate werden zunächst in drei verschiedenen Formen erzeugt:
   
 jpg&jpg-Bilddateien\\  \begin{itemize}
   \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
     ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
     weitere Nutzung durch Andere gedacht und sollen nur archiviert
     werden.
   
 tif&tif-Format nicht komprimiert\\  \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
     Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
     Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
     werden.
   
 png&png  \item Als \emph{Online-Image} in reduzierter Auflösung für die
     Online-Präsentation. Diese Dateien können ebenfalls durch andere
     Projekte genutzt werden und müssen online zur Verfügung stehen.
   \end{itemize}
   
   \end{tabular}  Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
   \caption{Benennung Dateien}  von der Digigruppe selbständig durchgeführt. Für den Workflow der
 \label{tab:benennung-dateien}    Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
 \end{table}  Anforderungen:
   
   \begin{itemize}
   \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
     Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
   
 Empfohlen wird folgende Bennung:  \item Die Daten müssen archiviert werden.
   
 \texttt{id-sernr-imagenumber.suffx}  \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
     stehen und über einen allgemeinen Katalog gefunden werden können.
   
 wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl.  \item Daten sollten nach Möglichkeit nicht kopiert und doppelt
     abgelegt werden.
   \end{itemize}
   
 Übersicht:  Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der
   Roh- und User-Images durch die Digigruppe in einer eigenen
   \texttt{library} Hierarchie oder die Ablage durch die Digigruppe in
   entsprechenden Unterordnern der jeweiligen Projekte.
   
   
   \subsection{Ablage in "`library"' Projekt}
   \label{sec:ablage-libr-proj}
   
   \begin{enumerate}
   \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
     oder Bereichen für Bewegungsdaten.
   
   \item Die Digigruppe kopiert Roh-Images und User-Images in einen
     Dokumenten-Ordner nach der Namenskonvention
     (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich
     \texttt{archive/data/library}.  Roh-Images werden in einem
     Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
   
   \item Die Digigruppe startet eine Prä-Migration der Daten ins
     Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des
     verfügbaren Speicherplatzes) noch nicht von
     der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
     bereits von der Platte gelöscht während die User-Daten erhalten
     bleiben.}
   
 \section{Ablage der Onlinedaten}  \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
 \label{sec:ablage-der-onlin}    Aufenthaltsort der Daten.
   
 Für Daten die für die direkte Präsentation im Netz vorgesehen sind,  \item Das Projekt verwendet die User-Images und archiviert
 werden auf foxridge zwei Pfade angeboten    weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
   
 \texttt{online/experimental}  \item Das Projekt veranlasst die vollständige Migration der
     User-Images (Löschung von der Festplatte) sobald die Daten nicht
     mehr direkt verwendet werden.
   \end{enumerate}
   
 und  
   
 \texttt{online/permanent}  \subsection{Ablage bei den Projekten}
   \label{sec:ablage-bei-den}
   
 \texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur  \begin{enumerate}
 temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches  \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
 können verändert und gelöscht werden.    oder Bereichen für Bewegungsdaten.
     
 \texttt{online/permanent} ist für Dokumente die auf längere Zeit im  \item Die Digigruppe kopiert Roh-Images und User-Images in einen
 Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert    Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit
 oder gelöscht werden, Dokumente dürfen nicht verschoben werden.    dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B.
     \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem
     Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
   
   \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
     Aufenthaltsort der Daten.
   
   \item Das Projekt verwendet die User-Images und archiviert
     weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
     
   \item Das Projekt veranlasst die vollständige Migration der Daten
     sobald sie nicht mehr direkt verwendet werden.
   \end{enumerate}
   
   
   \subsection{Ablage der Online-Images}
   \label{sec:ablage-der-online}
   
   Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache
   mit dem Projekt
   \begin{itemize}
   \item als fertige Images in der Online-Hierarchie der Bibliothek, wenn
     es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
     
   \item als fertige Images im Archivbereich bei den User-Images in einem
     Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem
     Online-Bereich
   
   \item für Projekte, die selbst weiter verarbeitete Online-Images zur
     Verfügung stellen werden keine Online-Images erzeugt.
   \end{itemize}
   
 Die interne Struktur der Dokumentordner in \texttt{online/permanent}  
 entspricht der oben dargestellten Struktur innerhalb von  
 \texttt{archive/data}.  
   
   
   

Removed from v.1.1.1.1  
changed lines
  Added in v.1.3


FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>