Diff for /storage/names/file-format.tex between versions 1.1.1.1 and 1.4

version 1.1.1.1, 2003/06/24 14:15:07 version 1.4, 2003/07/02 19:12:49
Line 1 Line 1
 \documentclass[a4paper, abstracton]{scrartcl}  \documentclass[a4paper, abstracton]{article}
   
 \usepackage{ngerman}  \usepackage{ngerman}
   
Line 17 Line 17
   
 \author{Dirk Wintergrün, Robert Casties}  \author{Dirk Wintergrün, Robert Casties}
   
   \date{V0.9.2 \today}
   
 \begin{document}  \begin{document}
   
 \maketitle  \maketitle
Line 33 Line 35
 \label{sec:datentypen-fur-die}  \label{sec:datentypen-fur-die}
   
   
 Die in diesem Dokument definierten Regeln gelten für  Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}
 \footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)}  
   
 \begin{description}  \begin{description}
 \item[Archivdaten], die innerhalb der Digitalisierungsprojekte des  \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne    Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
   ständigen Zugriff langfristig gesichert werden sollen (Pfad:    ständigen Zugriff langfristig gesichert werden sollen (Pfad:
   archive/data)    \texttt{archive/data})
       
 \item[Präsentationsdaten], die über das Internet verfügbar gemacht werden  \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
   sollen und deren URL bzw. URI langfristig stabil gehalten werden    sollen und deren URL bzw. URI langfristig stabil gehalten werden
   sollen (Pfad: \texttt{online/permanent})    sollen (Pfad: \texttt{online/permanent})
       
   
 \item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig  \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
   online verfügbar sein sollen (Pfad: \texttt{online/experimental})    online verfügbar sein sollen (Pfad: \texttt{online/experimental})
       
 \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von  \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
Line 61  Die in diesem Dokument definierten Regel Line 62  Die in diesem Dokument definierten Regel
 \label{sec:zugang-zum-server}  \label{sec:zugang-zum-server}
   
 Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver  Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
 \texttt{foxridge}, der physikalisch am FHI beheimatet ist.  \texttt{foxridge}, der physisch am FHI steht.
   
 Zugang per FTP, SCP, SFTP über:  
   
 \texttt{foxridge.mpiwg-berlin.mpg.de}  
   
   \begin{itemize}
   \item Zugang per FTP, SCP, SFTP über:
     \texttt{foxridge.mpiwg-berlin.mpg.de} \\
 Zugang zu den Daten in den Verzeichnissen  Zugang zu den Daten in den Verzeichnissen
 \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},  \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
 \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}  \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
   
 Zugang per Appletalk (AFP) über:  \item Zugang per Appletalk (AFP) über: Auswahl des Servers
     \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
 Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver}  
   
 Zugang zu den Daten über die Freigaben \texttt{archive\_data},  Zugang zu den Daten über die Freigaben \texttt{archive\_data},
 \texttt{online\_permanent}, \texttt{online\_experimental} und  \texttt{online\_permanent}, \texttt{online\_experimental} und
 \texttt{mirrors}  \texttt{mirrors}
   \end{itemize}
   
   
 \section{Benutzerkennung}  \section{Benutzerkennung}
Line 98  Erlaubte Zeichen in Datei- und Ordnernam Line 96  Erlaubte Zeichen in Datei- und Ordnernam
 \section{Ablage von Archivdaten}  \section{Ablage von Archivdaten}
 \label{sec:ablage-von-arch}  \label{sec:ablage-von-arch}
   
 Archivdaten werden nur temporär auf dem Server gehalten und dann auf  Archivdaten werden nur temporär auf der Festplatte des Servers
 Band gesichert. Auf Foxridge ist dafür der Pfad  gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
   gelöscht. Für Archivdaten ist auf Foxridge der Pfad
   
 \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}  \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
   
 vorgesehen.   \noindent vorgesehen. 
   
   
 \subsection{Erste Ebene: Projekte}  \subsection{Erste Ebene: Projekte}
Line 114  dem Namen des Projektes angelegt: Line 113  dem Namen des Projektes angelegt:
   
 \texttt{archive/data/PROJEKTNAME}  \texttt{archive/data/PROJEKTNAME}
   
 Bsp: das Humboldtprojekt  \noindent Bsp: das Humboldtprojekt
   
 \texttt{archive/data/humboldt}  \texttt{archive/data/humboldt}
   
Line 123  Bsp: das Humboldtprojekt Line 122  Bsp: das Humboldtprojekt
   Bücher)}    Bücher)}
 \label{sec:zweite-eben-dokum}  \label{sec:zweite-eben-dokum}
   
 Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen:  Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
   weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
   bestehen, wird folgende Bennenung
   vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
     obligatorisch.}
   
 \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}  \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
   
 Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch  \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
   
 \begin{table}[htbp]  \begin{table}[htbp]
   \center
 \begin{tabular}{lll}  \begin{tabular}{lp{0.6\textwidth}l}
 &&Beispiel:\\ \hline  Feld & Erklärung & Beispiel\\ \hline
   
 AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\  AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\
   
 TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\  TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\
   
 SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\  SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
   beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also
   in der Regel 01. & 01\\
   
 lang&Sprache in der zweistelligen ISO-Codierung&de\\  lang&Sprache in der zweistelligen ISO-Codierung&de\\
   
 year&Erscheinungsjahr, vierstellig&1803  year&Erscheinungsjahr, vierstellig&1803
   
 \end{tabular}  \end{tabular}
 \caption{Benennung Ordner}  \caption{Benennung Ordner}
 \label{tab:benennung}  \label{tab:benennung}
 \end{table}  \end{table}
 Tabelle 1: Benennung Ordner  
   
   
   
Line 156  Tabelle 1: Benennung Ordner Line 159  Tabelle 1: Benennung Ordner
 \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}  \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
 \label{sec:dritte-eben-unter}  \label{sec:dritte-eben-unter}
   
 Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt:  Innerhalb des Dokumentenordners werden weitere Unterordner für den
   jeweiligen Datentyp angelegt:
   
 \begin{table}[htbp]  \texttt{TYPE}
   \centering  
   \begin{tabular}{lll}  
 &Benennung&\\ \hline  
   
 für die Images (verpflichtend)&id-sernr-TYPE\\  \noindent oder
   
   \texttt{id-sernr-TYPE}
   
   \begin{description}
   \item[id] beschreibt eine eindeutige ID des Dokumentes
   (dreistellig)
   
 oder\\  \item[sernr] eine Seriennummer falls mehrere
   Imagesätze zu einem Dokument gehören
   
   \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
     \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
     OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
     Dateien in den anderen Ordnern.
   \end{description}
   
   \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
   
 TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\  \texttt{index.meta}
   
 weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\  \noindent die Metadaten zum Ordner selbst enthält.
   
   
   \subsection{Vierte Ebene: Dateien in den Ordnern}
   \label{sec:vierte-eben-date}
   
 oder\\  Für Dateinamen gilt als Midestanforderung, dass die alphabetische
   Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
   Dateien sollten Namen mit führenden Nullen erhalten, z.B.
   \texttt{00001.jpg}. Empfohlen wird folgende Bennung:
   
   \texttt{id-sernr-imagenumber.SUFFIX}
   
   \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
   Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
   Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
   Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
   
   \begin{table}[htbp]
     \centering
     \begin{tabular}{ll}
   
       suffix & Dateityp\\ \hline
   
 TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\      jpg & JPEG-Bilddateien\\
   
 Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern      tif & TIFF-Bilddateien \\
   
       png & PNG-Bilddateien
   \end{tabular}    \end{tabular}
   \caption{Benennung Unterordner}    \caption{Dateiendungen}
   \label{tab:unter}    \label{tab:benennung-dateien}  
 \end{table}  \end{table}
   
 Tabelle 2: Ordner  
   
   \section{Ablage der Onlinedaten}
   \label{sec:ablage-der-onlin}
   
   Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
   werden auf foxridge zwei Pfade angeboten:
   
   \texttt{online/experimental}
   
   \noindent und
   
   \texttt{online/permanent}
   
 Ausserdem liegt in jedem Dokumentenordner eine Datei:  \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
   ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
   Bereiches können verändert und gelöscht werden.
   
   Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
   \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
   nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
   werden.
   
 index.meta  Die interne Struktur der Dokumentordner in \texttt{online/permanent}
   entspricht der oben dargestellten Struktur von \texttt{archive/data}.
   
 die die Metadaten zum Ordner selbst enthält.  
   
   
 \subsection{Vierte Ebene: Dateien in den Ordnern}  \section{Workflow für die Übergabe von gescannten Texten}
 \label{sec:vierte-eben-date}  \label{sec:workflow-fur-die}
   
 Minimal müssen die Dateinamen so sein, dass ihre alphanumerische  Größere Mengen von Büchern und Manuskripten werden von der
 Ordnung der Ordnung der Daten entspricht. Insbesondere sollten  Digitalisierungsgruppe der Bibliothek in hoher Qualität
 nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten.  gescannt. Diese Digitalisierungen erfolgen im Auftrag
   einzelner Projekte oder auf eigene Initiative der Bibliothek. Die
   Digitalisate werden zunächst in drei verschiedenen Formen erzeugt:
   
 Das Suffix muss den Dateityp angeben.  \begin{itemize}
   \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
     ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
     weitere Nutzung durch Andere gedacht und sollen nur archiviert
     werden.
   
 \begin{table}[htbp]  \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
   \centering    Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
   \begin{tabular}{ll}    Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
     werden.
   
 suffix&Dateityp\\ \hline  \item Als \emph{Online-Image} in reduzierter Auflösung für die
     Online-Präsentation. Diese Dateien können ebenfalls durch andere
     Projekte genutzt werden und müssen online zur Verfügung stehen.
   \end{itemize}
   
 jpg&jpg-Bilddateien\\  Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
   von der Digigruppe selbständig durchgeführt. Für den Workflow der
   Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
   Anforderungen:
   
 tif&tif-Format nicht komprimiert\\  \begin{itemize}
   \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
     Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
   
 png&png  \item Die Daten müssen archiviert werden.
   
   \end{tabular}  \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
   \caption{Benennung Dateien}    stehen und über einen allgemeinen Katalog gefunden werden können.
 \label{tab:benennung-dateien}    
 \end{table}  
   
   \item Daten sollten nach Möglichkeit nicht kopiert und doppelt
     abgelegt werden.
   \end{itemize}
   
 Empfohlen wird folgende Bennung:  Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der
   Roh- und User-Images durch die Digigruppe in einer eigenen
   \texttt{library} Hierarchie oder die Ablage durch die Digigruppe in
   entsprechenden Unterordnern der jeweiligen Projekte.
   
 \texttt{id-sernr-imagenumber.suffx}  
   
 wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl.  \subsection{Ablage in "`library"' Projekt}
   \label{sec:ablage-libr-proj}
   
 Übersicht:  \begin{enumerate}
   \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
     oder Bereichen für Bewegungsdaten.
   
   \item Die Digigruppe kopiert Roh-Images und User-Images in einen
     Dokumenten-Ordner nach der Namenskonvention
     (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich
     \texttt{archive/data/library}.  Roh-Images werden in einem
     Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
   
   \item Die Digigruppe startet eine Prä-Migration der Daten ins
     Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des
     verfügbaren Speicherplatzes) noch nicht von
     der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
     bereits von der Platte gelöscht während die User-Daten erhalten
     bleiben.}
   
   \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
     Aufenthaltsort der Daten.
   
   \item Das Projekt verwendet die User-Images und archiviert
     weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
   
   \item Das Projekt veranlasst die vollständige Migration der
     User-Images (Löschung von der Festplatte) sobald die Daten nicht
     mehr direkt verwendet werden.
   \end{enumerate}
   
 \section{Ablage der Onlinedaten}  
 \label{sec:ablage-der-onlin}  
   
 Für Daten die für die direkte Präsentation im Netz vorgesehen sind,  \subsection{Ablage bei den Projekten}
 werden auf foxridge zwei Pfade angeboten  \label{sec:ablage-bei-den}
   
 \texttt{online/experimental}  \begin{enumerate}
   \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
     oder Bereichen für Bewegungsdaten.
   
 und  \item Die Digigruppe kopiert Roh-Images und User-Images in einen
     Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit
     dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B.
     \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem
     Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
   
 \texttt{online/permanent}  \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
     Aufenthaltsort der Daten.
   
 \texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur  \item Das Projekt verwendet die User-Images und archiviert
 temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches    weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
 können verändert und gelöscht werden.    
   \item Das Projekt veranlasst die vollständige Migration der Daten
 \texttt{online/permanent} ist für Dokumente die auf längere Zeit im    sobald sie nicht mehr direkt verwendet werden.
 Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert  \end{enumerate}
 oder gelöscht werden, Dokumente dürfen nicht verschoben werden.  
   
   \subsection{Ablage der Online-Images}
   \label{sec:ablage-der-online}
   
   Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache
   mit dem Projekt
   \begin{itemize}
   \item als fertige Images in der Online-Hierarchie der Bibliothek, wenn
     es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
     
   \item als fertige Images im Archivbereich bei den User-Images in einem
     Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem
     Online-Bereich
   
   \item für Projekte, die selbst weiter verarbeitete Online-Images zur
     Verfügung stellen werden keine Online-Images erzeugt.
   \end{itemize}
   
 Die interne Struktur der Dokumentordner in \texttt{online/permanent}  
 entspricht der oben dargestellten Struktur innerhalb von  
 \texttt{archive/data}.  
   
   
   

Removed from v.1.1.1.1  
changed lines
  Added in v.1.4


FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>