Diff for /storage/names/file-format.tex between versions 1.1 and 1.6

version 1.1, 2003/06/24 14:15:07 version 1.6, 2003/08/15 22:29:00
Line 1 Line 1
 \documentclass[a4paper, abstracton]{scrartcl}  \documentclass[a4paper]{article}
   
 \usepackage{ngerman}  \usepackage{ngerman}
   
Line 11 Line 11
 % create in-text links in black (with PDF)  % create in-text links in black (with PDF)
 %\usepackage[colorlinks=true,linkcolor=black]{hyperref}  %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
 % Format URLs nicely (without PDF)  % Format URLs nicely (without PDF)
 %\usepackage{url}  \usepackage{url}
   
 \title{Ablage von Massendaten im Archiv- und Backupsystem}  \title{Ablage von Massendaten im Archiv- und Backupsystem}
   
 \author{Dirk Wintergrün, Robert Casties}  \author{Dirk Wintergrün, Robert Casties}
   
   \date{V0.9.4 of \today}
   
 \begin{document}  \begin{document}
   
 \maketitle  \maketitle
Line 33 Line 35
 \label{sec:datentypen-fur-die}  \label{sec:datentypen-fur-die}
   
   
 Die in diesem Dokument definierten Regeln gelten für  Die in diesem Dokument definierten Regeln gelten
 \footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)}  für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.}
   
 \begin{description}  \begin{description}
 \item[Archivdaten], die innerhalb der Digitalisierungsprojekte des  \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne    Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
   ständigen Zugriff langfristig gesichert werden sollen (Pfad:    ständigen Zugriff langfristig gesichert werden sollen (Pfad:
   archive/data)    \url{archive/data})
       
 \item[Präsentationsdaten], die über das Internet verfügbar gemacht werden  \item[Langfristige Präsentationsdaten] die über das Internet verfügbar
   sollen und deren URL bzw. URI langfristig stabil gehalten werden    gemacht werden sollen und deren URL bzw. URI langfristig stabil
   sollen (Pfad: \texttt{online/permanent})    gehalten werden sollen (Pfad: \url{online/permanent})
       
   
 \item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig  \item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
   online verfügbar sein sollen (Pfad: \texttt{online/experimental})    online verfügbar sein sollen (Pfad: \url{online/experimental})
       
 \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von  \item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von
   Kooperationsprojekten gehalten werden und auf die ständiger Zugriff    Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
   z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:    z.B. zum Zweck der Synchronisation notwendig ist.(Pfad:
   \texttt{mirrors})    \url{mirrors})
 \end{description}  \end{description}
   
   
Line 61  Die in diesem Dokument definierten Regel Line 63  Die in diesem Dokument definierten Regel
 \label{sec:zugang-zum-server}  \label{sec:zugang-zum-server}
   
 Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver  Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
 \texttt{foxridge}, der physikalisch am FHI beheimatet ist.  \texttt{foxridge}, der physisch am FHI steht.
   
 Zugang per FTP, SCP, SFTP über:  
   
 \texttt{foxridge.mpiwg-berlin.mpg.de}  
   
   \begin{itemize}
   \item Zugang per FTP, SCP, SFTP über:
     \url{foxridge.mpiwg-berlin.mpg.de} \\
 Zugang zu den Daten in den Verzeichnissen  Zugang zu den Daten in den Verzeichnissen
 \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},    \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent},
 \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}    \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors}
   
 Zugang per Appletalk (AFP) über:  
   
 Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver}  
   
 Zugang zu den Daten über die Freigaben \texttt{archive\_data},  
 \texttt{online\_permanent}, \texttt{online\_experimental} und  
 \texttt{mirrors}  
   
   \item Zugang per Appletalk (AFP) über: Auswahl des Servers
     \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
     Zugang zu den Daten über die Freigaben \url{archive\_data},
     \url{online\_permanent}, \url{online\_experimental} und
     \url{mirrors}
   \end{itemize}
   
   
 \section{Benutzerkennung}  \section{Benutzerkennung}
 \label{sec:benutzerkennung}  \label{sec:benutzerkennung}
   
 Benutzerkennungen und Passworte für die Ablage der Massendaten werden  Benutzerkennungen und Passworte für die Ablage der Massendaten werden
 projektspezifisch vergeben.  projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der
     Zugriffsrechte fehlt noch.}
   
   
 \section{Erlaubte Zeichen in Datei- und Ordnernamen}  \section{Erlaubte Zeichen in Datei- und Ordnernamen}
 \label{sec:erla-zeich-datei}  \label{sec:erla-zeich-datei}
   
 Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',  Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
 "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.  "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. Es
   wird empfohlen für Datei- und Ordnernamen ausschliesslich
   Kleinschreibung zu verwenden.
   
   
 \section{Ablage von Archivdaten}  \section{Ablage von Archivdaten}
 \label{sec:ablage-von-arch}  \label{sec:ablage-von-arch}
   
 Archivdaten werden nur temporär auf dem Server gehalten und dann auf  Archivdaten werden nur temporär auf der Festplatte des Servers
 Band gesichert. Auf Foxridge ist dafür der Pfad  gehalten. Nach der Archivierung auf Magnetbänder werden sie von der
   Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad
   
 \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}  \url{/mpiwg/archive/data} bzw \url{archive_data}
   
 vorgesehen.   \noindent vorgesehen. 
   
   
 \subsection{Erste Ebene: Projekte}  \subsection{Erste Ebene: Projekte}
Line 112  vorgesehen. Line 115  vorgesehen.
 Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit  Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
 dem Namen des Projektes angelegt:  dem Namen des Projektes angelegt:
   
 \texttt{archive/data/PROJEKTNAME}  \url{archive/data/PROJEKTNAME}
   
 Bsp: das Humboldtprojekt  \noindent Bsp: das Humboldtprojekt
   
 \texttt{archive/data/humboldt}  \url{archive/data/humboldt}
   
   \noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig,
   weitere Unterordner zur Untergliederung der Dokumente anlegen.
   
   
 \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,  \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
   Bücher)}    Bücher)}
 \label{sec:zweite-eben-dokum}  \label{sec:zweite-eben-dokum}
   
 Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen:  Für jedes abzulegende Dokument wird unterhalb des Projektordners ein
   weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
   bestehen, wird folgende Bennenung
   vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
     obligatorisch.}
   
 \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}  \url{AUTHOR_TITLE_sernr_lang_year}
   
 Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch  \noindent Also z.B.
   
 \begin{table}[htbp]  \url{humbo_endec_01_de_1803}
   
 \begin{tabular}{lll}  \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
 &&Beispiel:\\ \hline  
   
 AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\  \begin{table}[htbp]
   \center
   \begin{tabular}{lp{0.6\textwidth}l}
   Feld & Erklärung & Beispiel\\ \hline
   
 TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\  \texttt{AUTHOR} & Autor, Vorschlag 5 stellig (falls nicht vorhanden "`anon."') & \texttt{humbo}\\
   
 SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\  \texttt{TITLE} & Abkürzung des Titels, Vorschlag 5 stellig & \texttt{endec}\\
   
 lang&Sprache in der zweistelligen ISO-Codierung&de\\  \texttt{sernr} & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
   beginnend mit 01, zweistellig & 01\\
   
 year&Erscheinungsjahr, vierstellig&1803  \texttt{lang} & Sprache in der zweistelligen ISO-Kodierung\footnotemark & \texttt{de}\\
   
   \texttt{year} & Erscheinungsjahr, vierstellig & 1803
 \end{tabular}  \end{tabular}
 \caption{Benennung Ordner}  \caption{Benennung Ordner}
 \label{tab:benennung}  \label{tab:benennung}
 \end{table}  \end{table}
 Tabelle 1: Benennung Ordner  \footnotetext{\url{http://www.loc.gov/standards/iso639-2/englangn.html}}
   
   
   
   
 \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}  \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
 \label{sec:dritte-eben-unter}  \label{sec:dritte-eben-unter}
   
 Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt:  Innerhalb des Dokumentenordners werden weitere Unterordner für den
   jeweiligen Datentyp angelegt:
   
 \begin{table}[htbp]  \url{TYPE}
   \centering  
   \begin{tabular}{lll}  
 &Benennung&\\ \hline  
   
 für die Images (verpflichtend)&id-sernr-TYPE\\  \noindent oder
   
   \url{id-sernr-TYPE}
   
   \begin{description}
   \item[id] eine eindeutige ID des Dokumentes (dreistellig), die
     innerhalb des Projektes vergeben wird
   
 oder\\  \item[sernr] eine Seriennummer falls mehrere
   Imagesätze zu einem Dokument gehören
   
   \item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder
     \url{pageimg} bei Scans einzelner Seiten oder \url{ocr} für
     OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu den
     Dateien in den anderen Ordnern.
   \end{description}
   
   \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
   
 TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\  \url{index.meta}
   
 weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\  \noindent die Metadaten zum Ordner selbst enthält. Das Format dieser
   Metadaten"=Datei ist im Dokument "`A simple metadata format for
   resource bundles"'\footnote{\url{http://pythia/projects/storagesystem/metadaten.html}} beschrieben.
   
   
   \subsection{Vierte Ebene: Dateien in den Ordnern}
   \label{sec:vierte-eben-date}
   
 oder\\  Für Dateinamen gilt als Midestanforderung, dass die Dateiendung den
   Dateityp anzeigt und die alphabetische Ordnung der Namen der
   Reihenfolge der Daten entspricht. Nummerierte Dateien sollten daher
   Namen mit führenden Nullen erhalten, z.B.  \url{00001.jpg}. Empfohlen
   wird folgende Bennung:
   
   \url{id-sernr-imagenumber.SUFFIX}
   
   \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
   Ordners übereinstimmen. Imagenummer ist eine vierstellige Zahl. Das
   Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
   Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
   
   \begin{table}[htbp]
     \centering
     \begin{tabular}{ll}
   
       suffix & Dateityp\\ \hline
   
 TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\      \texttt{jpg} & JPEG-Bilddateien\\
   
 Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern      \texttt{tif} & TIFF-Bilddateien \\
   
       \texttt{png} & PNG-Bilddateien
   \end{tabular}    \end{tabular}
   \caption{Benennung Unterordner}    \caption{Dateiendungen}
   \label{tab:unter}    \label{tab:benennung-dateien}  
 \end{table}  \end{table}
   
 Tabelle 2: Ordner  
   
   \section{Ablage der Onlinedaten}
   \label{sec:ablage-der-onlin}
   
   Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
   werden auf foxridge zwei Pfade angeboten:
   
 Ausserdem liegt in jedem Dokumentenordner eine Datei:  \url{online/experimental}
   
 index.meta  \noindent und
   
 die die Metadaten zum Ordner selbst enthält.  \url{online/permanent}
   
   \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
   ist \url{online/eperimental} vorgesehen. Pfade innerhalb dieses
   Bereiches können verändert und gelöscht werden.
   
 \subsection{Vierte Ebene: Dateien in den Ordnern}  Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
 \label{sec:vierte-eben-date}  \url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
   nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
   oder umbenannt werden.
   
 Minimal müssen die Dateinamen so sein, dass ihre alphanumerische  Die interne Struktur der Projekt- und Dokumentordner in
 Ordnung der Ordnung der Daten entspricht. Insbesondere sollten  \url{online/permanent} entspricht der in
 nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten.  Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von
   \url{archive/data}.
   
 Das Suffix muss den Dateityp angeben.  
   
 \begin{table}[htbp]  
   \centering  
   \begin{tabular}{ll}  
   
 suffix&Dateityp\\ \hline  \section{Workflow für die Übergabe von gescannten Texten}
   \label{sec:workflow-fur-die}
   
 jpg&jpg-Bilddateien\\  Größere Mengen von Büchern und Manuskripten werden von der
   Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt.
   Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen
   Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate
   werden zunächst in drei verschiedenen Formen erzeugt:
   
 tif&tif-Format nicht komprimiert\\  \begin{itemize}
   \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
     ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
     weitere Nutzung durch Andere gedacht und sollen nur archiviert
     werden.
   
 png&png  \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
     Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
     Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
     werden.
   
   \end{tabular}  \item Als \emph{Online-Image} in reduzierter Auflösung für die
   \caption{Benennung Dateien}    Online-Präsentation. Diese Dateien können ebenfalls durch andere
 \label{tab:benennung-dateien}      Projekte genutzt werden und müssen online zur Verfügung stehen.
 \end{table}  \end{itemize}
   
   Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
   von der Digigruppe selbständig durchgeführt. Für den Workflow der
   Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
   Anforderungen:
   
 Empfohlen wird folgende Bennung:  \begin{itemize}
   \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
     Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
   
 \texttt{id-sernr-imagenumber.suffx}  \item Die Daten müssen archiviert werden.
   
 wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl.  \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
     stehen und über einen allgemeinen Katalog gefunden werden können.
   
 Übersicht:  \item Daten sollten nach Möglichkeit nicht kopiert und doppelt
     abgelegt werden.
   \end{itemize}
   
   Der Workflow der Ablage der Daten ist abhängig davon ob die Scans im
   Auftrag eines etablierten Projektes durchgeführt wurden. In diesem
   Fall werden die Roh- und User"=Images von der Digigruppe in
   entsprechenden Unterordnern der jeweiligen Projektordner abgelegt
   (Abschnitt~\ref{sec:ablage-bei-den}). Wenn die Scans im Auftrag
   einzelner Wissenschaftler oder auf Initiative der Bibliothek erstellt
   wurden, werden sie in der \url{library} Hierarchie abgelegt
   (Abschnitt~\ref{sec:ablage-libr-proj})
   
   
   \subsection{Ablage in "`library"' Projekt}
   \label{sec:ablage-libr-proj}
   
   \begin{enumerate}
   \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
     oder Bereichen für Bewegungsdaten.
   
   \item Die Digigruppe kopiert Roh-Images und User-Images in einen
     Dokumenten-Ordner nach der Namenskonvention
     (\url{AUTHOR_TITLE_SERNR_lang_year}) im Bereich
     \url{archive/data/library}.  Roh-Images werden in einem
     Unterordner \url{raw} abgelegt und User-Images in \url{img}.
   
 \section{Ablage der Onlinedaten}  \item Die Digigruppe startet eine Prä-Migration der Daten (Roh- und
 \label{sec:ablage-der-onlin}    User"=images) ins Bandarchiv. Die Daten werden auf Band kopiert aber
     (nach Maßgabe des verfügbaren Speicherplatzes) noch nicht von der
     Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
       bereits von der Platte gelöscht während die User-Daten erhalten
       bleiben.}
   
   \item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag)
     über den Ablageort der Daten.
     
   \item Der Auftraggeber verwendet die User-Images. Veränderte Formen
     der Images erstellt und archiviert der Auftraggeber in seiner
     eigenen Projekt"=Hierarchie.
     
   \item Der Auftraggeber veranlasst die vollständige Migration (Löschung
     von der Festplatte) der von der Digigruppe erstellten Daten sobald
     sie nicht mehr direkt verwendet werden.
   \end{enumerate}
   
   
   \subsection{Ablage bei den Projekten}
   \label{sec:ablage-bei-den}
   
   \begin{enumerate}
   \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
     oder Bereichen für Bewegungsdaten.
     
   \item Die Digigruppe kopiert Roh-Images und User-Images in einen
     Dokumenten"=Ordner nach der Namenskonvention
     (Abschnitt~\ref{sec:zweite-eben-dokum}), der sich in einem mit dem
     Projekt abgesprochenen Bereich des Projektes befindet, z.B.
     \url{archive/data/PROJEKT/literature}. Roh"=Images werden in einem
     Unterordner \url{raw} abgelegt und User-Images in \url{img}.
   
   \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
     Aufenthaltsort der Daten.
   
   \item Das Projekt verwendet die User-Images und archiviert
     weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
     
   \item Das Projekt veranlasst die vollständige Archivierung und
     Migration der Daten sobald sie nicht mehr direkt verwendet werden.
   \end{enumerate}
   
 Für Daten die für die direkte Präsentation im Netz vorgesehen sind,  
 werden auf foxridge zwei Pfade angeboten  
   
 \texttt{online/experimental}  \subsection{Ablage der Online-Images}
   \label{sec:ablage-der-online}
   
 und  Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache
   mit dem Projekt
   
 \texttt{online/permanent}  \begin{itemize}
   \item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn
     es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
   
 \texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur  \item als fertige Images im Archivbereich bei den User-Images in einem
 temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches    Ordner \url{jpg} zur Nutzung durch das Projekt in seinem
 können verändert und gelöscht werden.    Online-Bereich
   
 \texttt{online/permanent} ist für Dokumente die auf längere Zeit im  \item für Projekte, die selbst weiter verarbeitete Online-Images zur
 Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert    Verfügung stellen werden keine Online-Images erzeugt.
 oder gelöscht werden, Dokumente dürfen nicht verschoben werden.  \end{itemize}
   
 Die interne Struktur der Dokumentordner in \texttt{online/permanent}  
 entspricht der oben dargestellten Struktur innerhalb von  
 \texttt{archive/data}.  
   
   
   

Removed from v.1.1  
changed lines
  Added in v.1.6


FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>