--- storage/names/file-format.tex 2003/06/24 14:15:07 1.1 +++ storage/names/file-format.tex 2003/06/25 19:34:07 1.2 @@ -1,4 +1,4 @@ -\documentclass[a4paper, abstracton]{scrartcl} +\documentclass[a4paper, abstracton]{article} \usepackage{ngerman} @@ -33,21 +33,20 @@ \label{sec:datentypen-fur-die} -Die in diesem Dokument definierten Regeln gelten für -\footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)} +Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.} \begin{description} -\item[Archivdaten], die innerhalb der Digitalisierungsprojekte des +\item[Archivdaten] die innerhalb der Digitalisierungsprojekte des Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne ständigen Zugriff langfristig gesichert werden sollen (Pfad: - archive/data) + \texttt{archive/data}) -\item[Präsentationsdaten], die über das Internet verfügbar gemacht werden +\item[Präsentationsdaten] die über das Internet verfügbar gemacht werden sollen und deren URL bzw. URI langfristig stabil gehalten werden sollen (Pfad: \texttt{online/permanent}) -\item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig +\item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig online verfügbar sein sollen (Pfad: \texttt{online/experimental}) \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von @@ -61,24 +60,21 @@ Die in diesem Dokument definierten Regel \label{sec:zugang-zum-server} Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver -\texttt{foxridge}, der physikalisch am FHI beheimatet ist. - -Zugang per FTP, SCP, SFTP über: - -\texttt{foxridge.mpiwg-berlin.mpg.de} - -Zugang zu den Daten in den Verzeichnissen -\texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent}, -\texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors} - -Zugang per Appletalk (AFP) über: - -Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} - -Zugang zu den Daten über die Freigaben \texttt{archive\_data}, -\texttt{online\_permanent}, \texttt{online\_experimental} und -\texttt{mirrors} +\texttt{foxridge}, der physisch am FHI steht. +\begin{itemize} +\item Zugang per FTP, SCP, SFTP über: + \texttt{foxridge.mpiwg-berlin.mpg.de} \\ + Zugang zu den Daten in den Verzeichnissen + \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent}, + \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors} + +\item Zugang per Appletalk (AFP) über: Auswahl des Servers + \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\ + Zugang zu den Daten über die Freigaben \texttt{archive\_data}, + \texttt{online\_permanent}, \texttt{online\_experimental} und + \texttt{mirrors} +\end{itemize} \section{Benutzerkennung} @@ -98,12 +94,13 @@ Erlaubte Zeichen in Datei- und Ordnernam \section{Ablage von Archivdaten} \label{sec:ablage-von-arch} -Archivdaten werden nur temporär auf dem Server gehalten und dann auf -Band gesichert. Auf Foxridge ist dafür der Pfad +Archivdaten werden nur temporär auf der Festplatte des Servers +gehalten. Nach der Archivierung auf Band werden sie von der Festplatte +gelöscht. Für Archivdaten ist auf Foxridge der Pfad \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data} -vorgesehen. +\noindent vorgesehen. \subsection{Erste Ebene: Projekte} @@ -114,7 +111,7 @@ dem Namen des Projektes angelegt: \texttt{archive/data/PROJEKTNAME} -Bsp: das Humboldtprojekt +\noindent Bsp: das Humboldtprojekt \texttt{archive/data/humboldt} @@ -123,32 +120,36 @@ Bsp: das Humboldtprojekt Bücher)} \label{sec:zweite-eben-dokum} -Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen: +Für jedes abzulegende Dokument wird innerhalb des Projektordners ein +weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten +bestehen, wird folgende Bennenung +vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils + obligatorisch.} \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year} -Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch +\noindent Siehe dazu Tabelle~\ref{tab:benennung}. \begin{table}[htbp] +\center +\begin{tabular}{lp{0.6\textwidth}l} +Feld & Erklärung & Beispiel\\ \hline -\begin{tabular}{lll} -&&Beispiel:\\ \hline - -AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\ - -TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\ +AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\ -SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\ +TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\ -lang&Sprache in der zweistelligen ISO-Codierung&de\\ +SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig, +beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also +in der Regel 01. & 01\\ -year&Erscheinungsjahr, vierstellig&1803 +lang & Sprache in der zweistelligen ISO-Codierung & de\\ +year & Erscheinungsjahr, vierstellig & 1803 \end{tabular} \caption{Benennung Ordner} \label{tab:benennung} \end{table} -Tabelle 1: Benennung Ordner @@ -156,115 +157,90 @@ Tabelle 1: Benennung Ordner \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)} \label{sec:dritte-eben-unter} -Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt: - - -\begin{table}[htbp] - \centering - \begin{tabular}{lll} -&Benennung&\\ \hline - -für die Images (verpflichtend)&id-sernr-TYPE\\ - - - -oder\\ - - - -TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\ - -weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\ - +Innerhalb des Dokumentenordners werden weitere Unterordner für den +jeweiligen Datentyp angelegt: +\texttt{TYPE} -oder\\ +\noindent oder +\texttt{id-sernr-TYPE} +\begin{description} +\item[id] beschreibt eine eindeutige ID des Dokumentes +(dreistellig) -TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\ - -Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern - - \end{tabular} - \caption{Benennung Unterordner} - \label{tab:unter} -\end{table} - -Tabelle 2: Ordner - +\item[sernr] eine Seriennummer falls mehrere +Imagesätze zu einem Dokument gehören +\item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder + \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für + OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den + Dateien in den anderen Ordnern. +\end{description} -Ausserdem liegt in jedem Dokumentenordner eine Datei: +\noindent Ausserdem liegt in jedem Dokumentenordner eine Datei: -index.meta +\texttt{index.meta} -die die Metadaten zum Ordner selbst enthält. +\noindent die Metadaten zum Ordner selbst enthält. \subsection{Vierte Ebene: Dateien in den Ordnern} \label{sec:vierte-eben-date} -Minimal müssen die Dateinamen so sein, dass ihre alphanumerische -Ordnung der Ordnung der Daten entspricht. Insbesondere sollten -nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten. - -Das Suffix muss den Dateityp angeben. +Für Dateinamen gilt als Midestanforderung, dass die alphabetische +Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte +Dateien sollten Namen mit führenden Nullen erhalten, z.B. +\texttt{00001.jpg}. Empfohlen wird folgende Bennung: + +\texttt{id-sernr-imagenumber.SUFFIX} + +\noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des +Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das +Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von +Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}. \begin{table}[htbp] \centering \begin{tabular}{ll} -suffix&Dateityp\\ \hline - -jpg&jpg-Bilddateien\\ - -tif&tif-Format nicht komprimiert\\ - -png&png + suffix & Dateityp\\ \hline + jpg & JPEG-Bilddateien\\ + + tif & TIFF-Bilddateien \\ + + png & PNG-Bilddateien \end{tabular} - \caption{Benennung Dateien} -\label{tab:benennung-dateien} + \caption{Dateiendungen} + \label{tab:benennung-dateien} \end{table} -Empfohlen wird folgende Bennung: - -\texttt{id-sernr-imagenumber.suffx} - -wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. - -Übersicht: - - - - - - \section{Ablage der Onlinedaten} \label{sec:ablage-der-onlin} Für Daten die für die direkte Präsentation im Netz vorgesehen sind, -werden auf foxridge zwei Pfade angeboten +werden auf foxridge zwei Pfade angeboten: \texttt{online/experimental} -und +\noindent und \texttt{online/permanent} -\texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur -temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches -können verändert und gelöscht werden. - -\texttt{online/permanent} ist für Dokumente die auf längere Zeit im -Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert -oder gelöscht werden, Dokumente dürfen nicht verschoben werden. +\noindent Für Dokumente, die nur temporär präsentiert werden sollen, +ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses +Bereiches können verändert und gelöscht werden. + +Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist +\texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen +nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben +werden. Die interne Struktur der Dokumentordner in \texttt{online/permanent} -entspricht der oben dargestellten Struktur innerhalb von -\texttt{archive/data}. +entspricht der oben dargestellten Struktur von \texttt{archive/data}.