Diff for /storage/names/file-format.tex between versions 1.1 and 1.2

version 1.1, 2003/06/24 14:15:07 version 1.2, 2003/06/25 19:34:07
Line 1 Line 1
 \documentclass[a4paper, abstracton]{scrartcl}  \documentclass[a4paper, abstracton]{article}
   
 \usepackage{ngerman}  \usepackage{ngerman}
   
Line 33 Line 33
 \label{sec:datentypen-fur-die}  \label{sec:datentypen-fur-die}
   
   
 Die in diesem Dokument definierten Regeln gelten für  Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}
 \footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)}  
   
 \begin{description}  \begin{description}
 \item[Archivdaten], die innerhalb der Digitalisierungsprojekte des  \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne    Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
   ständigen Zugriff langfristig gesichert werden sollen (Pfad:    ständigen Zugriff langfristig gesichert werden sollen (Pfad:
   archive/data)    \texttt{archive/data})
       
 \item[Präsentationsdaten], die über das Internet verfügbar gemacht werden  \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
   sollen und deren URL bzw. URI langfristig stabil gehalten werden    sollen und deren URL bzw. URI langfristig stabil gehalten werden
   sollen (Pfad: \texttt{online/permanent})    sollen (Pfad: \texttt{online/permanent})
       
   
 \item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig  \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
   online verfügbar sein sollen (Pfad: \texttt{online/experimental})    online verfügbar sein sollen (Pfad: \texttt{online/experimental})
       
 \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von  \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
Line 61  Die in diesem Dokument definierten Regel Line 60  Die in diesem Dokument definierten Regel
 \label{sec:zugang-zum-server}  \label{sec:zugang-zum-server}
   
 Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver  Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
 \texttt{foxridge}, der physikalisch am FHI beheimatet ist.  \texttt{foxridge}, der physisch am FHI steht.
   
 Zugang per FTP, SCP, SFTP über:  
   
 \texttt{foxridge.mpiwg-berlin.mpg.de}  
   
   \begin{itemize}
   \item Zugang per FTP, SCP, SFTP über:
     \texttt{foxridge.mpiwg-berlin.mpg.de} \\
 Zugang zu den Daten in den Verzeichnissen  Zugang zu den Daten in den Verzeichnissen
 \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},  \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
 \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}  \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
   
 Zugang per Appletalk (AFP) über:  \item Zugang per Appletalk (AFP) über: Auswahl des Servers
     \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
 Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver}  
   
 Zugang zu den Daten über die Freigaben \texttt{archive\_data},  Zugang zu den Daten über die Freigaben \texttt{archive\_data},
 \texttt{online\_permanent}, \texttt{online\_experimental} und  \texttt{online\_permanent}, \texttt{online\_experimental} und
 \texttt{mirrors}  \texttt{mirrors}
   \end{itemize}
   
   
 \section{Benutzerkennung}  \section{Benutzerkennung}
Line 98  Erlaubte Zeichen in Datei- und Ordnernam Line 94  Erlaubte Zeichen in Datei- und Ordnernam
 \section{Ablage von Archivdaten}  \section{Ablage von Archivdaten}
 \label{sec:ablage-von-arch}  \label{sec:ablage-von-arch}
   
 Archivdaten werden nur temporär auf dem Server gehalten und dann auf  Archivdaten werden nur temporär auf der Festplatte des Servers
 Band gesichert. Auf Foxridge ist dafür der Pfad  gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
   gelöscht. Für Archivdaten ist auf Foxridge der Pfad
   
 \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}  \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
   
 vorgesehen.   \noindent vorgesehen. 
   
   
 \subsection{Erste Ebene: Projekte}  \subsection{Erste Ebene: Projekte}
Line 114  dem Namen des Projektes angelegt: Line 111  dem Namen des Projektes angelegt:
   
 \texttt{archive/data/PROJEKTNAME}  \texttt{archive/data/PROJEKTNAME}
   
 Bsp: das Humboldtprojekt  \noindent Bsp: das Humboldtprojekt
   
 \texttt{archive/data/humboldt}  \texttt{archive/data/humboldt}
   
Line 123  Bsp: das Humboldtprojekt Line 120  Bsp: das Humboldtprojekt
   Bücher)}    Bücher)}
 \label{sec:zweite-eben-dokum}  \label{sec:zweite-eben-dokum}
   
 Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen:  Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
   weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
   bestehen, wird folgende Bennenung
   vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
     obligatorisch.}
   
 \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}  \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
   
 Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch  \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
   
 \begin{table}[htbp]  \begin{table}[htbp]
   \center
 \begin{tabular}{lll}  \begin{tabular}{lp{0.6\textwidth}l}
 &&Beispiel:\\ \hline  Feld & Erklärung & Beispiel\\ \hline
   
 AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\  AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\
   
 TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\  TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\
   
 SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\  SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
   beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also
   in der Regel 01. & 01\\
   
 lang&Sprache in der zweistelligen ISO-Codierung&de\\  lang&Sprache in der zweistelligen ISO-Codierung&de\\
   
 year&Erscheinungsjahr, vierstellig&1803  year&Erscheinungsjahr, vierstellig&1803
   
 \end{tabular}  \end{tabular}
 \caption{Benennung Ordner}  \caption{Benennung Ordner}
 \label{tab:benennung}  \label{tab:benennung}
 \end{table}  \end{table}
 Tabelle 1: Benennung Ordner  
   
   
   
Line 156  Tabelle 1: Benennung Ordner Line 157  Tabelle 1: Benennung Ordner
 \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}  \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
 \label{sec:dritte-eben-unter}  \label{sec:dritte-eben-unter}
   
 Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt:  Innerhalb des Dokumentenordners werden weitere Unterordner für den
   jeweiligen Datentyp angelegt:
   
 \begin{table}[htbp]  
   \centering  
   \begin{tabular}{lll}  
 &Benennung&\\ \hline  
   
 für die Images (verpflichtend)&id-sernr-TYPE\\  
   
   
   
 oder\\  
   
   
   
 TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\  
   
 weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\  
   
   
   \texttt{TYPE}
   
 oder\\  \noindent oder
   
   \texttt{id-sernr-TYPE}
   
   \begin{description}
   \item[id] beschreibt eine eindeutige ID des Dokumentes
   (dreistellig)
   
 TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\  \item[sernr] eine Seriennummer falls mehrere
   Imagesätze zu einem Dokument gehören
 Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern  
   
   \end{tabular}  
   \caption{Benennung Unterordner}  
   \label{tab:unter}  
 \end{table}  
   
 Tabelle 2: Ordner  
   
   
   \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
     \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
     OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
     Dateien in den anderen Ordnern.
   \end{description}
   
 Ausserdem liegt in jedem Dokumentenordner eine Datei:  \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
   
 index.meta  \texttt{index.meta}
   
 die die Metadaten zum Ordner selbst enthält.  \noindent die Metadaten zum Ordner selbst enthält.
   
   
 \subsection{Vierte Ebene: Dateien in den Ordnern}  \subsection{Vierte Ebene: Dateien in den Ordnern}
 \label{sec:vierte-eben-date}  \label{sec:vierte-eben-date}
   
 Minimal müssen die Dateinamen so sein, dass ihre alphanumerische  Für Dateinamen gilt als Midestanforderung, dass die alphabetische
 Ordnung der Ordnung der Daten entspricht. Insbesondere sollten  Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
 nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten.  Dateien sollten Namen mit führenden Nullen erhalten, z.B.
   \texttt{00001.jpg}. Empfohlen wird folgende Bennung:
 Das Suffix muss den Dateityp angeben.  
   \texttt{id-sernr-imagenumber.SUFFIX}
   
   \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
   Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
   Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
   Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
   
 \begin{table}[htbp]  \begin{table}[htbp]
   \centering    \centering
Line 217  Das Suffix muss den Dateityp angeben. Line 207  Das Suffix muss den Dateityp angeben.
   
 suffix&Dateityp\\ \hline  suffix&Dateityp\\ \hline
   
 jpg&jpg-Bilddateien\\      jpg & JPEG-Bilddateien\\
   
 tif&tif-Format nicht komprimiert\\  
   
 png&png      tif & TIFF-Bilddateien \\
   
       png & PNG-Bilddateien
   \end{tabular}    \end{tabular}
   \caption{Benennung Dateien}    \caption{Dateiendungen}
 \label{tab:benennung-dateien}    \label{tab:benennung-dateien}  
 \end{table}  \end{table}
   
   
 Empfohlen wird folgende Bennung:  
   
 \texttt{id-sernr-imagenumber.suffx}  
   
 wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl.  
   
 Übersicht:  
   
   
   
   
   
   
 \section{Ablage der Onlinedaten}  \section{Ablage der Onlinedaten}
 \label{sec:ablage-der-onlin}  \label{sec:ablage-der-onlin}
   
 Für Daten die für die direkte Präsentation im Netz vorgesehen sind,  Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
 werden auf foxridge zwei Pfade angeboten  werden auf foxridge zwei Pfade angeboten:
   
 \texttt{online/experimental}  \texttt{online/experimental}
   
 und  \noindent und
   
 \texttt{online/permanent}  \texttt{online/permanent}
   
 \texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur  \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
 temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches  ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
 können verändert und gelöscht werden.  Bereiches können verändert und gelöscht werden.
   
 \texttt{online/permanent} ist für Dokumente die auf längere Zeit im  Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
 Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert  \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
 oder gelöscht werden, Dokumente dürfen nicht verschoben werden.  nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
   werden.
   
 Die interne Struktur der Dokumentordner in \texttt{online/permanent}  Die interne Struktur der Dokumentordner in \texttt{online/permanent}
 entspricht der oben dargestellten Struktur innerhalb von  entspricht der oben dargestellten Struktur von \texttt{archive/data}.
 \texttt{archive/data}.  
   
   
   

Removed from v.1.1  
changed lines
  Added in v.1.2


FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>