Annotation of storage/names/file-format.tex, revision 1.1.1.1

1.1       casties     1: \documentclass[a4paper, abstracton]{scrartcl}
                      2: 
                      3: \usepackage{ngerman}
                      4: 
                      5: \usepackage[latin1]{inputenc}
                      6: \usepackage[T1]{fontenc}
                      7: \usepackage{ae}
                      8: %\usepackage{times}
                      9: %\usepackage{courier}
                     10: 
                     11: % create in-text links in black (with PDF)
                     12: %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
                     13: % Format URLs nicely (without PDF)
                     14: %\usepackage{url}
                     15: 
                     16: \title{Ablage von Massendaten im Archiv- und Backupsystem}
                     17: 
                     18: \author{Dirk Wintergrün, Robert Casties}
                     19: 
                     20: \begin{document}
                     21: 
                     22: \maketitle
                     23: 
                     24: \begin{abstract}
                     25:   In diesem Dokument werden die Ablage von Massendaten auf dem
                     26:   zentralen Archiv- und Filesystem des MPIWG beschrieben
                     27: \end{abstract}
                     28: 
                     29: \tableofcontents
                     30: 
                     31: 
                     32: \section{Datentypen für die dieses Dokument gilt}
                     33: \label{sec:datentypen-fur-die}
                     34: 
                     35: 
                     36: Die in diesem Dokument definierten Regeln gelten für
                     37: \footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)}
                     38: 
                     39: \begin{description}
                     40: \item[Archivdaten], die innerhalb der Digitalisierungsprojekte des
                     41:   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
                     42:   ständigen Zugriff langfristig gesichert werden sollen (Pfad:
                     43:   archive/data)
                     44:   
                     45: \item[Präsentationsdaten], die über das Internet verfügbar gemacht werden
                     46:   sollen und deren URL bzw. URI langfristig stabil gehalten werden
                     47:   sollen (Pfad: \texttt{online/permanent})
                     48:   
                     49: 
                     50: \item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig
                     51:   online verfügbar sein sollen (Pfad: \texttt{online/experimental})
                     52:   
                     53: \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
                     54:   Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
                     55:   z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
                     56:   \texttt{mirrors})
                     57: \end{description}
                     58: 
                     59: 
                     60: \section{Zugang zum Server}
                     61: \label{sec:zugang-zum-server}
                     62: 
                     63: Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
                     64: \texttt{foxridge}, der physikalisch am FHI beheimatet ist.
                     65: 
                     66: Zugang per FTP, SCP, SFTP über:
                     67: 
                     68: \texttt{foxridge.mpiwg-berlin.mpg.de}
                     69: 
                     70: Zugang zu den Daten in den Verzeichnissen
                     71: \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
                     72: \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
                     73: 
                     74: Zugang per Appletalk (AFP) über:
                     75: 
                     76: Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver}
                     77: 
                     78: Zugang zu den Daten über die Freigaben \texttt{archive\_data},
                     79: \texttt{online\_permanent}, \texttt{online\_experimental} und
                     80: \texttt{mirrors}
                     81: 
                     82: 
                     83: 
                     84: \section{Benutzerkennung}
                     85: \label{sec:benutzerkennung}
                     86: 
                     87: Benutzerkennungen und Passworte für die Ablage der Massendaten werden
                     88: projektspezifisch vergeben.
                     89: 
                     90: 
                     91: \section{Erlaubte Zeichen in Datei- und Ordnernamen}
                     92: \label{sec:erla-zeich-datei}
                     93: 
                     94: Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
                     95: "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.
                     96: 
                     97: 
                     98: \section{Ablage von Archivdaten}
                     99: \label{sec:ablage-von-arch}
                    100: 
                    101: Archivdaten werden nur temporär auf dem Server gehalten und dann auf
                    102: Band gesichert. Auf Foxridge ist dafür der Pfad
                    103: 
                    104: \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
                    105: 
                    106: vorgesehen. 
                    107: 
                    108: 
                    109: \subsection{Erste Ebene: Projekte}
                    110: \label{sec:erste-eben-proj}
                    111: 
                    112: Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
                    113: dem Namen des Projektes angelegt:
                    114: 
                    115: \texttt{archive/data/PROJEKTNAME}
                    116: 
                    117: Bsp: das Humboldtprojekt
                    118: 
                    119: \texttt{archive/data/humboldt}
                    120: 
                    121: 
                    122: \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
                    123:   Bücher)}
                    124: \label{sec:zweite-eben-dokum}
                    125: 
                    126: Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen:
                    127: 
                    128: \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
                    129: 
                    130: Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch
                    131: 
                    132: \begin{table}[htbp]
                    133: 
                    134: \begin{tabular}{lll}
                    135: &&Beispiel:\\ \hline
                    136: 
                    137: AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\
                    138: 
                    139: TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\
                    140: 
                    141: SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\
                    142: 
                    143: lang&Sprache in der zweistelligen ISO-Codierung&de\\
                    144: 
                    145: year&Erscheinungsjahr, vierstellig&1803
                    146: 
                    147: \end{tabular}
                    148: \caption{Benennung Ordner}
                    149: \label{tab:benennung}
                    150: \end{table}
                    151: Tabelle 1: Benennung Ordner
                    152: 
                    153: 
                    154: 
                    155: 
                    156: \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
                    157: \label{sec:dritte-eben-unter}
                    158: 
                    159: Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt:
                    160: 
                    161: 
                    162: \begin{table}[htbp]
                    163:   \centering
                    164:   \begin{tabular}{lll}
                    165: &Benennung&\\ \hline
                    166: 
                    167: für die Images (verpflichtend)&id-sernr-TYPE\\
                    168: 
                    169: 
                    170: 
                    171: oder\\
                    172: 
                    173: 
                    174: 
                    175: TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\
                    176: 
                    177: weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\
                    178: 
                    179: 
                    180: 
                    181: oder\\
                    182: 
                    183: 
                    184: 
                    185: TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\
                    186: 
                    187: Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern
                    188: 
                    189:   \end{tabular}
                    190:   \caption{Benennung Unterordner}
                    191:   \label{tab:unter}
                    192: \end{table}
                    193: 
                    194: Tabelle 2: Ordner
                    195: 
                    196: 
                    197: 
                    198: Ausserdem liegt in jedem Dokumentenordner eine Datei:
                    199: 
                    200: index.meta
                    201: 
                    202: die die Metadaten zum Ordner selbst enthält.
                    203: 
                    204: 
                    205: \subsection{Vierte Ebene: Dateien in den Ordnern}
                    206: \label{sec:vierte-eben-date}
                    207: 
                    208: Minimal müssen die Dateinamen so sein, dass ihre alphanumerische
                    209: Ordnung der Ordnung der Daten entspricht. Insbesondere sollten
                    210: nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten.
                    211: 
                    212: Das Suffix muss den Dateityp angeben.
                    213: 
                    214: \begin{table}[htbp]
                    215:   \centering
                    216:   \begin{tabular}{ll}
                    217: 
                    218: suffix&Dateityp\\ \hline
                    219: 
                    220: jpg&jpg-Bilddateien\\
                    221: 
                    222: tif&tif-Format nicht komprimiert\\
                    223: 
                    224: png&png
                    225: 
                    226:   \end{tabular}
                    227:   \caption{Benennung Dateien}
                    228: \label{tab:benennung-dateien}  
                    229: \end{table}
                    230: 
                    231: 
                    232: Empfohlen wird folgende Bennung:
                    233: 
                    234: \texttt{id-sernr-imagenumber.suffx}
                    235: 
                    236: wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl.
                    237: 
                    238: Übersicht:
                    239: 
                    240: 
                    241: 
                    242: 
                    243: 
                    244: 
                    245: \section{Ablage der Onlinedaten}
                    246: \label{sec:ablage-der-onlin}
                    247: 
                    248: Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
                    249: werden auf foxridge zwei Pfade angeboten
                    250: 
                    251: \texttt{online/experimental}
                    252: 
                    253: und
                    254: 
                    255: \texttt{online/permanent}
                    256: 
                    257: \texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur
                    258: temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches
                    259: können verändert und gelöscht werden.
                    260: 
                    261: \texttt{online/permanent} ist für Dokumente die auf längere Zeit im
                    262: Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert
                    263: oder gelöscht werden, Dokumente dürfen nicht verschoben werden.
                    264: 
                    265: Die interne Struktur der Dokumentordner in \texttt{online/permanent}
                    266: entspricht der oben dargestellten Struktur innerhalb von
                    267: \texttt{archive/data}.
                    268: 
                    269: 
                    270: 
                    271: \end{document}
                    272: 
                    273: 
                    274: 
                    275: %%% Local Variables: 
                    276: %%% mode: latex
                    277: %%% TeX-master: t
                    278: %%% End: 
                    279: 

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>