Annotation of storage/names/file-format.tex, revision 1.4

1.2       casties     1: \documentclass[a4paper, abstracton]{article}
1.1       casties     2: 
                      3: \usepackage{ngerman}
                      4: 
                      5: \usepackage[latin1]{inputenc}
                      6: \usepackage[T1]{fontenc}
                      7: \usepackage{ae}
                      8: %\usepackage{times}
                      9: %\usepackage{courier}
                     10: 
                     11: % create in-text links in black (with PDF)
                     12: %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
                     13: % Format URLs nicely (without PDF)
                     14: %\usepackage{url}
                     15: 
                     16: \title{Ablage von Massendaten im Archiv- und Backupsystem}
                     17: 
                     18: \author{Dirk Wintergrün, Robert Casties}
                     19: 
1.4     ! casties    20: \date{V0.9.2 \today}
        !            21: 
1.1       casties    22: \begin{document}
                     23: 
                     24: \maketitle
                     25: 
                     26: \begin{abstract}
                     27:   In diesem Dokument werden die Ablage von Massendaten auf dem
                     28:   zentralen Archiv- und Filesystem des MPIWG beschrieben
                     29: \end{abstract}
                     30: 
                     31: \tableofcontents
                     32: 
                     33: 
                     34: \section{Datentypen für die dieses Dokument gilt}
                     35: \label{sec:datentypen-fur-die}
                     36: 
                     37: 
1.2       casties    38: Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}
1.1       casties    39: 
                     40: \begin{description}
1.2       casties    41: \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
1.1       casties    42:   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
                     43:   ständigen Zugriff langfristig gesichert werden sollen (Pfad:
1.2       casties    44:   \texttt{archive/data})
1.1       casties    45:   
1.2       casties    46: \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
1.1       casties    47:   sollen und deren URL bzw. URI langfristig stabil gehalten werden
                     48:   sollen (Pfad: \texttt{online/permanent})
                     49:   
                     50: 
1.2       casties    51: \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
1.1       casties    52:   online verfügbar sein sollen (Pfad: \texttt{online/experimental})
                     53:   
                     54: \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
                     55:   Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
                     56:   z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
                     57:   \texttt{mirrors})
                     58: \end{description}
                     59: 
                     60: 
                     61: \section{Zugang zum Server}
                     62: \label{sec:zugang-zum-server}
                     63: 
                     64: Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
1.2       casties    65: \texttt{foxridge}, der physisch am FHI steht.
1.1       casties    66: 
1.2       casties    67: \begin{itemize}
                     68: \item Zugang per FTP, SCP, SFTP über:
                     69:   \texttt{foxridge.mpiwg-berlin.mpg.de} \\
                     70:   Zugang zu den Daten in den Verzeichnissen
                     71:   \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
                     72:   \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
                     73:   
                     74: \item Zugang per Appletalk (AFP) über: Auswahl des Servers
                     75:   \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
                     76:   Zugang zu den Daten über die Freigaben \texttt{archive\_data},
                     77:   \texttt{online\_permanent}, \texttt{online\_experimental} und
                     78:   \texttt{mirrors}
                     79: \end{itemize}
1.1       casties    80: 
                     81: 
                     82: \section{Benutzerkennung}
                     83: \label{sec:benutzerkennung}
                     84: 
                     85: Benutzerkennungen und Passworte für die Ablage der Massendaten werden
                     86: projektspezifisch vergeben.
                     87: 
                     88: 
                     89: \section{Erlaubte Zeichen in Datei- und Ordnernamen}
                     90: \label{sec:erla-zeich-datei}
                     91: 
                     92: Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
                     93: "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.
                     94: 
                     95: 
                     96: \section{Ablage von Archivdaten}
                     97: \label{sec:ablage-von-arch}
                     98: 
1.2       casties    99: Archivdaten werden nur temporär auf der Festplatte des Servers
                    100: gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
                    101: gelöscht. Für Archivdaten ist auf Foxridge der Pfad
1.1       casties   102: 
                    103: \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
                    104: 
1.2       casties   105: \noindent vorgesehen. 
1.1       casties   106: 
                    107: 
                    108: \subsection{Erste Ebene: Projekte}
                    109: \label{sec:erste-eben-proj}
                    110: 
                    111: Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
                    112: dem Namen des Projektes angelegt:
                    113: 
                    114: \texttt{archive/data/PROJEKTNAME}
                    115: 
1.2       casties   116: \noindent Bsp: das Humboldtprojekt
1.1       casties   117: 
                    118: \texttt{archive/data/humboldt}
                    119: 
                    120: 
                    121: \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
                    122:   Bücher)}
                    123: \label{sec:zweite-eben-dokum}
                    124: 
1.2       casties   125: Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
                    126: weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
                    127: bestehen, wird folgende Bennenung
                    128: vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
                    129:   obligatorisch.}
1.1       casties   130: 
                    131: \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
                    132: 
1.2       casties   133: \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
1.1       casties   134: 
                    135: \begin{table}[htbp]
1.2       casties   136: \center
                    137: \begin{tabular}{lp{0.6\textwidth}l}
                    138: Feld & Erklärung & Beispiel\\ \hline
1.1       casties   139: 
1.2       casties   140: AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\
1.1       casties   141: 
1.2       casties   142: TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\
1.1       casties   143: 
1.2       casties   144: SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
                    145: beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also
                    146: in der Regel 01. & 01\\
1.1       casties   147: 
1.2       casties   148: lang & Sprache in der zweistelligen ISO-Codierung & de\\
1.1       casties   149: 
1.2       casties   150: year & Erscheinungsjahr, vierstellig & 1803
1.1       casties   151: \end{tabular}
                    152: \caption{Benennung Ordner}
                    153: \label{tab:benennung}
                    154: \end{table}
                    155: 
                    156: 
                    157: 
                    158: 
                    159: \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
                    160: \label{sec:dritte-eben-unter}
                    161: 
1.2       casties   162: Innerhalb des Dokumentenordners werden weitere Unterordner für den
                    163: jeweiligen Datentyp angelegt:
1.1       casties   164: 
1.2       casties   165: \texttt{TYPE}
1.1       casties   166: 
1.2       casties   167: \noindent oder
1.1       casties   168: 
1.2       casties   169: \texttt{id-sernr-TYPE}
1.1       casties   170: 
1.2       casties   171: \begin{description}
                    172: \item[id] beschreibt eine eindeutige ID des Dokumentes
                    173: (dreistellig)
1.1       casties   174: 
1.2       casties   175: \item[sernr] eine Seriennummer falls mehrere
                    176: Imagesätze zu einem Dokument gehören
1.1       casties   177: 
1.2       casties   178: \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
                    179:   \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
                    180:   OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
                    181:   Dateien in den anderen Ordnern.
                    182: \end{description}
1.1       casties   183: 
1.2       casties   184: \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
1.1       casties   185: 
1.2       casties   186: \texttt{index.meta}
1.1       casties   187: 
1.2       casties   188: \noindent die Metadaten zum Ordner selbst enthält.
1.1       casties   189: 
                    190: 
                    191: \subsection{Vierte Ebene: Dateien in den Ordnern}
                    192: \label{sec:vierte-eben-date}
                    193: 
1.2       casties   194: Für Dateinamen gilt als Midestanforderung, dass die alphabetische
                    195: Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
                    196: Dateien sollten Namen mit führenden Nullen erhalten, z.B.
                    197: \texttt{00001.jpg}. Empfohlen wird folgende Bennung:
                    198: 
                    199: \texttt{id-sernr-imagenumber.SUFFIX}
                    200: 
                    201: \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
                    202: Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
                    203: Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
                    204: Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
1.1       casties   205: 
                    206: \begin{table}[htbp]
                    207:   \centering
                    208:   \begin{tabular}{ll}
                    209: 
1.2       casties   210:     suffix & Dateityp\\ \hline
1.1       casties   211: 
1.2       casties   212:     jpg & JPEG-Bilddateien\\
                    213:     
                    214:     tif & TIFF-Bilddateien \\
                    215:     
                    216:     png & PNG-Bilddateien
1.1       casties   217:   \end{tabular}
1.2       casties   218:   \caption{Dateiendungen}
                    219:   \label{tab:benennung-dateien}  
1.1       casties   220: \end{table}
                    221: 
                    222: 
                    223: \section{Ablage der Onlinedaten}
                    224: \label{sec:ablage-der-onlin}
                    225: 
                    226: Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
1.2       casties   227: werden auf foxridge zwei Pfade angeboten:
1.1       casties   228: 
                    229: \texttt{online/experimental}
                    230: 
1.2       casties   231: \noindent und
1.1       casties   232: 
                    233: \texttt{online/permanent}
                    234: 
1.2       casties   235: \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
                    236: ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
                    237: Bereiches können verändert und gelöscht werden.
                    238: 
                    239: Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
                    240: \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
                    241: nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
                    242: werden.
1.1       casties   243: 
                    244: Die interne Struktur der Dokumentordner in \texttt{online/permanent}
1.2       casties   245: entspricht der oben dargestellten Struktur von \texttt{archive/data}.
1.1       casties   246: 
                    247: 
                    248: 
1.3       casties   249: \section{Workflow für die Übergabe von gescannten Texten}
                    250: \label{sec:workflow-fur-die}
                    251: 
                    252: Größere Mengen von Büchern und Manuskripten werden von der
                    253: Digitalisierungsgruppe der Bibliothek in hoher Qualität
                    254: gescannt. Diese Digitalisierungen erfolgen im Auftrag
                    255: einzelner Projekte oder auf eigene Initiative der Bibliothek. Die
                    256: Digitalisate werden zunächst in drei verschiedenen Formen erzeugt:
                    257: 
                    258: \begin{itemize}
                    259: \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
                    260:   ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
                    261:   weitere Nutzung durch Andere gedacht und sollen nur archiviert
                    262:   werden.
                    263:   
                    264: \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
                    265:   Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
                    266:   Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
                    267:   werden.
                    268: 
                    269: \item Als \emph{Online-Image} in reduzierter Auflösung für die
                    270:   Online-Präsentation. Diese Dateien können ebenfalls durch andere
                    271:   Projekte genutzt werden und müssen online zur Verfügung stehen.
                    272: \end{itemize}
                    273: 
                    274: Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
                    275: von der Digigruppe selbständig durchgeführt. Für den Workflow der
                    276: Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
                    277: Anforderungen:
                    278: 
                    279: \begin{itemize}
                    280: \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
                    281:   Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
                    282: 
                    283: \item Die Daten müssen archiviert werden.
                    284: 
                    285: \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
                    286:   stehen und über einen allgemeinen Katalog gefunden werden können.
                    287:   
                    288: \item Daten sollten nach Möglichkeit nicht kopiert und doppelt
                    289:   abgelegt werden.
                    290: \end{itemize}
                    291: 
                    292: Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der
                    293: Roh- und User-Images durch die Digigruppe in einer eigenen
                    294: \texttt{library} Hierarchie oder die Ablage durch die Digigruppe in
                    295: entsprechenden Unterordnern der jeweiligen Projekte.
                    296: 
                    297: 
                    298: \subsection{Ablage in "`library"' Projekt}
                    299: \label{sec:ablage-libr-proj}
                    300: 
                    301: \begin{enumerate}
                    302: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
                    303:   oder Bereichen für Bewegungsdaten.
                    304:   
                    305: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
                    306:   Dokumenten-Ordner nach der Namenskonvention
                    307:   (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich
                    308:   \texttt{archive/data/library}.  Roh-Images werden in einem
                    309:   Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
                    310: 
                    311: \item Die Digigruppe startet eine Prä-Migration der Daten ins
                    312:   Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des
                    313:   verfügbaren Speicherplatzes) noch nicht von
                    314:   der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
                    315:   bereits von der Platte gelöscht während die User-Daten erhalten
                    316:   bleiben.}
                    317: 
                    318: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
                    319:   Aufenthaltsort der Daten.
                    320: 
                    321: \item Das Projekt verwendet die User-Images und archiviert
                    322:   weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
                    323: 
                    324: \item Das Projekt veranlasst die vollständige Migration der
                    325:   User-Images (Löschung von der Festplatte) sobald die Daten nicht
                    326:   mehr direkt verwendet werden.
                    327: \end{enumerate}
                    328: 
                    329: 
                    330: \subsection{Ablage bei den Projekten}
                    331: \label{sec:ablage-bei-den}
                    332: 
                    333: \begin{enumerate}
                    334: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
                    335:   oder Bereichen für Bewegungsdaten.
                    336:   
                    337: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
                    338:   Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit
                    339:   dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B.
                    340:   \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem
                    341:   Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
                    342: 
                    343: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
                    344:   Aufenthaltsort der Daten.
                    345: 
                    346: \item Das Projekt verwendet die User-Images und archiviert
                    347:   weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
                    348:   
                    349: \item Das Projekt veranlasst die vollständige Migration der Daten
                    350:   sobald sie nicht mehr direkt verwendet werden.
                    351: \end{enumerate}
                    352: 
                    353: 
                    354: \subsection{Ablage der Online-Images}
                    355: \label{sec:ablage-der-online}
                    356: 
                    357: Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache
                    358: mit dem Projekt
                    359: \begin{itemize}
                    360: \item als fertige Images in der Online-Hierarchie der Bibliothek, wenn
                    361:   es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
                    362:   
                    363: \item als fertige Images im Archivbereich bei den User-Images in einem
                    364:   Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem
                    365:   Online-Bereich
                    366: 
                    367: \item für Projekte, die selbst weiter verarbeitete Online-Images zur
                    368:   Verfügung stellen werden keine Online-Images erzeugt.
                    369: \end{itemize}
                    370: 
                    371: 
                    372: 
                    373: 
1.1       casties   374: \end{document}
                    375: 
                    376: 
                    377: 
                    378: %%% Local Variables: 
                    379: %%% mode: latex
                    380: %%% TeX-master: t
                    381: %%% End: 
                    382: 

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>