Annotation of storage/names/file-format.tex, revision 1.3

1.2       casties     1: \documentclass[a4paper, abstracton]{article}
1.1       casties     2: 
                      3: \usepackage{ngerman}
                      4: 
                      5: \usepackage[latin1]{inputenc}
                      6: \usepackage[T1]{fontenc}
                      7: \usepackage{ae}
                      8: %\usepackage{times}
                      9: %\usepackage{courier}
                     10: 
                     11: % create in-text links in black (with PDF)
                     12: %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
                     13: % Format URLs nicely (without PDF)
                     14: %\usepackage{url}
                     15: 
                     16: \title{Ablage von Massendaten im Archiv- und Backupsystem}
                     17: 
                     18: \author{Dirk Wintergrün, Robert Casties}
                     19: 
                     20: \begin{document}
                     21: 
                     22: \maketitle
                     23: 
                     24: \begin{abstract}
                     25:   In diesem Dokument werden die Ablage von Massendaten auf dem
                     26:   zentralen Archiv- und Filesystem des MPIWG beschrieben
                     27: \end{abstract}
                     28: 
                     29: \tableofcontents
                     30: 
                     31: 
                     32: \section{Datentypen für die dieses Dokument gilt}
                     33: \label{sec:datentypen-fur-die}
                     34: 
                     35: 
1.2       casties    36: Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}
1.1       casties    37: 
                     38: \begin{description}
1.2       casties    39: \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
1.1       casties    40:   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
                     41:   ständigen Zugriff langfristig gesichert werden sollen (Pfad:
1.2       casties    42:   \texttt{archive/data})
1.1       casties    43:   
1.2       casties    44: \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
1.1       casties    45:   sollen und deren URL bzw. URI langfristig stabil gehalten werden
                     46:   sollen (Pfad: \texttt{online/permanent})
                     47:   
                     48: 
1.2       casties    49: \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
1.1       casties    50:   online verfügbar sein sollen (Pfad: \texttt{online/experimental})
                     51:   
                     52: \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
                     53:   Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
                     54:   z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
                     55:   \texttt{mirrors})
                     56: \end{description}
                     57: 
                     58: 
                     59: \section{Zugang zum Server}
                     60: \label{sec:zugang-zum-server}
                     61: 
                     62: Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
1.2       casties    63: \texttt{foxridge}, der physisch am FHI steht.
1.1       casties    64: 
1.2       casties    65: \begin{itemize}
                     66: \item Zugang per FTP, SCP, SFTP über:
                     67:   \texttt{foxridge.mpiwg-berlin.mpg.de} \\
                     68:   Zugang zu den Daten in den Verzeichnissen
                     69:   \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
                     70:   \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
                     71:   
                     72: \item Zugang per Appletalk (AFP) über: Auswahl des Servers
                     73:   \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
                     74:   Zugang zu den Daten über die Freigaben \texttt{archive\_data},
                     75:   \texttt{online\_permanent}, \texttt{online\_experimental} und
                     76:   \texttt{mirrors}
                     77: \end{itemize}
1.1       casties    78: 
                     79: 
                     80: \section{Benutzerkennung}
                     81: \label{sec:benutzerkennung}
                     82: 
                     83: Benutzerkennungen und Passworte für die Ablage der Massendaten werden
                     84: projektspezifisch vergeben.
                     85: 
                     86: 
                     87: \section{Erlaubte Zeichen in Datei- und Ordnernamen}
                     88: \label{sec:erla-zeich-datei}
                     89: 
                     90: Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
                     91: "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.
                     92: 
                     93: 
                     94: \section{Ablage von Archivdaten}
                     95: \label{sec:ablage-von-arch}
                     96: 
1.2       casties    97: Archivdaten werden nur temporär auf der Festplatte des Servers
                     98: gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
                     99: gelöscht. Für Archivdaten ist auf Foxridge der Pfad
1.1       casties   100: 
                    101: \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
                    102: 
1.2       casties   103: \noindent vorgesehen. 
1.1       casties   104: 
                    105: 
                    106: \subsection{Erste Ebene: Projekte}
                    107: \label{sec:erste-eben-proj}
                    108: 
                    109: Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
                    110: dem Namen des Projektes angelegt:
                    111: 
                    112: \texttt{archive/data/PROJEKTNAME}
                    113: 
1.2       casties   114: \noindent Bsp: das Humboldtprojekt
1.1       casties   115: 
                    116: \texttt{archive/data/humboldt}
                    117: 
                    118: 
                    119: \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
                    120:   Bücher)}
                    121: \label{sec:zweite-eben-dokum}
                    122: 
1.2       casties   123: Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
                    124: weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
                    125: bestehen, wird folgende Bennenung
                    126: vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
                    127:   obligatorisch.}
1.1       casties   128: 
                    129: \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
                    130: 
1.2       casties   131: \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
1.1       casties   132: 
                    133: \begin{table}[htbp]
1.2       casties   134: \center
                    135: \begin{tabular}{lp{0.6\textwidth}l}
                    136: Feld & Erklärung & Beispiel\\ \hline
1.1       casties   137: 
1.2       casties   138: AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\
1.1       casties   139: 
1.2       casties   140: TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\
1.1       casties   141: 
1.2       casties   142: SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
                    143: beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also
                    144: in der Regel 01. & 01\\
1.1       casties   145: 
1.2       casties   146: lang & Sprache in der zweistelligen ISO-Codierung & de\\
1.1       casties   147: 
1.2       casties   148: year & Erscheinungsjahr, vierstellig & 1803
1.1       casties   149: \end{tabular}
                    150: \caption{Benennung Ordner}
                    151: \label{tab:benennung}
                    152: \end{table}
                    153: 
                    154: 
                    155: 
                    156: 
                    157: \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
                    158: \label{sec:dritte-eben-unter}
                    159: 
1.2       casties   160: Innerhalb des Dokumentenordners werden weitere Unterordner für den
                    161: jeweiligen Datentyp angelegt:
1.1       casties   162: 
1.2       casties   163: \texttt{TYPE}
1.1       casties   164: 
1.2       casties   165: \noindent oder
1.1       casties   166: 
1.2       casties   167: \texttt{id-sernr-TYPE}
1.1       casties   168: 
1.2       casties   169: \begin{description}
                    170: \item[id] beschreibt eine eindeutige ID des Dokumentes
                    171: (dreistellig)
1.1       casties   172: 
1.2       casties   173: \item[sernr] eine Seriennummer falls mehrere
                    174: Imagesätze zu einem Dokument gehören
1.1       casties   175: 
1.2       casties   176: \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
                    177:   \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
                    178:   OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
                    179:   Dateien in den anderen Ordnern.
                    180: \end{description}
1.1       casties   181: 
1.2       casties   182: \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
1.1       casties   183: 
1.2       casties   184: \texttt{index.meta}
1.1       casties   185: 
1.2       casties   186: \noindent die Metadaten zum Ordner selbst enthält.
1.1       casties   187: 
                    188: 
                    189: \subsection{Vierte Ebene: Dateien in den Ordnern}
                    190: \label{sec:vierte-eben-date}
                    191: 
1.2       casties   192: Für Dateinamen gilt als Midestanforderung, dass die alphabetische
                    193: Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
                    194: Dateien sollten Namen mit führenden Nullen erhalten, z.B.
                    195: \texttt{00001.jpg}. Empfohlen wird folgende Bennung:
                    196: 
                    197: \texttt{id-sernr-imagenumber.SUFFIX}
                    198: 
                    199: \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
                    200: Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
                    201: Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
                    202: Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
1.1       casties   203: 
                    204: \begin{table}[htbp]
                    205:   \centering
                    206:   \begin{tabular}{ll}
                    207: 
1.2       casties   208:     suffix & Dateityp\\ \hline
1.1       casties   209: 
1.2       casties   210:     jpg & JPEG-Bilddateien\\
                    211:     
                    212:     tif & TIFF-Bilddateien \\
                    213:     
                    214:     png & PNG-Bilddateien
1.1       casties   215:   \end{tabular}
1.2       casties   216:   \caption{Dateiendungen}
                    217:   \label{tab:benennung-dateien}  
1.1       casties   218: \end{table}
                    219: 
                    220: 
                    221: \section{Ablage der Onlinedaten}
                    222: \label{sec:ablage-der-onlin}
                    223: 
                    224: Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
1.2       casties   225: werden auf foxridge zwei Pfade angeboten:
1.1       casties   226: 
                    227: \texttt{online/experimental}
                    228: 
1.2       casties   229: \noindent und
1.1       casties   230: 
                    231: \texttt{online/permanent}
                    232: 
1.2       casties   233: \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
                    234: ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
                    235: Bereiches können verändert und gelöscht werden.
                    236: 
                    237: Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
                    238: \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
                    239: nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
                    240: werden.
1.1       casties   241: 
                    242: Die interne Struktur der Dokumentordner in \texttt{online/permanent}
1.2       casties   243: entspricht der oben dargestellten Struktur von \texttt{archive/data}.
1.1       casties   244: 
                    245: 
                    246: 
1.3     ! casties   247: \section{Workflow für die Übergabe von gescannten Texten}
        !           248: \label{sec:workflow-fur-die}
        !           249: 
        !           250: Größere Mengen von Büchern und Manuskripten werden von der
        !           251: Digitalisierungsgruppe der Bibliothek in hoher Qualität
        !           252: gescannt. Diese Digitalisierungen erfolgen im Auftrag
        !           253: einzelner Projekte oder auf eigene Initiative der Bibliothek. Die
        !           254: Digitalisate werden zunächst in drei verschiedenen Formen erzeugt:
        !           255: 
        !           256: \begin{itemize}
        !           257: \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
        !           258:   ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
        !           259:   weitere Nutzung durch Andere gedacht und sollen nur archiviert
        !           260:   werden.
        !           261:   
        !           262: \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
        !           263:   Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
        !           264:   Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
        !           265:   werden.
        !           266: 
        !           267: \item Als \emph{Online-Image} in reduzierter Auflösung für die
        !           268:   Online-Präsentation. Diese Dateien können ebenfalls durch andere
        !           269:   Projekte genutzt werden und müssen online zur Verfügung stehen.
        !           270: \end{itemize}
        !           271: 
        !           272: Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
        !           273: von der Digigruppe selbständig durchgeführt. Für den Workflow der
        !           274: Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
        !           275: Anforderungen:
        !           276: 
        !           277: \begin{itemize}
        !           278: \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
        !           279:   Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
        !           280: 
        !           281: \item Die Daten müssen archiviert werden.
        !           282: 
        !           283: \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
        !           284:   stehen und über einen allgemeinen Katalog gefunden werden können.
        !           285:   
        !           286: \item Daten sollten nach Möglichkeit nicht kopiert und doppelt
        !           287:   abgelegt werden.
        !           288: \end{itemize}
        !           289: 
        !           290: Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der
        !           291: Roh- und User-Images durch die Digigruppe in einer eigenen
        !           292: \texttt{library} Hierarchie oder die Ablage durch die Digigruppe in
        !           293: entsprechenden Unterordnern der jeweiligen Projekte.
        !           294: 
        !           295: 
        !           296: \subsection{Ablage in "`library"' Projekt}
        !           297: \label{sec:ablage-libr-proj}
        !           298: 
        !           299: \begin{enumerate}
        !           300: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
        !           301:   oder Bereichen für Bewegungsdaten.
        !           302:   
        !           303: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
        !           304:   Dokumenten-Ordner nach der Namenskonvention
        !           305:   (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich
        !           306:   \texttt{archive/data/library}.  Roh-Images werden in einem
        !           307:   Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
        !           308: 
        !           309: \item Die Digigruppe startet eine Prä-Migration der Daten ins
        !           310:   Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des
        !           311:   verfügbaren Speicherplatzes) noch nicht von
        !           312:   der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
        !           313:   bereits von der Platte gelöscht während die User-Daten erhalten
        !           314:   bleiben.}
        !           315: 
        !           316: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
        !           317:   Aufenthaltsort der Daten.
        !           318: 
        !           319: \item Das Projekt verwendet die User-Images und archiviert
        !           320:   weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
        !           321: 
        !           322: \item Das Projekt veranlasst die vollständige Migration der
        !           323:   User-Images (Löschung von der Festplatte) sobald die Daten nicht
        !           324:   mehr direkt verwendet werden.
        !           325: \end{enumerate}
        !           326: 
        !           327: 
        !           328: \subsection{Ablage bei den Projekten}
        !           329: \label{sec:ablage-bei-den}
        !           330: 
        !           331: \begin{enumerate}
        !           332: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
        !           333:   oder Bereichen für Bewegungsdaten.
        !           334:   
        !           335: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
        !           336:   Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit
        !           337:   dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B.
        !           338:   \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem
        !           339:   Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
        !           340: 
        !           341: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
        !           342:   Aufenthaltsort der Daten.
        !           343: 
        !           344: \item Das Projekt verwendet die User-Images und archiviert
        !           345:   weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
        !           346:   
        !           347: \item Das Projekt veranlasst die vollständige Migration der Daten
        !           348:   sobald sie nicht mehr direkt verwendet werden.
        !           349: \end{enumerate}
        !           350: 
        !           351: 
        !           352: \subsection{Ablage der Online-Images}
        !           353: \label{sec:ablage-der-online}
        !           354: 
        !           355: Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache
        !           356: mit dem Projekt
        !           357: \begin{itemize}
        !           358: \item als fertige Images in der Online-Hierarchie der Bibliothek, wenn
        !           359:   es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
        !           360:   
        !           361: \item als fertige Images im Archivbereich bei den User-Images in einem
        !           362:   Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem
        !           363:   Online-Bereich
        !           364: 
        !           365: \item für Projekte, die selbst weiter verarbeitete Online-Images zur
        !           366:   Verfügung stellen werden keine Online-Images erzeugt.
        !           367: \end{itemize}
        !           368: 
        !           369: 
        !           370: 
        !           371: 
1.1       casties   372: \end{document}
                    373: 
                    374: 
                    375: 
                    376: %%% Local Variables: 
                    377: %%% mode: latex
                    378: %%% TeX-master: t
                    379: %%% End: 
                    380: 

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>