Annotation of storage/names/file-format.tex, revision 1.5

1.2       casties     1: \documentclass[a4paper, abstracton]{article}
1.1       casties     2: 
                      3: \usepackage{ngerman}
                      4: 
                      5: \usepackage[latin1]{inputenc}
                      6: \usepackage[T1]{fontenc}
                      7: \usepackage{ae}
                      8: %\usepackage{times}
                      9: %\usepackage{courier}
                     10: 
                     11: % create in-text links in black (with PDF)
                     12: %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
                     13: % Format URLs nicely (without PDF)
                     14: %\usepackage{url}
                     15: 
                     16: \title{Ablage von Massendaten im Archiv- und Backupsystem}
                     17: 
                     18: \author{Dirk Wintergrün, Robert Casties}
                     19: 
1.5     ! dwinter    20: \date{V0.9.3 \today}
1.4       casties    21: 
1.1       casties    22: \begin{document}
                     23: 
                     24: \maketitle
                     25: 
                     26: \begin{abstract}
                     27:   In diesem Dokument werden die Ablage von Massendaten auf dem
                     28:   zentralen Archiv- und Filesystem des MPIWG beschrieben
                     29: \end{abstract}
                     30: 
                     31: \tableofcontents
                     32: 
                     33: 
                     34: \section{Datentypen für die dieses Dokument gilt}
                     35: \label{sec:datentypen-fur-die}
                     36: 
                     37: 
1.2       casties    38: Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}
1.1       casties    39: 
                     40: \begin{description}
1.2       casties    41: \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
1.1       casties    42:   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
                     43:   ständigen Zugriff langfristig gesichert werden sollen (Pfad:
1.2       casties    44:   \texttt{archive/data})
1.1       casties    45:   
1.2       casties    46: \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
1.1       casties    47:   sollen und deren URL bzw. URI langfristig stabil gehalten werden
                     48:   sollen (Pfad: \texttt{online/permanent})
                     49:   
                     50: 
1.2       casties    51: \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
1.1       casties    52:   online verfügbar sein sollen (Pfad: \texttt{online/experimental})
                     53:   
                     54: \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
                     55:   Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
                     56:   z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
                     57:   \texttt{mirrors})
                     58: \end{description}
                     59: 
                     60: 
                     61: \section{Zugang zum Server}
                     62: \label{sec:zugang-zum-server}
                     63: 
                     64: Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
1.2       casties    65: \texttt{foxridge}, der physisch am FHI steht.
1.1       casties    66: 
1.2       casties    67: \begin{itemize}
                     68: \item Zugang per FTP, SCP, SFTP über:
                     69:   \texttt{foxridge.mpiwg-berlin.mpg.de} \\
                     70:   Zugang zu den Daten in den Verzeichnissen
                     71:   \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
                     72:   \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
                     73:   
                     74: \item Zugang per Appletalk (AFP) über: Auswahl des Servers
                     75:   \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
                     76:   Zugang zu den Daten über die Freigaben \texttt{archive\_data},
                     77:   \texttt{online\_permanent}, \texttt{online\_experimental} und
                     78:   \texttt{mirrors}
                     79: \end{itemize}
1.1       casties    80: 
                     81: 
                     82: \section{Benutzerkennung}
                     83: \label{sec:benutzerkennung}
                     84: 
                     85: Benutzerkennungen und Passworte für die Ablage der Massendaten werden
                     86: projektspezifisch vergeben.
                     87: 
                     88: 
                     89: \section{Erlaubte Zeichen in Datei- und Ordnernamen}
                     90: \label{sec:erla-zeich-datei}
                     91: 
                     92: Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
                     93: "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.
                     94: 
                     95: 
                     96: \section{Ablage von Archivdaten}
                     97: \label{sec:ablage-von-arch}
                     98: 
1.2       casties    99: Archivdaten werden nur temporär auf der Festplatte des Servers
                    100: gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
                    101: gelöscht. Für Archivdaten ist auf Foxridge der Pfad
1.1       casties   102: 
                    103: \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
                    104: 
1.2       casties   105: \noindent vorgesehen. 
1.1       casties   106: 
                    107: 
                    108: \subsection{Erste Ebene: Projekte}
                    109: \label{sec:erste-eben-proj}
                    110: 
                    111: Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
                    112: dem Namen des Projektes angelegt:
                    113: 
                    114: \texttt{archive/data/PROJEKTNAME}
                    115: 
1.2       casties   116: \noindent Bsp: das Humboldtprojekt
1.1       casties   117: 
                    118: \texttt{archive/data/humboldt}
                    119: 
                    120: 
                    121: \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
                    122:   Bücher)}
                    123: \label{sec:zweite-eben-dokum}
                    124: 
1.2       casties   125: Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
                    126: weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
                    127: bestehen, wird folgende Bennenung
                    128: vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
                    129:   obligatorisch.}
1.1       casties   130: 
1.5     ! dwinter   131: \texttt{AUTHOR\_TITLE\_sernr\_lang\_year}
1.1       casties   132: 
1.2       casties   133: \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
1.1       casties   134: 
                    135: \begin{table}[htbp]
1.2       casties   136: \center
                    137: \begin{tabular}{lp{0.6\textwidth}l}
                    138: Feld & Erklärung & Beispiel\\ \hline
1.1       casties   139: 
1.2       casties   140: AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\
1.1       casties   141: 
1.2       casties   142: TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\
1.1       casties   143: 
1.5     ! dwinter   144: sernr & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
        !           145: beginnend mit 01, zweistellig\\
1.1       casties   146: 
1.2       casties   147: lang & Sprache in der zweistelligen ISO-Codierung & de\\
1.1       casties   148: 
1.2       casties   149: year & Erscheinungsjahr, vierstellig & 1803
1.1       casties   150: \end{tabular}
                    151: \caption{Benennung Ordner}
                    152: \label{tab:benennung}
                    153: \end{table}
                    154: 
                    155: 
                    156: 
                    157: 
                    158: \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
                    159: \label{sec:dritte-eben-unter}
                    160: 
1.2       casties   161: Innerhalb des Dokumentenordners werden weitere Unterordner für den
                    162: jeweiligen Datentyp angelegt:
1.1       casties   163: 
1.2       casties   164: \texttt{TYPE}
1.1       casties   165: 
1.2       casties   166: \noindent oder
1.1       casties   167: 
1.2       casties   168: \texttt{id-sernr-TYPE}
1.1       casties   169: 
1.2       casties   170: \begin{description}
                    171: \item[id] beschreibt eine eindeutige ID des Dokumentes
                    172: (dreistellig)
1.1       casties   173: 
1.2       casties   174: \item[sernr] eine Seriennummer falls mehrere
                    175: Imagesätze zu einem Dokument gehören
1.1       casties   176: 
1.2       casties   177: \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
                    178:   \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
                    179:   OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
                    180:   Dateien in den anderen Ordnern.
                    181: \end{description}
1.1       casties   182: 
1.2       casties   183: \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
1.1       casties   184: 
1.2       casties   185: \texttt{index.meta}
1.1       casties   186: 
1.2       casties   187: \noindent die Metadaten zum Ordner selbst enthält.
1.1       casties   188: 
                    189: 
                    190: \subsection{Vierte Ebene: Dateien in den Ordnern}
                    191: \label{sec:vierte-eben-date}
                    192: 
1.2       casties   193: Für Dateinamen gilt als Midestanforderung, dass die alphabetische
                    194: Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
                    195: Dateien sollten Namen mit führenden Nullen erhalten, z.B.
                    196: \texttt{00001.jpg}. Empfohlen wird folgende Bennung:
                    197: 
                    198: \texttt{id-sernr-imagenumber.SUFFIX}
                    199: 
                    200: \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
                    201: Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
                    202: Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
                    203: Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
1.1       casties   204: 
                    205: \begin{table}[htbp]
                    206:   \centering
                    207:   \begin{tabular}{ll}
                    208: 
1.2       casties   209:     suffix & Dateityp\\ \hline
1.1       casties   210: 
1.2       casties   211:     jpg & JPEG-Bilddateien\\
                    212:     
                    213:     tif & TIFF-Bilddateien \\
                    214:     
                    215:     png & PNG-Bilddateien
1.1       casties   216:   \end{tabular}
1.2       casties   217:   \caption{Dateiendungen}
                    218:   \label{tab:benennung-dateien}  
1.1       casties   219: \end{table}
                    220: 
                    221: 
                    222: \section{Ablage der Onlinedaten}
                    223: \label{sec:ablage-der-onlin}
                    224: 
                    225: Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
1.2       casties   226: werden auf foxridge zwei Pfade angeboten:
1.1       casties   227: 
                    228: \texttt{online/experimental}
                    229: 
1.2       casties   230: \noindent und
1.1       casties   231: 
                    232: \texttt{online/permanent}
                    233: 
1.2       casties   234: \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
                    235: ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
                    236: Bereiches können verändert und gelöscht werden.
                    237: 
                    238: Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
                    239: \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
                    240: nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
                    241: werden.
1.1       casties   242: 
                    243: Die interne Struktur der Dokumentordner in \texttt{online/permanent}
1.2       casties   244: entspricht der oben dargestellten Struktur von \texttt{archive/data}.
1.1       casties   245: 
                    246: 
                    247: 
1.3       casties   248: \section{Workflow für die Übergabe von gescannten Texten}
                    249: \label{sec:workflow-fur-die}
                    250: 
                    251: Größere Mengen von Büchern und Manuskripten werden von der
                    252: Digitalisierungsgruppe der Bibliothek in hoher Qualität
                    253: gescannt. Diese Digitalisierungen erfolgen im Auftrag
                    254: einzelner Projekte oder auf eigene Initiative der Bibliothek. Die
                    255: Digitalisate werden zunächst in drei verschiedenen Formen erzeugt:
                    256: 
                    257: \begin{itemize}
                    258: \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
                    259:   ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
                    260:   weitere Nutzung durch Andere gedacht und sollen nur archiviert
                    261:   werden.
                    262:   
                    263: \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
                    264:   Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
                    265:   Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
                    266:   werden.
                    267: 
                    268: \item Als \emph{Online-Image} in reduzierter Auflösung für die
                    269:   Online-Präsentation. Diese Dateien können ebenfalls durch andere
                    270:   Projekte genutzt werden und müssen online zur Verfügung stehen.
                    271: \end{itemize}
                    272: 
                    273: Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
                    274: von der Digigruppe selbständig durchgeführt. Für den Workflow der
                    275: Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
                    276: Anforderungen:
                    277: 
                    278: \begin{itemize}
                    279: \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
                    280:   Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
                    281: 
                    282: \item Die Daten müssen archiviert werden.
                    283: 
                    284: \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
                    285:   stehen und über einen allgemeinen Katalog gefunden werden können.
                    286:   
                    287: \item Daten sollten nach Möglichkeit nicht kopiert und doppelt
                    288:   abgelegt werden.
                    289: \end{itemize}
                    290: 
                    291: Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der
                    292: Roh- und User-Images durch die Digigruppe in einer eigenen
                    293: \texttt{library} Hierarchie oder die Ablage durch die Digigruppe in
                    294: entsprechenden Unterordnern der jeweiligen Projekte.
                    295: 
                    296: 
                    297: \subsection{Ablage in "`library"' Projekt}
                    298: \label{sec:ablage-libr-proj}
                    299: 
                    300: \begin{enumerate}
                    301: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
                    302:   oder Bereichen für Bewegungsdaten.
                    303:   
                    304: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
                    305:   Dokumenten-Ordner nach der Namenskonvention
                    306:   (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich
                    307:   \texttt{archive/data/library}.  Roh-Images werden in einem
                    308:   Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
                    309: 
                    310: \item Die Digigruppe startet eine Prä-Migration der Daten ins
                    311:   Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des
                    312:   verfügbaren Speicherplatzes) noch nicht von
                    313:   der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
                    314:   bereits von der Platte gelöscht während die User-Daten erhalten
                    315:   bleiben.}
                    316: 
                    317: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
                    318:   Aufenthaltsort der Daten.
                    319: 
                    320: \item Das Projekt verwendet die User-Images und archiviert
                    321:   weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
                    322: 
                    323: \item Das Projekt veranlasst die vollständige Migration der
                    324:   User-Images (Löschung von der Festplatte) sobald die Daten nicht
                    325:   mehr direkt verwendet werden.
                    326: \end{enumerate}
                    327: 
                    328: 
                    329: \subsection{Ablage bei den Projekten}
                    330: \label{sec:ablage-bei-den}
                    331: 
                    332: \begin{enumerate}
                    333: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
                    334:   oder Bereichen für Bewegungsdaten.
                    335:   
                    336: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
                    337:   Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit
                    338:   dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B.
                    339:   \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem
                    340:   Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
                    341: 
                    342: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
                    343:   Aufenthaltsort der Daten.
                    344: 
                    345: \item Das Projekt verwendet die User-Images und archiviert
                    346:   weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
                    347:   
                    348: \item Das Projekt veranlasst die vollständige Migration der Daten
                    349:   sobald sie nicht mehr direkt verwendet werden.
                    350: \end{enumerate}
                    351: 
                    352: 
                    353: \subsection{Ablage der Online-Images}
                    354: \label{sec:ablage-der-online}
                    355: 
                    356: Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache
                    357: mit dem Projekt
                    358: \begin{itemize}
                    359: \item als fertige Images in der Online-Hierarchie der Bibliothek, wenn
                    360:   es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
                    361:   
                    362: \item als fertige Images im Archivbereich bei den User-Images in einem
                    363:   Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem
                    364:   Online-Bereich
                    365: 
                    366: \item für Projekte, die selbst weiter verarbeitete Online-Images zur
                    367:   Verfügung stellen werden keine Online-Images erzeugt.
                    368: \end{itemize}
                    369: 
                    370: 
                    371: 
                    372: 
1.1       casties   373: \end{document}
                    374: 
                    375: 
                    376: 
                    377: %%% Local Variables: 
                    378: %%% mode: latex
                    379: %%% TeX-master: t
                    380: %%% End: 
                    381: 

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>