Annotation of storage/names/file-format.tex, revision 1.6
1.6 ! casties 1: \documentclass[a4paper]{article}
1.1 casties 2:
3: \usepackage{ngerman}
4:
5: \usepackage[latin1]{inputenc}
6: \usepackage[T1]{fontenc}
7: \usepackage{ae}
8: %\usepackage{times}
9: %\usepackage{courier}
10:
11: % create in-text links in black (with PDF)
12: %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
13: % Format URLs nicely (without PDF)
1.6 ! casties 14: \usepackage{url}
1.1 casties 15:
16: \title{Ablage von Massendaten im Archiv- und Backupsystem}
17:
18: \author{Dirk Wintergrün, Robert Casties}
19:
1.6 ! casties 20: \date{V0.9.4 of \today}
1.4 casties 21:
1.1 casties 22: \begin{document}
23:
24: \maketitle
25:
26: \begin{abstract}
27: In diesem Dokument werden die Ablage von Massendaten auf dem
28: zentralen Archiv- und Filesystem des MPIWG beschrieben
29: \end{abstract}
30:
31: \tableofcontents
32:
33:
34: \section{Datentypen für die dieses Dokument gilt}
35: \label{sec:datentypen-fur-die}
36:
37:
1.6 ! casties 38: Die in diesem Dokument definierten Regeln gelten
! 39: für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.}
1.1 casties 40:
41: \begin{description}
1.2 casties 42: \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
1.1 casties 43: Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
44: ständigen Zugriff langfristig gesichert werden sollen (Pfad:
1.6 ! casties 45: \url{archive/data})
1.1 casties 46:
1.6 ! casties 47: \item[Langfristige Präsentationsdaten] die über das Internet verfügbar
! 48: gemacht werden sollen und deren URL bzw. URI langfristig stabil
! 49: gehalten werden sollen (Pfad: \url{online/permanent})
1.1 casties 50:
51:
1.6 ! casties 52: \item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
! 53: online verfügbar sein sollen (Pfad: \url{online/experimental})
1.1 casties 54:
1.6 ! casties 55: \item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von
1.1 casties 56: Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
1.6 ! casties 57: z.B. zum Zweck der Synchronisation notwendig ist.(Pfad:
! 58: \url{mirrors})
1.1 casties 59: \end{description}
60:
61:
62: \section{Zugang zum Server}
63: \label{sec:zugang-zum-server}
64:
65: Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
1.2 casties 66: \texttt{foxridge}, der physisch am FHI steht.
1.1 casties 67:
1.2 casties 68: \begin{itemize}
69: \item Zugang per FTP, SCP, SFTP über:
1.6 ! casties 70: \url{foxridge.mpiwg-berlin.mpg.de} \\
1.2 casties 71: Zugang zu den Daten in den Verzeichnissen
1.6 ! casties 72: \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent},
! 73: \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors}
1.2 casties 74:
75: \item Zugang per Appletalk (AFP) über: Auswahl des Servers
76: \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
1.6 ! casties 77: Zugang zu den Daten über die Freigaben \url{archive\_data},
! 78: \url{online\_permanent}, \url{online\_experimental} und
! 79: \url{mirrors}
1.2 casties 80: \end{itemize}
1.1 casties 81:
82:
83: \section{Benutzerkennung}
84: \label{sec:benutzerkennung}
85:
86: Benutzerkennungen und Passworte für die Ablage der Massendaten werden
1.6 ! casties 87: projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der
! 88: Zugriffsrechte fehlt noch.}
1.1 casties 89:
90:
91: \section{Erlaubte Zeichen in Datei- und Ordnernamen}
92: \label{sec:erla-zeich-datei}
93:
94: Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
1.6 ! casties 95: "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. Es
! 96: wird empfohlen für Datei- und Ordnernamen ausschliesslich
! 97: Kleinschreibung zu verwenden.
1.1 casties 98:
99:
100: \section{Ablage von Archivdaten}
101: \label{sec:ablage-von-arch}
102:
1.2 casties 103: Archivdaten werden nur temporär auf der Festplatte des Servers
1.6 ! casties 104: gehalten. Nach der Archivierung auf Magnetbänder werden sie von der
! 105: Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad
1.1 casties 106:
1.6 ! casties 107: \url{/mpiwg/archive/data} bzw \url{archive_data}
1.1 casties 108:
1.2 casties 109: \noindent vorgesehen.
1.1 casties 110:
111:
112: \subsection{Erste Ebene: Projekte}
113: \label{sec:erste-eben-proj}
114:
115: Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
116: dem Namen des Projektes angelegt:
117:
1.6 ! casties 118: \url{archive/data/PROJEKTNAME}
1.1 casties 119:
1.2 casties 120: \noindent Bsp: das Humboldtprojekt
1.1 casties 121:
1.6 ! casties 122: \url{archive/data/humboldt}
! 123:
! 124: \noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig,
! 125: weitere Unterordner zur Untergliederung der Dokumente anlegen.
1.1 casties 126:
127:
128: \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
129: Bücher)}
130: \label{sec:zweite-eben-dokum}
131:
1.6 ! casties 132: Für jedes abzulegende Dokument wird unterhalb des Projektordners ein
1.2 casties 133: weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
134: bestehen, wird folgende Bennenung
135: vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
136: obligatorisch.}
1.1 casties 137:
1.6 ! casties 138: \url{AUTHOR_TITLE_sernr_lang_year}
! 139:
! 140: \noindent Also z.B.
! 141:
! 142: \url{humbo_endec_01_de_1803}
1.1 casties 143:
1.2 casties 144: \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
1.1 casties 145:
146: \begin{table}[htbp]
1.2 casties 147: \center
148: \begin{tabular}{lp{0.6\textwidth}l}
149: Feld & Erklärung & Beispiel\\ \hline
1.1 casties 150:
1.6 ! casties 151: \texttt{AUTHOR} & Autor, Vorschlag 5 stellig (falls nicht vorhanden "`anon."') & \texttt{humbo}\\
1.1 casties 152:
1.6 ! casties 153: \texttt{TITLE} & Abkürzung des Titels, Vorschlag 5 stellig & \texttt{endec}\\
1.1 casties 154:
1.6 ! casties 155: \texttt{sernr} & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
! 156: beginnend mit 01, zweistellig & 01\\
1.1 casties 157:
1.6 ! casties 158: \texttt{lang} & Sprache in der zweistelligen ISO-Kodierung\footnotemark & \texttt{de}\\
1.1 casties 159:
1.6 ! casties 160: \texttt{year} & Erscheinungsjahr, vierstellig & 1803
1.1 casties 161: \end{tabular}
162: \caption{Benennung Ordner}
163: \label{tab:benennung}
164: \end{table}
1.6 ! casties 165: \footnotetext{\url{http://www.loc.gov/standards/iso639-2/englangn.html}}
1.1 casties 166:
167:
168:
169: \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
170: \label{sec:dritte-eben-unter}
171:
1.2 casties 172: Innerhalb des Dokumentenordners werden weitere Unterordner für den
173: jeweiligen Datentyp angelegt:
1.1 casties 174:
1.6 ! casties 175: \url{TYPE}
1.1 casties 176:
1.2 casties 177: \noindent oder
1.1 casties 178:
1.6 ! casties 179: \url{id-sernr-TYPE}
1.1 casties 180:
1.2 casties 181: \begin{description}
1.6 ! casties 182: \item[id] eine eindeutige ID des Dokumentes (dreistellig), die
! 183: innerhalb des Projektes vergeben wird
1.1 casties 184:
1.2 casties 185: \item[sernr] eine Seriennummer falls mehrere
186: Imagesätze zu einem Dokument gehören
1.1 casties 187:
1.6 ! casties 188: \item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder
! 189: \url{pageimg} bei Scans einzelner Seiten oder \url{ocr} für
! 190: OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu den
1.2 casties 191: Dateien in den anderen Ordnern.
192: \end{description}
1.1 casties 193:
1.2 casties 194: \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
1.1 casties 195:
1.6 ! casties 196: \url{index.meta}
1.1 casties 197:
1.6 ! casties 198: \noindent die Metadaten zum Ordner selbst enthält. Das Format dieser
! 199: Metadaten"=Datei ist im Dokument "`A simple metadata format for
! 200: resource bundles"'\footnote{\url{http://pythia/projects/storagesystem/metadaten.html}} beschrieben.
1.1 casties 201:
202:
203: \subsection{Vierte Ebene: Dateien in den Ordnern}
204: \label{sec:vierte-eben-date}
205:
1.6 ! casties 206: Für Dateinamen gilt als Midestanforderung, dass die Dateiendung den
! 207: Dateityp anzeigt und die alphabetische Ordnung der Namen der
! 208: Reihenfolge der Daten entspricht. Nummerierte Dateien sollten daher
! 209: Namen mit führenden Nullen erhalten, z.B. \url{00001.jpg}. Empfohlen
! 210: wird folgende Bennung:
1.2 casties 211:
1.6 ! casties 212: \url{id-sernr-imagenumber.SUFFIX}
1.2 casties 213:
214: \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
1.6 ! casties 215: Ordners übereinstimmen. Imagenummer ist eine vierstellige Zahl. Das
1.2 casties 216: Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
217: Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
1.1 casties 218:
219: \begin{table}[htbp]
220: \centering
221: \begin{tabular}{ll}
222:
1.2 casties 223: suffix & Dateityp\\ \hline
1.1 casties 224:
1.6 ! casties 225: \texttt{jpg} & JPEG-Bilddateien\\
1.2 casties 226:
1.6 ! casties 227: \texttt{tif} & TIFF-Bilddateien \\
1.2 casties 228:
1.6 ! casties 229: \texttt{png} & PNG-Bilddateien
1.1 casties 230: \end{tabular}
1.2 casties 231: \caption{Dateiendungen}
232: \label{tab:benennung-dateien}
1.1 casties 233: \end{table}
234:
235:
236: \section{Ablage der Onlinedaten}
237: \label{sec:ablage-der-onlin}
238:
239: Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
1.2 casties 240: werden auf foxridge zwei Pfade angeboten:
1.1 casties 241:
1.6 ! casties 242: \url{online/experimental}
1.1 casties 243:
1.2 casties 244: \noindent und
1.1 casties 245:
1.6 ! casties 246: \url{online/permanent}
1.1 casties 247:
1.2 casties 248: \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
1.6 ! casties 249: ist \url{online/eperimental} vorgesehen. Pfade innerhalb dieses
1.2 casties 250: Bereiches können verändert und gelöscht werden.
251:
252: Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
1.6 ! casties 253: \url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
1.2 casties 254: nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
1.6 ! casties 255: oder umbenannt werden.
1.1 casties 256:
1.6 ! casties 257: Die interne Struktur der Projekt- und Dokumentordner in
! 258: \url{online/permanent} entspricht der in
! 259: Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von
! 260: \url{archive/data}.
1.1 casties 261:
262:
263:
1.3 casties 264: \section{Workflow für die Übergabe von gescannten Texten}
265: \label{sec:workflow-fur-die}
266:
267: Größere Mengen von Büchern und Manuskripten werden von der
1.6 ! casties 268: Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt.
! 269: Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen
! 270: Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate
! 271: werden zunächst in drei verschiedenen Formen erzeugt:
1.3 casties 272:
273: \begin{itemize}
274: \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
275: ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
276: weitere Nutzung durch Andere gedacht und sollen nur archiviert
277: werden.
278:
279: \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
280: Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
281: Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
282: werden.
283:
284: \item Als \emph{Online-Image} in reduzierter Auflösung für die
285: Online-Präsentation. Diese Dateien können ebenfalls durch andere
286: Projekte genutzt werden und müssen online zur Verfügung stehen.
287: \end{itemize}
288:
289: Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
290: von der Digigruppe selbständig durchgeführt. Für den Workflow der
291: Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
292: Anforderungen:
293:
294: \begin{itemize}
295: \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
296: Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
297:
298: \item Die Daten müssen archiviert werden.
299:
300: \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
301: stehen und über einen allgemeinen Katalog gefunden werden können.
302:
303: \item Daten sollten nach Möglichkeit nicht kopiert und doppelt
304: abgelegt werden.
305: \end{itemize}
306:
1.6 ! casties 307: Der Workflow der Ablage der Daten ist abhängig davon ob die Scans im
! 308: Auftrag eines etablierten Projektes durchgeführt wurden. In diesem
! 309: Fall werden die Roh- und User"=Images von der Digigruppe in
! 310: entsprechenden Unterordnern der jeweiligen Projektordner abgelegt
! 311: (Abschnitt~\ref{sec:ablage-bei-den}). Wenn die Scans im Auftrag
! 312: einzelner Wissenschaftler oder auf Initiative der Bibliothek erstellt
! 313: wurden, werden sie in der \url{library} Hierarchie abgelegt
! 314: (Abschnitt~\ref{sec:ablage-libr-proj})
1.3 casties 315:
316:
317: \subsection{Ablage in "`library"' Projekt}
318: \label{sec:ablage-libr-proj}
319:
320: \begin{enumerate}
321: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
322: oder Bereichen für Bewegungsdaten.
323:
324: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
325: Dokumenten-Ordner nach der Namenskonvention
1.6 ! casties 326: (\url{AUTHOR_TITLE_SERNR_lang_year}) im Bereich
! 327: \url{archive/data/library}. Roh-Images werden in einem
! 328: Unterordner \url{raw} abgelegt und User-Images in \url{img}.
! 329:
! 330: \item Die Digigruppe startet eine Prä-Migration der Daten (Roh- und
! 331: User"=images) ins Bandarchiv. Die Daten werden auf Band kopiert aber
! 332: (nach Maßgabe des verfügbaren Speicherplatzes) noch nicht von der
! 333: Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
! 334: bereits von der Platte gelöscht während die User-Daten erhalten
! 335: bleiben.}
1.3 casties 336:
1.6 ! casties 337: \item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag)
! 338: über den Ablageort der Daten.
! 339:
! 340: \item Der Auftraggeber verwendet die User-Images. Veränderte Formen
! 341: der Images erstellt und archiviert der Auftraggeber in seiner
! 342: eigenen Projekt"=Hierarchie.
! 343:
! 344: \item Der Auftraggeber veranlasst die vollständige Migration (Löschung
! 345: von der Festplatte) der von der Digigruppe erstellten Daten sobald
! 346: sie nicht mehr direkt verwendet werden.
1.3 casties 347: \end{enumerate}
348:
349:
350: \subsection{Ablage bei den Projekten}
351: \label{sec:ablage-bei-den}
352:
353: \begin{enumerate}
354: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
355: oder Bereichen für Bewegungsdaten.
356:
357: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
1.6 ! casties 358: Dokumenten"=Ordner nach der Namenskonvention
! 359: (Abschnitt~\ref{sec:zweite-eben-dokum}), der sich in einem mit dem
! 360: Projekt abgesprochenen Bereich des Projektes befindet, z.B.
! 361: \url{archive/data/PROJEKT/literature}. Roh"=Images werden in einem
! 362: Unterordner \url{raw} abgelegt und User-Images in \url{img}.
1.3 casties 363:
364: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
365: Aufenthaltsort der Daten.
366:
367: \item Das Projekt verwendet die User-Images und archiviert
368: weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
369:
1.6 ! casties 370: \item Das Projekt veranlasst die vollständige Archivierung und
! 371: Migration der Daten sobald sie nicht mehr direkt verwendet werden.
1.3 casties 372: \end{enumerate}
373:
374:
375: \subsection{Ablage der Online-Images}
376: \label{sec:ablage-der-online}
377:
1.6 ! casties 378: Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache
1.3 casties 379: mit dem Projekt
1.6 ! casties 380:
1.3 casties 381: \begin{itemize}
1.6 ! casties 382: \item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn
1.3 casties 383: es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
384:
385: \item als fertige Images im Archivbereich bei den User-Images in einem
1.6 ! casties 386: Ordner \url{jpg} zur Nutzung durch das Projekt in seinem
1.3 casties 387: Online-Bereich
388:
389: \item für Projekte, die selbst weiter verarbeitete Online-Images zur
390: Verfügung stellen werden keine Online-Images erzeugt.
391: \end{itemize}
392:
393:
394:
395:
1.1 casties 396: \end{document}
397:
398:
399:
400: %%% Local Variables:
401: %%% mode: latex
402: %%% TeX-master: t
403: %%% End:
404:
FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>