Annotation of storage/names/file-format.tex, revision 1.3
1.2 casties 1: \documentclass[a4paper, abstracton]{article}
1.1 casties 2:
3: \usepackage{ngerman}
4:
5: \usepackage[latin1]{inputenc}
6: \usepackage[T1]{fontenc}
7: \usepackage{ae}
8: %\usepackage{times}
9: %\usepackage{courier}
10:
11: % create in-text links in black (with PDF)
12: %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
13: % Format URLs nicely (without PDF)
14: %\usepackage{url}
15:
16: \title{Ablage von Massendaten im Archiv- und Backupsystem}
17:
18: \author{Dirk Wintergrün, Robert Casties}
19:
20: \begin{document}
21:
22: \maketitle
23:
24: \begin{abstract}
25: In diesem Dokument werden die Ablage von Massendaten auf dem
26: zentralen Archiv- und Filesystem des MPIWG beschrieben
27: \end{abstract}
28:
29: \tableofcontents
30:
31:
32: \section{Datentypen für die dieses Dokument gilt}
33: \label{sec:datentypen-fur-die}
34:
35:
1.2 casties 36: Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}
1.1 casties 37:
38: \begin{description}
1.2 casties 39: \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
1.1 casties 40: Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
41: ständigen Zugriff langfristig gesichert werden sollen (Pfad:
1.2 casties 42: \texttt{archive/data})
1.1 casties 43:
1.2 casties 44: \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
1.1 casties 45: sollen und deren URL bzw. URI langfristig stabil gehalten werden
46: sollen (Pfad: \texttt{online/permanent})
47:
48:
1.2 casties 49: \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
1.1 casties 50: online verfügbar sein sollen (Pfad: \texttt{online/experimental})
51:
52: \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
53: Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
54: z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
55: \texttt{mirrors})
56: \end{description}
57:
58:
59: \section{Zugang zum Server}
60: \label{sec:zugang-zum-server}
61:
62: Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
1.2 casties 63: \texttt{foxridge}, der physisch am FHI steht.
1.1 casties 64:
1.2 casties 65: \begin{itemize}
66: \item Zugang per FTP, SCP, SFTP über:
67: \texttt{foxridge.mpiwg-berlin.mpg.de} \\
68: Zugang zu den Daten in den Verzeichnissen
69: \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
70: \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
71:
72: \item Zugang per Appletalk (AFP) über: Auswahl des Servers
73: \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
74: Zugang zu den Daten über die Freigaben \texttt{archive\_data},
75: \texttt{online\_permanent}, \texttt{online\_experimental} und
76: \texttt{mirrors}
77: \end{itemize}
1.1 casties 78:
79:
80: \section{Benutzerkennung}
81: \label{sec:benutzerkennung}
82:
83: Benutzerkennungen und Passworte für die Ablage der Massendaten werden
84: projektspezifisch vergeben.
85:
86:
87: \section{Erlaubte Zeichen in Datei- und Ordnernamen}
88: \label{sec:erla-zeich-datei}
89:
90: Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
91: "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.
92:
93:
94: \section{Ablage von Archivdaten}
95: \label{sec:ablage-von-arch}
96:
1.2 casties 97: Archivdaten werden nur temporär auf der Festplatte des Servers
98: gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
99: gelöscht. Für Archivdaten ist auf Foxridge der Pfad
1.1 casties 100:
101: \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
102:
1.2 casties 103: \noindent vorgesehen.
1.1 casties 104:
105:
106: \subsection{Erste Ebene: Projekte}
107: \label{sec:erste-eben-proj}
108:
109: Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
110: dem Namen des Projektes angelegt:
111:
112: \texttt{archive/data/PROJEKTNAME}
113:
1.2 casties 114: \noindent Bsp: das Humboldtprojekt
1.1 casties 115:
116: \texttt{archive/data/humboldt}
117:
118:
119: \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
120: Bücher)}
121: \label{sec:zweite-eben-dokum}
122:
1.2 casties 123: Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
124: weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
125: bestehen, wird folgende Bennenung
126: vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
127: obligatorisch.}
1.1 casties 128:
129: \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
130:
1.2 casties 131: \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
1.1 casties 132:
133: \begin{table}[htbp]
1.2 casties 134: \center
135: \begin{tabular}{lp{0.6\textwidth}l}
136: Feld & Erklärung & Beispiel\\ \hline
1.1 casties 137:
1.2 casties 138: AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\
1.1 casties 139:
1.2 casties 140: TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\
1.1 casties 141:
1.2 casties 142: SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
143: beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also
144: in der Regel 01. & 01\\
1.1 casties 145:
1.2 casties 146: lang & Sprache in der zweistelligen ISO-Codierung & de\\
1.1 casties 147:
1.2 casties 148: year & Erscheinungsjahr, vierstellig & 1803
1.1 casties 149: \end{tabular}
150: \caption{Benennung Ordner}
151: \label{tab:benennung}
152: \end{table}
153:
154:
155:
156:
157: \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
158: \label{sec:dritte-eben-unter}
159:
1.2 casties 160: Innerhalb des Dokumentenordners werden weitere Unterordner für den
161: jeweiligen Datentyp angelegt:
1.1 casties 162:
1.2 casties 163: \texttt{TYPE}
1.1 casties 164:
1.2 casties 165: \noindent oder
1.1 casties 166:
1.2 casties 167: \texttt{id-sernr-TYPE}
1.1 casties 168:
1.2 casties 169: \begin{description}
170: \item[id] beschreibt eine eindeutige ID des Dokumentes
171: (dreistellig)
1.1 casties 172:
1.2 casties 173: \item[sernr] eine Seriennummer falls mehrere
174: Imagesätze zu einem Dokument gehören
1.1 casties 175:
1.2 casties 176: \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
177: \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
178: OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
179: Dateien in den anderen Ordnern.
180: \end{description}
1.1 casties 181:
1.2 casties 182: \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
1.1 casties 183:
1.2 casties 184: \texttt{index.meta}
1.1 casties 185:
1.2 casties 186: \noindent die Metadaten zum Ordner selbst enthält.
1.1 casties 187:
188:
189: \subsection{Vierte Ebene: Dateien in den Ordnern}
190: \label{sec:vierte-eben-date}
191:
1.2 casties 192: Für Dateinamen gilt als Midestanforderung, dass die alphabetische
193: Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
194: Dateien sollten Namen mit führenden Nullen erhalten, z.B.
195: \texttt{00001.jpg}. Empfohlen wird folgende Bennung:
196:
197: \texttt{id-sernr-imagenumber.SUFFIX}
198:
199: \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
200: Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
201: Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
202: Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
1.1 casties 203:
204: \begin{table}[htbp]
205: \centering
206: \begin{tabular}{ll}
207:
1.2 casties 208: suffix & Dateityp\\ \hline
1.1 casties 209:
1.2 casties 210: jpg & JPEG-Bilddateien\\
211:
212: tif & TIFF-Bilddateien \\
213:
214: png & PNG-Bilddateien
1.1 casties 215: \end{tabular}
1.2 casties 216: \caption{Dateiendungen}
217: \label{tab:benennung-dateien}
1.1 casties 218: \end{table}
219:
220:
221: \section{Ablage der Onlinedaten}
222: \label{sec:ablage-der-onlin}
223:
224: Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
1.2 casties 225: werden auf foxridge zwei Pfade angeboten:
1.1 casties 226:
227: \texttt{online/experimental}
228:
1.2 casties 229: \noindent und
1.1 casties 230:
231: \texttt{online/permanent}
232:
1.2 casties 233: \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
234: ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
235: Bereiches können verändert und gelöscht werden.
236:
237: Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
238: \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
239: nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
240: werden.
1.1 casties 241:
242: Die interne Struktur der Dokumentordner in \texttt{online/permanent}
1.2 casties 243: entspricht der oben dargestellten Struktur von \texttt{archive/data}.
1.1 casties 244:
245:
246:
1.3 ! casties 247: \section{Workflow für die Übergabe von gescannten Texten}
! 248: \label{sec:workflow-fur-die}
! 249:
! 250: Größere Mengen von Büchern und Manuskripten werden von der
! 251: Digitalisierungsgruppe der Bibliothek in hoher Qualität
! 252: gescannt. Diese Digitalisierungen erfolgen im Auftrag
! 253: einzelner Projekte oder auf eigene Initiative der Bibliothek. Die
! 254: Digitalisate werden zunächst in drei verschiedenen Formen erzeugt:
! 255:
! 256: \begin{itemize}
! 257: \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
! 258: ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
! 259: weitere Nutzung durch Andere gedacht und sollen nur archiviert
! 260: werden.
! 261:
! 262: \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
! 263: Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
! 264: Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
! 265: werden.
! 266:
! 267: \item Als \emph{Online-Image} in reduzierter Auflösung für die
! 268: Online-Präsentation. Diese Dateien können ebenfalls durch andere
! 269: Projekte genutzt werden und müssen online zur Verfügung stehen.
! 270: \end{itemize}
! 271:
! 272: Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
! 273: von der Digigruppe selbständig durchgeführt. Für den Workflow der
! 274: Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
! 275: Anforderungen:
! 276:
! 277: \begin{itemize}
! 278: \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
! 279: Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
! 280:
! 281: \item Die Daten müssen archiviert werden.
! 282:
! 283: \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
! 284: stehen und über einen allgemeinen Katalog gefunden werden können.
! 285:
! 286: \item Daten sollten nach Möglichkeit nicht kopiert und doppelt
! 287: abgelegt werden.
! 288: \end{itemize}
! 289:
! 290: Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der
! 291: Roh- und User-Images durch die Digigruppe in einer eigenen
! 292: \texttt{library} Hierarchie oder die Ablage durch die Digigruppe in
! 293: entsprechenden Unterordnern der jeweiligen Projekte.
! 294:
! 295:
! 296: \subsection{Ablage in "`library"' Projekt}
! 297: \label{sec:ablage-libr-proj}
! 298:
! 299: \begin{enumerate}
! 300: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
! 301: oder Bereichen für Bewegungsdaten.
! 302:
! 303: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
! 304: Dokumenten-Ordner nach der Namenskonvention
! 305: (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich
! 306: \texttt{archive/data/library}. Roh-Images werden in einem
! 307: Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
! 308:
! 309: \item Die Digigruppe startet eine Prä-Migration der Daten ins
! 310: Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des
! 311: verfügbaren Speicherplatzes) noch nicht von
! 312: der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
! 313: bereits von der Platte gelöscht während die User-Daten erhalten
! 314: bleiben.}
! 315:
! 316: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
! 317: Aufenthaltsort der Daten.
! 318:
! 319: \item Das Projekt verwendet die User-Images und archiviert
! 320: weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
! 321:
! 322: \item Das Projekt veranlasst die vollständige Migration der
! 323: User-Images (Löschung von der Festplatte) sobald die Daten nicht
! 324: mehr direkt verwendet werden.
! 325: \end{enumerate}
! 326:
! 327:
! 328: \subsection{Ablage bei den Projekten}
! 329: \label{sec:ablage-bei-den}
! 330:
! 331: \begin{enumerate}
! 332: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
! 333: oder Bereichen für Bewegungsdaten.
! 334:
! 335: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
! 336: Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit
! 337: dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B.
! 338: \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem
! 339: Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
! 340:
! 341: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
! 342: Aufenthaltsort der Daten.
! 343:
! 344: \item Das Projekt verwendet die User-Images und archiviert
! 345: weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
! 346:
! 347: \item Das Projekt veranlasst die vollständige Migration der Daten
! 348: sobald sie nicht mehr direkt verwendet werden.
! 349: \end{enumerate}
! 350:
! 351:
! 352: \subsection{Ablage der Online-Images}
! 353: \label{sec:ablage-der-online}
! 354:
! 355: Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache
! 356: mit dem Projekt
! 357: \begin{itemize}
! 358: \item als fertige Images in der Online-Hierarchie der Bibliothek, wenn
! 359: es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
! 360:
! 361: \item als fertige Images im Archivbereich bei den User-Images in einem
! 362: Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem
! 363: Online-Bereich
! 364:
! 365: \item für Projekte, die selbst weiter verarbeitete Online-Images zur
! 366: Verfügung stellen werden keine Online-Images erzeugt.
! 367: \end{itemize}
! 368:
! 369:
! 370:
! 371:
1.1 casties 372: \end{document}
373:
374:
375:
376: %%% Local Variables:
377: %%% mode: latex
378: %%% TeX-master: t
379: %%% End:
380:
FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>