Annotation of storage/names/file-format.tex, revision 1.5
1.2 casties 1: \documentclass[a4paper, abstracton]{article}
1.1 casties 2:
3: \usepackage{ngerman}
4:
5: \usepackage[latin1]{inputenc}
6: \usepackage[T1]{fontenc}
7: \usepackage{ae}
8: %\usepackage{times}
9: %\usepackage{courier}
10:
11: % create in-text links in black (with PDF)
12: %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
13: % Format URLs nicely (without PDF)
14: %\usepackage{url}
15:
16: \title{Ablage von Massendaten im Archiv- und Backupsystem}
17:
18: \author{Dirk Wintergrün, Robert Casties}
19:
1.5 ! dwinter 20: \date{V0.9.3 \today}
1.4 casties 21:
1.1 casties 22: \begin{document}
23:
24: \maketitle
25:
26: \begin{abstract}
27: In diesem Dokument werden die Ablage von Massendaten auf dem
28: zentralen Archiv- und Filesystem des MPIWG beschrieben
29: \end{abstract}
30:
31: \tableofcontents
32:
33:
34: \section{Datentypen für die dieses Dokument gilt}
35: \label{sec:datentypen-fur-die}
36:
37:
1.2 casties 38: Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}
1.1 casties 39:
40: \begin{description}
1.2 casties 41: \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
1.1 casties 42: Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
43: ständigen Zugriff langfristig gesichert werden sollen (Pfad:
1.2 casties 44: \texttt{archive/data})
1.1 casties 45:
1.2 casties 46: \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
1.1 casties 47: sollen und deren URL bzw. URI langfristig stabil gehalten werden
48: sollen (Pfad: \texttt{online/permanent})
49:
50:
1.2 casties 51: \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
1.1 casties 52: online verfügbar sein sollen (Pfad: \texttt{online/experimental})
53:
54: \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
55: Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
56: z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
57: \texttt{mirrors})
58: \end{description}
59:
60:
61: \section{Zugang zum Server}
62: \label{sec:zugang-zum-server}
63:
64: Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
1.2 casties 65: \texttt{foxridge}, der physisch am FHI steht.
1.1 casties 66:
1.2 casties 67: \begin{itemize}
68: \item Zugang per FTP, SCP, SFTP über:
69: \texttt{foxridge.mpiwg-berlin.mpg.de} \\
70: Zugang zu den Daten in den Verzeichnissen
71: \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
72: \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
73:
74: \item Zugang per Appletalk (AFP) über: Auswahl des Servers
75: \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
76: Zugang zu den Daten über die Freigaben \texttt{archive\_data},
77: \texttt{online\_permanent}, \texttt{online\_experimental} und
78: \texttt{mirrors}
79: \end{itemize}
1.1 casties 80:
81:
82: \section{Benutzerkennung}
83: \label{sec:benutzerkennung}
84:
85: Benutzerkennungen und Passworte für die Ablage der Massendaten werden
86: projektspezifisch vergeben.
87:
88:
89: \section{Erlaubte Zeichen in Datei- und Ordnernamen}
90: \label{sec:erla-zeich-datei}
91:
92: Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
93: "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.
94:
95:
96: \section{Ablage von Archivdaten}
97: \label{sec:ablage-von-arch}
98:
1.2 casties 99: Archivdaten werden nur temporär auf der Festplatte des Servers
100: gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
101: gelöscht. Für Archivdaten ist auf Foxridge der Pfad
1.1 casties 102:
103: \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
104:
1.2 casties 105: \noindent vorgesehen.
1.1 casties 106:
107:
108: \subsection{Erste Ebene: Projekte}
109: \label{sec:erste-eben-proj}
110:
111: Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
112: dem Namen des Projektes angelegt:
113:
114: \texttt{archive/data/PROJEKTNAME}
115:
1.2 casties 116: \noindent Bsp: das Humboldtprojekt
1.1 casties 117:
118: \texttt{archive/data/humboldt}
119:
120:
121: \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
122: Bücher)}
123: \label{sec:zweite-eben-dokum}
124:
1.2 casties 125: Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
126: weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
127: bestehen, wird folgende Bennenung
128: vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
129: obligatorisch.}
1.1 casties 130:
1.5 ! dwinter 131: \texttt{AUTHOR\_TITLE\_sernr\_lang\_year}
1.1 casties 132:
1.2 casties 133: \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
1.1 casties 134:
135: \begin{table}[htbp]
1.2 casties 136: \center
137: \begin{tabular}{lp{0.6\textwidth}l}
138: Feld & Erklärung & Beispiel\\ \hline
1.1 casties 139:
1.2 casties 140: AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\
1.1 casties 141:
1.2 casties 142: TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\
1.1 casties 143:
1.5 ! dwinter 144: sernr & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
! 145: beginnend mit 01, zweistellig\\
1.1 casties 146:
1.2 casties 147: lang & Sprache in der zweistelligen ISO-Codierung & de\\
1.1 casties 148:
1.2 casties 149: year & Erscheinungsjahr, vierstellig & 1803
1.1 casties 150: \end{tabular}
151: \caption{Benennung Ordner}
152: \label{tab:benennung}
153: \end{table}
154:
155:
156:
157:
158: \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
159: \label{sec:dritte-eben-unter}
160:
1.2 casties 161: Innerhalb des Dokumentenordners werden weitere Unterordner für den
162: jeweiligen Datentyp angelegt:
1.1 casties 163:
1.2 casties 164: \texttt{TYPE}
1.1 casties 165:
1.2 casties 166: \noindent oder
1.1 casties 167:
1.2 casties 168: \texttt{id-sernr-TYPE}
1.1 casties 169:
1.2 casties 170: \begin{description}
171: \item[id] beschreibt eine eindeutige ID des Dokumentes
172: (dreistellig)
1.1 casties 173:
1.2 casties 174: \item[sernr] eine Seriennummer falls mehrere
175: Imagesätze zu einem Dokument gehören
1.1 casties 176:
1.2 casties 177: \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
178: \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
179: OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
180: Dateien in den anderen Ordnern.
181: \end{description}
1.1 casties 182:
1.2 casties 183: \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
1.1 casties 184:
1.2 casties 185: \texttt{index.meta}
1.1 casties 186:
1.2 casties 187: \noindent die Metadaten zum Ordner selbst enthält.
1.1 casties 188:
189:
190: \subsection{Vierte Ebene: Dateien in den Ordnern}
191: \label{sec:vierte-eben-date}
192:
1.2 casties 193: Für Dateinamen gilt als Midestanforderung, dass die alphabetische
194: Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
195: Dateien sollten Namen mit führenden Nullen erhalten, z.B.
196: \texttt{00001.jpg}. Empfohlen wird folgende Bennung:
197:
198: \texttt{id-sernr-imagenumber.SUFFIX}
199:
200: \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
201: Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
202: Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
203: Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
1.1 casties 204:
205: \begin{table}[htbp]
206: \centering
207: \begin{tabular}{ll}
208:
1.2 casties 209: suffix & Dateityp\\ \hline
1.1 casties 210:
1.2 casties 211: jpg & JPEG-Bilddateien\\
212:
213: tif & TIFF-Bilddateien \\
214:
215: png & PNG-Bilddateien
1.1 casties 216: \end{tabular}
1.2 casties 217: \caption{Dateiendungen}
218: \label{tab:benennung-dateien}
1.1 casties 219: \end{table}
220:
221:
222: \section{Ablage der Onlinedaten}
223: \label{sec:ablage-der-onlin}
224:
225: Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
1.2 casties 226: werden auf foxridge zwei Pfade angeboten:
1.1 casties 227:
228: \texttt{online/experimental}
229:
1.2 casties 230: \noindent und
1.1 casties 231:
232: \texttt{online/permanent}
233:
1.2 casties 234: \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
235: ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
236: Bereiches können verändert und gelöscht werden.
237:
238: Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
239: \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
240: nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
241: werden.
1.1 casties 242:
243: Die interne Struktur der Dokumentordner in \texttt{online/permanent}
1.2 casties 244: entspricht der oben dargestellten Struktur von \texttt{archive/data}.
1.1 casties 245:
246:
247:
1.3 casties 248: \section{Workflow für die Übergabe von gescannten Texten}
249: \label{sec:workflow-fur-die}
250:
251: Größere Mengen von Büchern und Manuskripten werden von der
252: Digitalisierungsgruppe der Bibliothek in hoher Qualität
253: gescannt. Diese Digitalisierungen erfolgen im Auftrag
254: einzelner Projekte oder auf eigene Initiative der Bibliothek. Die
255: Digitalisate werden zunächst in drei verschiedenen Formen erzeugt:
256:
257: \begin{itemize}
258: \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
259: ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
260: weitere Nutzung durch Andere gedacht und sollen nur archiviert
261: werden.
262:
263: \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
264: Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
265: Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
266: werden.
267:
268: \item Als \emph{Online-Image} in reduzierter Auflösung für die
269: Online-Präsentation. Diese Dateien können ebenfalls durch andere
270: Projekte genutzt werden und müssen online zur Verfügung stehen.
271: \end{itemize}
272:
273: Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
274: von der Digigruppe selbständig durchgeführt. Für den Workflow der
275: Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
276: Anforderungen:
277:
278: \begin{itemize}
279: \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
280: Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
281:
282: \item Die Daten müssen archiviert werden.
283:
284: \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
285: stehen und über einen allgemeinen Katalog gefunden werden können.
286:
287: \item Daten sollten nach Möglichkeit nicht kopiert und doppelt
288: abgelegt werden.
289: \end{itemize}
290:
291: Es sind dafür zwei unterschiedliche Workflows denkbar: die Ablage der
292: Roh- und User-Images durch die Digigruppe in einer eigenen
293: \texttt{library} Hierarchie oder die Ablage durch die Digigruppe in
294: entsprechenden Unterordnern der jeweiligen Projekte.
295:
296:
297: \subsection{Ablage in "`library"' Projekt}
298: \label{sec:ablage-libr-proj}
299:
300: \begin{enumerate}
301: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
302: oder Bereichen für Bewegungsdaten.
303:
304: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
305: Dokumenten-Ordner nach der Namenskonvention
306: (\texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}) im Bereich
307: \texttt{archive/data/library}. Roh-Images werden in einem
308: Unterordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
309:
310: \item Die Digigruppe startet eine Prä-Migration der Daten ins
311: Bandarchiv. Die Daten werden auf Band kopiert aber (nach Maßgabe des
312: verfügbaren Speicherplatzes) noch nicht von
313: der Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
314: bereits von der Platte gelöscht während die User-Daten erhalten
315: bleiben.}
316:
317: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
318: Aufenthaltsort der Daten.
319:
320: \item Das Projekt verwendet die User-Images und archiviert
321: weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
322:
323: \item Das Projekt veranlasst die vollständige Migration der
324: User-Images (Löschung von der Festplatte) sobald die Daten nicht
325: mehr direkt verwendet werden.
326: \end{enumerate}
327:
328:
329: \subsection{Ablage bei den Projekten}
330: \label{sec:ablage-bei-den}
331:
332: \begin{enumerate}
333: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
334: oder Bereichen für Bewegungsdaten.
335:
336: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
337: Dokumenten-Ordner nach der Namenskonvention, der sich in einem mit
338: dem PRojekt abgesprochenen Bereich des Projektes befindet, z.B.
339: \texttt{archive/data/PROJEKT/literature}. Roh-Images werden in einem
340: Unteordner \texttt{raw} abgelegt und User-Images in \texttt{img}.
341:
342: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
343: Aufenthaltsort der Daten.
344:
345: \item Das Projekt verwendet die User-Images und archiviert
346: weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
347:
348: \item Das Projekt veranlasst die vollständige Migration der Daten
349: sobald sie nicht mehr direkt verwendet werden.
350: \end{enumerate}
351:
352:
353: \subsection{Ablage der Online-Images}
354: \label{sec:ablage-der-online}
355:
356: Die Erstellung und Ablage der Online-Images erfolgt ja nach Absprache
357: mit dem Projekt
358: \begin{itemize}
359: \item als fertige Images in der Online-Hierarchie der Bibliothek, wenn
360: es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
361:
362: \item als fertige Images im Archivbereich bei den User-Images in einem
363: Ordner \texttt{jpg} zur Nutzung durch das Projekt in seinem
364: Online-Bereich
365:
366: \item für Projekte, die selbst weiter verarbeitete Online-Images zur
367: Verfügung stellen werden keine Online-Images erzeugt.
368: \end{itemize}
369:
370:
371:
372:
1.1 casties 373: \end{document}
374:
375:
376:
377: %%% Local Variables:
378: %%% mode: latex
379: %%% TeX-master: t
380: %%% End:
381:
FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>