Annotation of storage/names/file-format.tex, revision 1.2
1.2 ! casties 1: \documentclass[a4paper, abstracton]{article}
1.1 casties 2:
3: \usepackage{ngerman}
4:
5: \usepackage[latin1]{inputenc}
6: \usepackage[T1]{fontenc}
7: \usepackage{ae}
8: %\usepackage{times}
9: %\usepackage{courier}
10:
11: % create in-text links in black (with PDF)
12: %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
13: % Format URLs nicely (without PDF)
14: %\usepackage{url}
15:
16: \title{Ablage von Massendaten im Archiv- und Backupsystem}
17:
18: \author{Dirk Wintergrün, Robert Casties}
19:
20: \begin{document}
21:
22: \maketitle
23:
24: \begin{abstract}
25: In diesem Dokument werden die Ablage von Massendaten auf dem
26: zentralen Archiv- und Filesystem des MPIWG beschrieben
27: \end{abstract}
28:
29: \tableofcontents
30:
31:
32: \section{Datentypen für die dieses Dokument gilt}
33: \label{sec:datentypen-fur-die}
34:
35:
1.2 ! casties 36: Die in diesem Dokument definierten Regeln gelten für\footnote{Empfehlungen zu Standards für Datenformate fehlt noch.}
1.1 casties 37:
38: \begin{description}
1.2 ! casties 39: \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
1.1 casties 40: Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
41: ständigen Zugriff langfristig gesichert werden sollen (Pfad:
1.2 ! casties 42: \texttt{archive/data})
1.1 casties 43:
1.2 ! casties 44: \item[Präsentationsdaten] die über das Internet verfügbar gemacht werden
1.1 casties 45: sollen und deren URL bzw. URI langfristig stabil gehalten werden
46: sollen (Pfad: \texttt{online/permanent})
47:
48:
1.2 ! casties 49: \item[Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
1.1 casties 50: online verfügbar sein sollen (Pfad: \texttt{online/experimental})
51:
52: \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
53: Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
54: z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
55: \texttt{mirrors})
56: \end{description}
57:
58:
59: \section{Zugang zum Server}
60: \label{sec:zugang-zum-server}
61:
62: Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
1.2 ! casties 63: \texttt{foxridge}, der physisch am FHI steht.
1.1 casties 64:
1.2 ! casties 65: \begin{itemize}
! 66: \item Zugang per FTP, SCP, SFTP über:
! 67: \texttt{foxridge.mpiwg-berlin.mpg.de} \\
! 68: Zugang zu den Daten in den Verzeichnissen
! 69: \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
! 70: \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
! 71:
! 72: \item Zugang per Appletalk (AFP) über: Auswahl des Servers
! 73: \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
! 74: Zugang zu den Daten über die Freigaben \texttt{archive\_data},
! 75: \texttt{online\_permanent}, \texttt{online\_experimental} und
! 76: \texttt{mirrors}
! 77: \end{itemize}
1.1 casties 78:
79:
80: \section{Benutzerkennung}
81: \label{sec:benutzerkennung}
82:
83: Benutzerkennungen und Passworte für die Ablage der Massendaten werden
84: projektspezifisch vergeben.
85:
86:
87: \section{Erlaubte Zeichen in Datei- und Ordnernamen}
88: \label{sec:erla-zeich-datei}
89:
90: Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
91: "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.
92:
93:
94: \section{Ablage von Archivdaten}
95: \label{sec:ablage-von-arch}
96:
1.2 ! casties 97: Archivdaten werden nur temporär auf der Festplatte des Servers
! 98: gehalten. Nach der Archivierung auf Band werden sie von der Festplatte
! 99: gelöscht. Für Archivdaten ist auf Foxridge der Pfad
1.1 casties 100:
101: \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
102:
1.2 ! casties 103: \noindent vorgesehen.
1.1 casties 104:
105:
106: \subsection{Erste Ebene: Projekte}
107: \label{sec:erste-eben-proj}
108:
109: Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
110: dem Namen des Projektes angelegt:
111:
112: \texttt{archive/data/PROJEKTNAME}
113:
1.2 ! casties 114: \noindent Bsp: das Humboldtprojekt
1.1 casties 115:
116: \texttt{archive/data/humboldt}
117:
118:
119: \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
120: Bücher)}
121: \label{sec:zweite-eben-dokum}
122:
1.2 ! casties 123: Für jedes abzulegende Dokument wird innerhalb des Projektordners ein
! 124: weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
! 125: bestehen, wird folgende Bennenung
! 126: vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
! 127: obligatorisch.}
1.1 casties 128:
129: \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
130:
1.2 ! casties 131: \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
1.1 casties 132:
133: \begin{table}[htbp]
1.2 ! casties 134: \center
! 135: \begin{tabular}{lp{0.6\textwidth}l}
! 136: Feld & Erklärung & Beispiel\\ \hline
1.1 casties 137:
1.2 ! casties 138: AUTHOR & Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.) & HUMBO\\
1.1 casties 139:
1.2 ! casties 140: TITLE & Abkürzung des Titels, Vorschlag 5 stellig & ENDEC\\
1.1 casties 141:
1.2 ! casties 142: SERNR & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
! 143: beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also
! 144: in der Regel 01. & 01\\
1.1 casties 145:
1.2 ! casties 146: lang & Sprache in der zweistelligen ISO-Codierung & de\\
1.1 casties 147:
1.2 ! casties 148: year & Erscheinungsjahr, vierstellig & 1803
1.1 casties 149: \end{tabular}
150: \caption{Benennung Ordner}
151: \label{tab:benennung}
152: \end{table}
153:
154:
155:
156:
157: \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
158: \label{sec:dritte-eben-unter}
159:
1.2 ! casties 160: Innerhalb des Dokumentenordners werden weitere Unterordner für den
! 161: jeweiligen Datentyp angelegt:
1.1 casties 162:
1.2 ! casties 163: \texttt{TYPE}
1.1 casties 164:
1.2 ! casties 165: \noindent oder
1.1 casties 166:
1.2 ! casties 167: \texttt{id-sernr-TYPE}
1.1 casties 168:
1.2 ! casties 169: \begin{description}
! 170: \item[id] beschreibt eine eindeutige ID des Dokumentes
! 171: (dreistellig)
1.1 casties 172:
1.2 ! casties 173: \item[sernr] eine Seriennummer falls mehrere
! 174: Imagesätze zu einem Dokument gehören
1.1 casties 175:
1.2 ! casties 176: \item[TYPE] sollte den Inhalt beschreiben z.B \texttt{img} oder
! 177: \texttt{pageimg} bei Scans einzelner Seiten oder \texttt{OCR} für
! 178: OCR-Texte oder \texttt{meta} für einzelne Metadaten-Dateien zu den
! 179: Dateien in den anderen Ordnern.
! 180: \end{description}
1.1 casties 181:
1.2 ! casties 182: \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
1.1 casties 183:
1.2 ! casties 184: \texttt{index.meta}
1.1 casties 185:
1.2 ! casties 186: \noindent die Metadaten zum Ordner selbst enthält.
1.1 casties 187:
188:
189: \subsection{Vierte Ebene: Dateien in den Ordnern}
190: \label{sec:vierte-eben-date}
191:
1.2 ! casties 192: Für Dateinamen gilt als Midestanforderung, dass die alphabetische
! 193: Ordnung der Namen der Ordnung der Daten entspricht. Nummerierte
! 194: Dateien sollten Namen mit führenden Nullen erhalten, z.B.
! 195: \texttt{00001.jpg}. Empfohlen wird folgende Bennung:
! 196:
! 197: \texttt{id-sernr-imagenumber.SUFFIX}
! 198:
! 199: \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
! 200: Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl. Das
! 201: Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
! 202: Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
1.1 casties 203:
204: \begin{table}[htbp]
205: \centering
206: \begin{tabular}{ll}
207:
1.2 ! casties 208: suffix & Dateityp\\ \hline
1.1 casties 209:
1.2 ! casties 210: jpg & JPEG-Bilddateien\\
! 211:
! 212: tif & TIFF-Bilddateien \\
! 213:
! 214: png & PNG-Bilddateien
1.1 casties 215: \end{tabular}
1.2 ! casties 216: \caption{Dateiendungen}
! 217: \label{tab:benennung-dateien}
1.1 casties 218: \end{table}
219:
220:
221: \section{Ablage der Onlinedaten}
222: \label{sec:ablage-der-onlin}
223:
224: Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
1.2 ! casties 225: werden auf foxridge zwei Pfade angeboten:
1.1 casties 226:
227: \texttt{online/experimental}
228:
1.2 ! casties 229: \noindent und
1.1 casties 230:
231: \texttt{online/permanent}
232:
1.2 ! casties 233: \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
! 234: ist \texttt{online/eperimental} vorgesehen. Pfade innerhalb dieses
! 235: Bereiches können verändert und gelöscht werden.
! 236:
! 237: Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
! 238: \texttt{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
! 239: nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
! 240: werden.
1.1 casties 241:
242: Die interne Struktur der Dokumentordner in \texttt{online/permanent}
1.2 ! casties 243: entspricht der oben dargestellten Struktur von \texttt{archive/data}.
1.1 casties 244:
245:
246:
247: \end{document}
248:
249:
250:
251: %%% Local Variables:
252: %%% mode: latex
253: %%% TeX-master: t
254: %%% End:
255:
FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>