Annotation of storage/names/file-format.tex, revision 1.1.1.1
1.1 casties 1: \documentclass[a4paper, abstracton]{scrartcl}
2:
3: \usepackage{ngerman}
4:
5: \usepackage[latin1]{inputenc}
6: \usepackage[T1]{fontenc}
7: \usepackage{ae}
8: %\usepackage{times}
9: %\usepackage{courier}
10:
11: % create in-text links in black (with PDF)
12: %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
13: % Format URLs nicely (without PDF)
14: %\usepackage{url}
15:
16: \title{Ablage von Massendaten im Archiv- und Backupsystem}
17:
18: \author{Dirk Wintergrün, Robert Casties}
19:
20: \begin{document}
21:
22: \maketitle
23:
24: \begin{abstract}
25: In diesem Dokument werden die Ablage von Massendaten auf dem
26: zentralen Archiv- und Filesystem des MPIWG beschrieben
27: \end{abstract}
28:
29: \tableofcontents
30:
31:
32: \section{Datentypen für die dieses Dokument gilt}
33: \label{sec:datentypen-fur-die}
34:
35:
36: Die in diesem Dokument definierten Regeln gelten für
37: \footnote{Empfehlungen zu Standards für Datenformate (fehlt noch)}
38:
39: \begin{description}
40: \item[Archivdaten], die innerhalb der Digitalisierungsprojekte des
41: Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
42: ständigen Zugriff langfristig gesichert werden sollen (Pfad:
43: archive/data)
44:
45: \item[Präsentationsdaten], die über das Internet verfügbar gemacht werden
46: sollen und deren URL bzw. URI langfristig stabil gehalten werden
47: sollen (Pfad: \texttt{online/permanent})
48:
49:
50: \item[Präsentationsdaten], die zu experimentellen Zwecken kurzfristig
51: online verfügbar sein sollen (Pfad: \texttt{online/experimental})
52:
53: \item[Mirror] Daten größeren Umfangs, die am Institut innnerhalb von
54: Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
55: z.B. zum Zwecke der Synchronisation notwendig ist.(Pfad:
56: \texttt{mirrors})
57: \end{description}
58:
59:
60: \section{Zugang zum Server}
61: \label{sec:zugang-zum-server}
62:
63: Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
64: \texttt{foxridge}, der physikalisch am FHI beheimatet ist.
65:
66: Zugang per FTP, SCP, SFTP über:
67:
68: \texttt{foxridge.mpiwg-berlin.mpg.de}
69:
70: Zugang zu den Daten in den Verzeichnissen
71: \texttt{/mpiwg/archive/data}, \texttt{/mpiwg/online/permanent},
72: \texttt{/mpiwg/online/experimental} und \texttt{/mpiwg/mirrors}
73:
74: Zugang per Appletalk (AFP) über:
75:
76: Auswahl des Servers \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver}
77:
78: Zugang zu den Daten über die Freigaben \texttt{archive\_data},
79: \texttt{online\_permanent}, \texttt{online\_experimental} und
80: \texttt{mirrors}
81:
82:
83:
84: \section{Benutzerkennung}
85: \label{sec:benutzerkennung}
86:
87: Benutzerkennungen und Passworte für die Ablage der Massendaten werden
88: projektspezifisch vergeben.
89:
90:
91: \section{Erlaubte Zeichen in Datei- und Ordnernamen}
92: \label{sec:erla-zeich-datei}
93:
94: Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
95: "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden.
96:
97:
98: \section{Ablage von Archivdaten}
99: \label{sec:ablage-von-arch}
100:
101: Archivdaten werden nur temporär auf dem Server gehalten und dann auf
102: Band gesichert. Auf Foxridge ist dafür der Pfad
103:
104: \texttt{/mpiwg/archive/data} bzw \texttt{archive\_data}
105:
106: vorgesehen.
107:
108:
109: \subsection{Erste Ebene: Projekte}
110: \label{sec:erste-eben-proj}
111:
112: Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
113: dem Namen des Projektes angelegt:
114:
115: \texttt{archive/data/PROJEKTNAME}
116:
117: Bsp: das Humboldtprojekt
118:
119: \texttt{archive/data/humboldt}
120:
121:
122: \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
123: Bücher)}
124: \label{sec:zweite-eben-dokum}
125:
126: Für jedes abzulegende Dokument wird innerhalb des Projektordners ein weiterer Ordner angelegt. Im Falle von Dokumenten, die aus gescannten Bilddaten bestehen wird folgende Bennenung vorgeschlagen:
127:
128: \texttt{AUTHOR\_TITLE\_SERNR\_lang\_year}
129:
130: Tipp: Großgeschriebe Ausdrücke sind jeweils obligatorisch
131:
132: \begin{table}[htbp]
133:
134: \begin{tabular}{lll}
135: &&Beispiel:\\ \hline
136:
137: AUTHOR&Autor, Vorschlag 5 stellig (falls nicht vorhanden anon.)&HUMBO\\
138:
139: TITLE&Abkürzung des Titels, Vorschlag 5 stellig&ENDEC\\
140:
141: SERNR&Seriennummer, falls AUTHOR und TITLE nicht eindeutig, beginnend mit 01, zweistellig, die Seriennummer ist obligatorisch also in der Regel 01.&01\\
142:
143: lang&Sprache in der zweistelligen ISO-Codierung&de\\
144:
145: year&Erscheinungsjahr, vierstellig&1803
146:
147: \end{tabular}
148: \caption{Benennung Ordner}
149: \label{tab:benennung}
150: \end{table}
151: Tabelle 1: Benennung Ordner
152:
153:
154:
155:
156: \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
157: \label{sec:dritte-eben-unter}
158:
159: Innerhalb des Dokumenten Ordners werden weitere Ordner angelegt:
160:
161:
162: \begin{table}[htbp]
163: \centering
164: \begin{tabular}{lll}
165: &Benennung&\\ \hline
166:
167: für die Images (verpflichtend)&id-sernr-TYPE\\
168:
169:
170:
171: oder\\
172:
173:
174:
175: TYPE&id: beschreibt eine eindeutige ID des Dokumentes (dreistellig), sernr: eine Seriennummer falls mehrere Imagesätze zu einem Dokument gehören, TYPE entweder img oder pageimg.\\
176:
177: weitere Ordner die sich auf die Images beziehen&id-sernr-TYPE\\
178:
179:
180:
181: oder\\
182:
183:
184:
185: TYPE&wie oben, TYPE sollte den Inhalt beschreiben z.B OCR oder figures\\
186:
187: Metadaten&meta&Einzelne Metadaten-Dateien zu den Dokumenten in den Ordnern
188:
189: \end{tabular}
190: \caption{Benennung Unterordner}
191: \label{tab:unter}
192: \end{table}
193:
194: Tabelle 2: Ordner
195:
196:
197:
198: Ausserdem liegt in jedem Dokumentenordner eine Datei:
199:
200: index.meta
201:
202: die die Metadaten zum Ordner selbst enthält.
203:
204:
205: \subsection{Vierte Ebene: Dateien in den Ordnern}
206: \label{sec:vierte-eben-date}
207:
208: Minimal müssen die Dateinamen so sein, dass ihre alphanumerische
209: Ordnung der Ordnung der Daten entspricht. Insbesondere sollten
210: nummerierte Dateien Namen mit führenden Nullen "00001.jpg" erhalten.
211:
212: Das Suffix muss den Dateityp angeben.
213:
214: \begin{table}[htbp]
215: \centering
216: \begin{tabular}{ll}
217:
218: suffix&Dateityp\\ \hline
219:
220: jpg&jpg-Bilddateien\\
221:
222: tif&tif-Format nicht komprimiert\\
223:
224: png&png
225:
226: \end{tabular}
227: \caption{Benennung Dateien}
228: \label{tab:benennung-dateien}
229: \end{table}
230:
231:
232: Empfohlen wird folgende Bennung:
233:
234: \texttt{id-sernr-imagenumber.suffx}
235:
236: wobei id und sernr, mit den entsprechenden Angaben des Ordners übereinstimmen. Imagenummer ist eine 4stellige Zahl.
237:
238: Übersicht:
239:
240:
241:
242:
243:
244:
245: \section{Ablage der Onlinedaten}
246: \label{sec:ablage-der-onlin}
247:
248: Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
249: werden auf foxridge zwei Pfade angeboten
250:
251: \texttt{online/experimental}
252:
253: und
254:
255: \texttt{online/permanent}
256:
257: \texttt{online/eperimental} ist hierbei für Dokumente vorgesehen, die nur
258: temporär präsentiert werden sollen. Pfade innerhalb dieses Bereiches
259: können verändert und gelöscht werden.
260:
261: \texttt{online/permanent} ist für Dokumente die auf längere Zeit im
262: Netz bleiben sollen. Pfade in diesem Bereich dürfen nicht geändert
263: oder gelöscht werden, Dokumente dürfen nicht verschoben werden.
264:
265: Die interne Struktur der Dokumentordner in \texttt{online/permanent}
266: entspricht der oben dargestellten Struktur innerhalb von
267: \texttt{archive/data}.
268:
269:
270:
271: \end{document}
272:
273:
274:
275: %%% Local Variables:
276: %%% mode: latex
277: %%% TeX-master: t
278: %%% End:
279:
FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>