Annotation of storage/names/file-format.tex, revision 1.6

1.6     ! casties     1: \documentclass[a4paper]{article}
1.1       casties     2: 
                      3: \usepackage{ngerman}
                      4: 
                      5: \usepackage[latin1]{inputenc}
                      6: \usepackage[T1]{fontenc}
                      7: \usepackage{ae}
                      8: %\usepackage{times}
                      9: %\usepackage{courier}
                     10: 
                     11: % create in-text links in black (with PDF)
                     12: %\usepackage[colorlinks=true,linkcolor=black]{hyperref}
                     13: % Format URLs nicely (without PDF)
1.6     ! casties    14: \usepackage{url}
1.1       casties    15: 
                     16: \title{Ablage von Massendaten im Archiv- und Backupsystem}
                     17: 
                     18: \author{Dirk Wintergrün, Robert Casties}
                     19: 
1.6     ! casties    20: \date{V0.9.4 of \today}
1.4       casties    21: 
1.1       casties    22: \begin{document}
                     23: 
                     24: \maketitle
                     25: 
                     26: \begin{abstract}
                     27:   In diesem Dokument werden die Ablage von Massendaten auf dem
                     28:   zentralen Archiv- und Filesystem des MPIWG beschrieben
                     29: \end{abstract}
                     30: 
                     31: \tableofcontents
                     32: 
                     33: 
                     34: \section{Datentypen für die dieses Dokument gilt}
                     35: \label{sec:datentypen-fur-die}
                     36: 
                     37: 
1.6     ! casties    38: Die in diesem Dokument definierten Regeln gelten
        !            39: für\footnote{Empfehlungen zu Standards für Datenformate fehlen noch.}
1.1       casties    40: 
                     41: \begin{description}
1.2       casties    42: \item[Archivdaten] die innerhalb der Digitalisierungsprojekte des
1.1       casties    43:   Instituts anfallen und als Rohdaten in möglichst hoher Qualität ohne
                     44:   ständigen Zugriff langfristig gesichert werden sollen (Pfad:
1.6     ! casties    45:   \url{archive/data})
1.1       casties    46:   
1.6     ! casties    47: \item[Langfristige Präsentationsdaten] die über das Internet verfügbar
        !            48:   gemacht werden sollen und deren URL bzw. URI langfristig stabil
        !            49:   gehalten werden sollen (Pfad: \url{online/permanent})
1.1       casties    50:   
                     51: 
1.6     ! casties    52: \item[Kurzfristige Präsentationsdaten] zu experimentellen Zwecken, die kurzfristig
        !            53:   online verfügbar sein sollen (Pfad: \url{online/experimental})
1.1       casties    54:   
1.6     ! casties    55: \item[Mirror-Daten] größeren Umfangs, die am Institut im Rahmen von
1.1       casties    56:   Kooperationsprojekten gehalten werden und auf die ständiger Zugriff
1.6     ! casties    57:   z.B. zum Zweck der Synchronisation notwendig ist.(Pfad:
        !            58:   \url{mirrors})
1.1       casties    59: \end{description}
                     60: 
                     61: 
                     62: \section{Zugang zum Server}
                     63: \label{sec:zugang-zum-server}
                     64: 
                     65: Die Ablage aller genannter Dokumente erfolgt auf dem Fileserver
1.2       casties    66: \texttt{foxridge}, der physisch am FHI steht.
1.1       casties    67: 
1.2       casties    68: \begin{itemize}
                     69: \item Zugang per FTP, SCP, SFTP über:
1.6     ! casties    70:   \url{foxridge.mpiwg-berlin.mpg.de} \\
1.2       casties    71:   Zugang zu den Daten in den Verzeichnissen
1.6     ! casties    72:   \url{/mpiwg/archive/data}, \url{/mpiwg/online/permanent},
        !            73:   \url{/mpiwg/online/experimental} und \url{/mpiwg/mirrors}
1.2       casties    74:   
                     75: \item Zugang per Appletalk (AFP) über: Auswahl des Servers
                     76:   \texttt{foxridge} in der Zone \texttt{Zentrale Fileserver} \\
1.6     ! casties    77:   Zugang zu den Daten über die Freigaben \url{archive\_data},
        !            78:   \url{online\_permanent}, \url{online\_experimental} und
        !            79:   \url{mirrors}
1.2       casties    80: \end{itemize}
1.1       casties    81: 
                     82: 
                     83: \section{Benutzerkennung}
                     84: \label{sec:benutzerkennung}
                     85: 
                     86: Benutzerkennungen und Passworte für die Ablage der Massendaten werden
1.6     ! casties    87: projektspezifisch vergeben.\footnote{Eine Regelung für die Vergabe der
        !            88:   Zugriffsrechte fehlt noch.}
1.1       casties    89: 
                     90: 
                     91: \section{Erlaubte Zeichen in Datei- und Ordnernamen}
                     92: \label{sec:erla-zeich-datei}
                     93: 
                     94: Erlaubte Zeichen in Datei- und Ordnernamen sind a-z, A-Z, 0-9, "`-"',
1.6     ! casties    95: "`\_"', "`."'. Andere Zeichen und Leerzeichen sind zu vermeiden. Es
        !            96: wird empfohlen für Datei- und Ordnernamen ausschliesslich
        !            97: Kleinschreibung zu verwenden.
1.1       casties    98: 
                     99: 
                    100: \section{Ablage von Archivdaten}
                    101: \label{sec:ablage-von-arch}
                    102: 
1.2       casties   103: Archivdaten werden nur temporär auf der Festplatte des Servers
1.6     ! casties   104: gehalten. Nach der Archivierung auf Magnetbänder werden sie von der
        !           105: Festplatte gelöscht. Für Archivdaten ist auf Foxridge der Pfad
1.1       casties   106: 
1.6     ! casties   107: \url{/mpiwg/archive/data} bzw \url{archive_data}
1.1       casties   108: 
1.2       casties   109: \noindent vorgesehen. 
1.1       casties   110: 
                    111: 
                    112: \subsection{Erste Ebene: Projekte}
                    113: \label{sec:erste-eben-proj}
                    114: 
                    115: Für jedes Projekt, das Archivdaten ablegen will, wird ein Ordner mit
                    116: dem Namen des Projektes angelegt:
                    117: 
1.6     ! casties   118: \url{archive/data/PROJEKTNAME}
1.1       casties   119: 
1.2       casties   120: \noindent Bsp: das Humboldtprojekt
1.1       casties   121: 
1.6     ! casties   122: \url{archive/data/humboldt}
        !           123: 
        !           124: \noindent Innerhalb des eigenen Projektordners kann das Projekt, wenn nötig,
        !           125: weitere Unterordner zur Untergliederung der Dokumente anlegen.
1.1       casties   126: 
                    127: 
                    128: \subsection{Zweite Ebene: Dokumente (gescannte Artikel, Manuskripte,
                    129:   Bücher)}
                    130: \label{sec:zweite-eben-dokum}
                    131: 
1.6     ! casties   132: Für jedes abzulegende Dokument wird unterhalb des Projektordners ein
1.2       casties   133: weiterer Ordner angelegt. Für Dokumente, die aus gescannten Bilddaten
                    134: bestehen, wird folgende Bennenung
                    135: vorgeschlagen:\footnote{Großgeschriebe Ausdrücke sind jeweils
                    136:   obligatorisch.}
1.1       casties   137: 
1.6     ! casties   138: \url{AUTHOR_TITLE_sernr_lang_year}
        !           139: 
        !           140: \noindent Also z.B.
        !           141: 
        !           142: \url{humbo_endec_01_de_1803}
1.1       casties   143: 
1.2       casties   144: \noindent Siehe dazu Tabelle~\ref{tab:benennung}.
1.1       casties   145: 
                    146: \begin{table}[htbp]
1.2       casties   147: \center
                    148: \begin{tabular}{lp{0.6\textwidth}l}
                    149: Feld & Erklärung & Beispiel\\ \hline
1.1       casties   150: 
1.6     ! casties   151: \texttt{AUTHOR} & Autor, Vorschlag 5 stellig (falls nicht vorhanden "`anon."') & \texttt{humbo}\\
1.1       casties   152: 
1.6     ! casties   153: \texttt{TITLE} & Abkürzung des Titels, Vorschlag 5 stellig & \texttt{endec}\\
1.1       casties   154: 
1.6     ! casties   155: \texttt{sernr} & Seriennummer, falls AUTHOR und TITLE nicht eindeutig,
        !           156: beginnend mit 01, zweistellig & 01\\
1.1       casties   157: 
1.6     ! casties   158: \texttt{lang} & Sprache in der zweistelligen ISO-Kodierung\footnotemark & \texttt{de}\\
1.1       casties   159: 
1.6     ! casties   160: \texttt{year} & Erscheinungsjahr, vierstellig & 1803
1.1       casties   161: \end{tabular}
                    162: \caption{Benennung Ordner}
                    163: \label{tab:benennung}
                    164: \end{table}
1.6     ! casties   165: \footnotetext{\url{http://www.loc.gov/standards/iso639-2/englangn.html}}
1.1       casties   166: 
                    167: 
                    168: 
                    169: \subsection{Dritte Ebene: Unterordner (Images, Texte, Metadaten)}
                    170: \label{sec:dritte-eben-unter}
                    171: 
1.2       casties   172: Innerhalb des Dokumentenordners werden weitere Unterordner für den
                    173: jeweiligen Datentyp angelegt:
1.1       casties   174: 
1.6     ! casties   175: \url{TYPE}
1.1       casties   176: 
1.2       casties   177: \noindent oder
1.1       casties   178: 
1.6     ! casties   179: \url{id-sernr-TYPE}
1.1       casties   180: 
1.2       casties   181: \begin{description}
1.6     ! casties   182: \item[id] eine eindeutige ID des Dokumentes (dreistellig), die
        !           183:   innerhalb des Projektes vergeben wird
1.1       casties   184: 
1.2       casties   185: \item[sernr] eine Seriennummer falls mehrere
                    186: Imagesätze zu einem Dokument gehören
1.1       casties   187: 
1.6     ! casties   188: \item[TYPE] sollte den Inhalt beschreiben z.B \url{img} oder
        !           189:   \url{pageimg} bei Scans einzelner Seiten oder \url{ocr} für
        !           190:   OCR-Texte oder \url{meta} für einzelne Metadaten-Dateien zu den
1.2       casties   191:   Dateien in den anderen Ordnern.
                    192: \end{description}
1.1       casties   193: 
1.2       casties   194: \noindent Ausserdem liegt in jedem Dokumentenordner eine Datei:
1.1       casties   195: 
1.6     ! casties   196: \url{index.meta}
1.1       casties   197: 
1.6     ! casties   198: \noindent die Metadaten zum Ordner selbst enthält. Das Format dieser
        !           199: Metadaten"=Datei ist im Dokument "`A simple metadata format for
        !           200: resource bundles"'\footnote{\url{http://pythia/projects/storagesystem/metadaten.html}} beschrieben.
1.1       casties   201: 
                    202: 
                    203: \subsection{Vierte Ebene: Dateien in den Ordnern}
                    204: \label{sec:vierte-eben-date}
                    205: 
1.6     ! casties   206: Für Dateinamen gilt als Midestanforderung, dass die Dateiendung den
        !           207: Dateityp anzeigt und die alphabetische Ordnung der Namen der
        !           208: Reihenfolge der Daten entspricht. Nummerierte Dateien sollten daher
        !           209: Namen mit führenden Nullen erhalten, z.B.  \url{00001.jpg}. Empfohlen
        !           210: wird folgende Bennung:
1.2       casties   211: 
1.6     ! casties   212: \url{id-sernr-imagenumber.SUFFIX}
1.2       casties   213: 
                    214: \noindent wobei \texttt{id} und \texttt{sernr} mit den entsprechenden Angaben des
1.6     ! casties   215: Ordners übereinstimmen. Imagenummer ist eine vierstellige Zahl. Das
1.2       casties   216: Suffix muss den Dateityp angeben. Eine (nicht erschöpfende) Liste von
                    217: Dateitypen zeigt Tabelle~\ref{tab:benennung-dateien}.
1.1       casties   218: 
                    219: \begin{table}[htbp]
                    220:   \centering
                    221:   \begin{tabular}{ll}
                    222: 
1.2       casties   223:     suffix & Dateityp\\ \hline
1.1       casties   224: 
1.6     ! casties   225:     \texttt{jpg} & JPEG-Bilddateien\\
1.2       casties   226:     
1.6     ! casties   227:     \texttt{tif} & TIFF-Bilddateien \\
1.2       casties   228:     
1.6     ! casties   229:     \texttt{png} & PNG-Bilddateien
1.1       casties   230:   \end{tabular}
1.2       casties   231:   \caption{Dateiendungen}
                    232:   \label{tab:benennung-dateien}  
1.1       casties   233: \end{table}
                    234: 
                    235: 
                    236: \section{Ablage der Onlinedaten}
                    237: \label{sec:ablage-der-onlin}
                    238: 
                    239: Für Daten die für die direkte Präsentation im Netz vorgesehen sind,
1.2       casties   240: werden auf foxridge zwei Pfade angeboten:
1.1       casties   241: 
1.6     ! casties   242: \url{online/experimental}
1.1       casties   243: 
1.2       casties   244: \noindent und
1.1       casties   245: 
1.6     ! casties   246: \url{online/permanent}
1.1       casties   247: 
1.2       casties   248: \noindent Für Dokumente, die nur temporär präsentiert werden sollen,
1.6     ! casties   249: ist \url{online/eperimental} vorgesehen. Pfade innerhalb dieses
1.2       casties   250: Bereiches können verändert und gelöscht werden.
                    251: 
                    252: Für Dokumente, die auf längere Zeit im Netz bleiben sollen, ist
1.6     ! casties   253: \url{online/permanent} vorgesehen. Pfade in diesem Bereich dürfen
1.2       casties   254: nicht geändert oder gelöscht werden, Dokumente dürfen nicht verschoben
1.6     ! casties   255: oder umbenannt werden.
1.1       casties   256: 
1.6     ! casties   257: Die interne Struktur der Projekt- und Dokumentordner in
        !           258: \url{online/permanent} entspricht der in
        !           259: Abschnitt~\ref{sec:ablage-von-arch} dargestellten Struktur von
        !           260: \url{archive/data}.
1.1       casties   261: 
                    262: 
                    263: 
1.3       casties   264: \section{Workflow für die Übergabe von gescannten Texten}
                    265: \label{sec:workflow-fur-die}
                    266: 
                    267: Größere Mengen von Büchern und Manuskripten werden von der
1.6     ! casties   268: Digitalisierungsgruppe der Bibliothek in hoher Qualität gescannt.
        !           269: Diese Digitalisierungen erfolgen im Auftrag von Projektem, einzelnen
        !           270: Forschern oder auf eigene Initiative der Bibliothek. Die Digitalisate
        !           271: werden zunächst in drei verschiedenen Formen erzeugt:
1.3       casties   272: 
                    273: \begin{itemize}
                    274: \item Als \emph{Roh-Image} in hoher Auflösung direkt aus dem Scanner,
                    275:   ohne weitere Nachbearbeitung. Diese Dateien sind nicht für die
                    276:   weitere Nutzung durch Andere gedacht und sollen nur archiviert
                    277:   werden.
                    278:   
                    279: \item Als \emph{User-Image} in hoher Auflösung mit Nachbearbeitung wie
                    280:   Farbkorrektur und Schärfung. Diese Dateien sind für die weitere
                    281:   Nutzung durch die Projekte gedacht und sollen ebenfalls archiviert
                    282:   werden.
                    283: 
                    284: \item Als \emph{Online-Image} in reduzierter Auflösung für die
                    285:   Online-Präsentation. Diese Dateien können ebenfalls durch andere
                    286:   Projekte genutzt werden und müssen online zur Verfügung stehen.
                    287: \end{itemize}
                    288: 
                    289: Die Scan-Arbeiten und die Erzeugung der Roh- und User-Images werden
                    290: von der Digigruppe selbständig durchgeführt. Für den Workflow der
                    291: Übergabe der Bilddaten an die Projekte ergeben sich verschiedene
                    292: Anforderungen:
                    293: 
                    294: \begin{itemize}
                    295: \item Der Ort der Übergabe der Daten muss klar sein. Wohin werden die
                    296:   Dateien kopiert, wie werden Verzeichnisse und Dateien benannt?
                    297: 
                    298: \item Die Daten müssen archiviert werden.
                    299: 
                    300: \item Online-Versionen der Daten sollten möglichst schnell zur Verfügung
                    301:   stehen und über einen allgemeinen Katalog gefunden werden können.
                    302:   
                    303: \item Daten sollten nach Möglichkeit nicht kopiert und doppelt
                    304:   abgelegt werden.
                    305: \end{itemize}
                    306: 
1.6     ! casties   307: Der Workflow der Ablage der Daten ist abhängig davon ob die Scans im
        !           308: Auftrag eines etablierten Projektes durchgeführt wurden. In diesem
        !           309: Fall werden die Roh- und User"=Images von der Digigruppe in
        !           310: entsprechenden Unterordnern der jeweiligen Projektordner abgelegt
        !           311: (Abschnitt~\ref{sec:ablage-bei-den}). Wenn die Scans im Auftrag
        !           312: einzelner Wissenschaftler oder auf Initiative der Bibliothek erstellt
        !           313: wurden, werden sie in der \url{library} Hierarchie abgelegt
        !           314: (Abschnitt~\ref{sec:ablage-libr-proj})
1.3       casties   315: 
                    316: 
                    317: \subsection{Ablage in "`library"' Projekt}
                    318: \label{sec:ablage-libr-proj}
                    319: 
                    320: \begin{enumerate}
                    321: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
                    322:   oder Bereichen für Bewegungsdaten.
                    323:   
                    324: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
                    325:   Dokumenten-Ordner nach der Namenskonvention
1.6     ! casties   326:   (\url{AUTHOR_TITLE_SERNR_lang_year}) im Bereich
        !           327:   \url{archive/data/library}.  Roh-Images werden in einem
        !           328:   Unterordner \url{raw} abgelegt und User-Images in \url{img}.
        !           329:   
        !           330: \item Die Digigruppe startet eine Prä-Migration der Daten (Roh- und
        !           331:   User"=images) ins Bandarchiv. Die Daten werden auf Band kopiert aber
        !           332:   (nach Maßgabe des verfügbaren Speicherplatzes) noch nicht von der
        !           333:   Festplatte gelöscht.\footnote{Idealerweise würden die Roh-Images
        !           334:     bereits von der Platte gelöscht während die User-Daten erhalten
        !           335:     bleiben.}
1.3       casties   336: 
1.6     ! casties   337: \item Die Digigruppe benachrichtigt den Auftraggeber (wenn im Auftrag)
        !           338:   über den Ablageort der Daten.
        !           339:   
        !           340: \item Der Auftraggeber verwendet die User-Images. Veränderte Formen
        !           341:   der Images erstellt und archiviert der Auftraggeber in seiner
        !           342:   eigenen Projekt"=Hierarchie.
        !           343:   
        !           344: \item Der Auftraggeber veranlasst die vollständige Migration (Löschung
        !           345:   von der Festplatte) der von der Digigruppe erstellten Daten sobald
        !           346:   sie nicht mehr direkt verwendet werden.
1.3       casties   347: \end{enumerate}
                    348: 
                    349: 
                    350: \subsection{Ablage bei den Projekten}
                    351: \label{sec:ablage-bei-den}
                    352: 
                    353: \begin{enumerate}
                    354: \item Die Digigruppe erstellt Roh- und User-Images auf lokalen Platten
                    355:   oder Bereichen für Bewegungsdaten.
                    356:   
                    357: \item Die Digigruppe kopiert Roh-Images und User-Images in einen
1.6     ! casties   358:   Dokumenten"=Ordner nach der Namenskonvention
        !           359:   (Abschnitt~\ref{sec:zweite-eben-dokum}), der sich in einem mit dem
        !           360:   Projekt abgesprochenen Bereich des Projektes befindet, z.B.
        !           361:   \url{archive/data/PROJEKT/literature}. Roh"=Images werden in einem
        !           362:   Unterordner \url{raw} abgelegt und User-Images in \url{img}.
1.3       casties   363: 
                    364: \item Die Digigruppe benachrichtigt das entsprechende Projekt über den
                    365:   Aufenthaltsort der Daten.
                    366: 
                    367: \item Das Projekt verwendet die User-Images und archiviert
                    368:   weiter verarbeitete Formen in seiner eigenen Projekt-Hierarchie.
                    369:   
1.6     ! casties   370: \item Das Projekt veranlasst die vollständige Archivierung und
        !           371:   Migration der Daten sobald sie nicht mehr direkt verwendet werden.
1.3       casties   372: \end{enumerate}
                    373: 
                    374: 
                    375: \subsection{Ablage der Online-Images}
                    376: \label{sec:ablage-der-online}
                    377: 
1.6     ! casties   378: Die Erstellung und Ablage der Online"=Images erfolgt je nach Absprache
1.3       casties   379: mit dem Projekt
1.6     ! casties   380: 
1.3       casties   381: \begin{itemize}
1.6     ! casties   382: \item als fertige Images in der Online"=Hierarchie der Bibliothek, wenn
1.3       casties   383:   es ein Auftrag durch ein Projekt ohne eigene Online-Präsenz ist
                    384:   
                    385: \item als fertige Images im Archivbereich bei den User-Images in einem
1.6     ! casties   386:   Ordner \url{jpg} zur Nutzung durch das Projekt in seinem
1.3       casties   387:   Online-Bereich
                    388: 
                    389: \item für Projekte, die selbst weiter verarbeitete Online-Images zur
                    390:   Verfügung stellen werden keine Online-Images erzeugt.
                    391: \end{itemize}
                    392: 
                    393: 
                    394: 
                    395: 
1.1       casties   396: \end{document}
                    397: 
                    398: 
                    399: 
                    400: %%% Local Variables: 
                    401: %%% mode: latex
                    402: %%% TeX-master: t
                    403: %%% End: 
                    404: 

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>