Changes between Version 1 and Version 2 of workflow


Ignore:
Timestamp:
Jun 25, 2010, 2:12:38 PM (14 years ago)
Author:
dwinter
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • workflow

    v1 v2  
    1      *  In erstem ersten Schritt werden alle gescannte Texte auf der Foxridge  OCRed. Dabei wird die Sprache des jeweiligen OCR entweder aus den Index.meta files des Dokumentes entnommen, aus einem
    2 Datenfile ausgelesen oder es wird ein OCR über alle vorgegebenen Sprachen durchgeführt. OCRopus speichter hierbei immer im XML des gescannte Textes die Koordinaten der Bounding Box.
     1     *  In [wiki:ocr_tool erstem ersten Schritt] werden alle gescannte Texte auf der Foxridge  OCRed. Dabei wird die Sprache des jeweiligen OCR entweder aus den Index.meta files des Dokumentes entnommen, aus einem
     2Datenfile ausgelesen oder es wird ein OCR über alle vorgegebenen Sprachen durchgeführt. OCRopus speichter hierbei immer im [wiki:ocrxml-format XML des gescannte Textes] die Koordinaten der Bounding Box.
    33
    4     *  Im nächsten Schritt werden die gescannten Texte mit Lucene indiziert, dabei wird ein Index erstellt, in dem jeweils ein Dokument (d.h. alles Seiten eines Buches) als eine Einheit indiziert wird. Zusätzlich wird
     4    *  Im [wiki:harvester nächsten Schritt] werden die gescannten Texte mit Lucene indiziert, dabei wird ein Index erstellt, in dem jeweils ein Dokument (d.h. alles Seiten eines Buches) als eine Einheit indiziert wird. Zusätzlich wird
    55ein index erstellt, der alle Zeilen als jeweils eine Einheit idenifiziert. Welche Dokumente Indiziert werden, kann entweder über eine RDF-File oder über die  Angabe des Trees gesteuert werden. Optional werden jeweils noch Metadaten zu den
    66Dokumenten mit indiziert.
    77
    8    * Über eine Frontend kann dann in den entsprechenden Indizes gesucht werden. Zunächst sollen hierbei die Dokumente gesucht, dann die Zeilen gefunden werden. Da OCRopus jeweils die Box auf dem gescannten Image angibt,
    9 in dem der Text steht, kann mit Digiglib der Anfang der enstsprechenden Box makiert werden.
     8   * Über [wiki:zope_frontend ein Frontend] kann dann in den entsprechenden Indizes gesucht werden. Zunächst sollen hierbei die Dokumente gesucht, dann die Zeilen gefunden werden. Da OCRopus jeweils die Box auf dem gescannten Image angibt,
     9in dem der Text steht, kann mit Digiglib der Anfang der enstsprechenden Box makiert werden.  Die Suche selbst wird mittels eines [wiki:java_Server Suchservices] durchgeführt, die Kommunikation zwischen Frontend und Suchservice soll mittels REST erfolgen.
    1010