wiki:OCR_evaluation

Version 2 (modified by Klaus Thoden, 13 years ago) (diff)

--

The workflow is going to be adapted to allow the use of OCRed text as input. The OCR engine is going to be OCRopus.

Tutorial video and other videos

The documents of the previous workflows were assessed in terms of how well they might perform being OCRed.

  • Easy
  • Medium
    • Vitruvius 1511
    • Cataneo 1600
    • Aristoteles 1547 (Kursiv)
    • Archimedes 1565 (4E7V2WGH): viele Bilder
    • Cataneo 1572 (schlechter Druck)
    • Viviani 1659
    • Bianconi 1746
    • Zanotti 1752
    • Bion 1765 (Fraktur)
    • Vitruvius 1800 (klarer, aber leicht undeutlicher Druck, durchscheinende Seiten)
    • Gallaccini 1767 (kleine Schrift, aber recht deutlich)
    • Angeli 1668 (mit kursiv, aber sonst recht deutlich)
    • Trigault 1639
    • Bernoulli 1738
  • Hard
    • Vitruvius 1544
    • Vitruvius 1757 (Fraktur und Fraktur gemischt)
    • Zonca 1656 (schlechter Druck)
    • Bacon 1670 (mit kursiv, schlechter Druck)
    • Clavius 1606
    • Barrow 1674 (schlechter Druck, kursiv und Griechisch)
    • Gravesande 1721
    • Vitruvius 1618 (Thesaurus am Anfang mit Spalten)
    • Mersenne 1635 (Mikrofilm)
    • Aristoteles 1548 (enthält griechisch)
    • Vitruvius 1556? (extrem kleine Schrift)
    • Aristoteles 1585 (schlechtes Druckbild)
    • Specklin 1599 (schlechte Fraktur)
    • Biancani 1635 (sehr kleine Schrift)
    • Vitruvius 1567 (extrem kleine Schrift, kursiv und nicht kursiv gemischt)
    • Archimedes 1565 (kursiv und nicht kursiv gemischt)

Attachments (1)

Download all attachments as: .zip