Changes between Version 39 and Version 40 of workflow


Ignore:
Timestamp:
May 31, 2010, 12:07:29 PM (14 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • workflow

    v39 v40  
    154154Bei Dateinamen wie `zzzz.jpg` und `.DS_Store` im `pageimg`-Block bricht das Skript mit einer Fehlermeldung ab.
    155155
    156 Wenn es <pb> im Text fehlt, ist es manchmal sehr zeitraubend herauszufinden, wo genau es fehlt. Für diesen Schritt gibt es daher ein Helfer-Skript `compare_pb_with_images.pl`, das von jeder Seite die ersten Zeilen anzeigt und den offset zwischen der Nummer im JPG-Dateinamen und der Seitenzahl im Buch berechnet. Wenn der offset längere Zeit kostant bleibt und sich dann ändert, deutet das darauf hin, dass an dieser Stelle im Text ein <pb> fehlt. (Eine andere mögliche Ursache ist eine fehlerhafte Paginierung im Buch.)
     156Wenn ein <pb> im Text fehlt, ist es manchmal sehr zeitraubend herauszufinden, wo genau es fehlt. Für diesen Schritt gibt es daher ein Helfer-Skript `compare_pb_with_images.pl`, das von jeder Seite die ersten Zeilen anzeigt und den offset zwischen der Nummer im JPG-Dateinamen und der Seitenzahl im Buch berechnet. Wenn der offset längere Zeit kostant bleibt und sich dann ändert, deutet das darauf hin, dass an dieser Stelle im Text ein <pb> fehlt. (Eine andere mögliche Ursache ist eine fehlerhafte Paginierung im Buch.)
    157157
    158158
     
    611611
    612612Wir erwarten, bald auch reinen Text ohne tags sowie Word-Texte in einem automatischen workflow in schemakonforme XML-Dokumente umwandeln zu können. Es muss sich noch zeigen, ob es praktischer ist, den Workflow anzupassen oder die unmarkierten Texte erst in ein DESpecs-konformes Zwischenformat zu bringen. Wenn Zwischenformet: Nützt es etwas, die doc-Datei als "Office Open XML"-Text abspeichern, oder ist es einfacher, ihn anders zu bearbeiten?
    613 
    614 
    615