Changes between Version 24 and Version 25 of workflow


Ignore:
Timestamp:
May 25, 2010, 4:24:01 PM (15 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • workflow

    v24 v25  
    101101Das Skript [source:trunk/schema/scripts/workflow/Filter_2_01_additional_metadata.pl Filter_2_01_additional_metadata] bearbeitet die in Schritt 1.02 aus {{{index.meta}}} in den {{{metadata}}}-Block kopierten Metadaten.
    102102
    103 Für die Metadaten eine Kurzschreibweise, die nicht XML ist. Vielleicht ersetze ich diese Kurzschreibweise aber auch wieder durch korrektes XML, sodass die Metadaten in Schritt 3.05 nur noch an die richtige Stelle kopiert werden müssen. Das XML aus index.meta muss allerdings auf alle Fälle an das Schema angepasst werden.
     103Für die Metadaten wird eine Kurzschreibweise verwnedet, die nicht XML ist. Vielleicht ersetze ich diese Kurzschreibweise aber auch wieder durch korrektes XML, sodass die Metadaten in Schritt 3.05 nur noch an die richtige Stelle kopiert werden müssen. Das XML aus index.meta muss allerdings auf alle Fälle an das Schema angepasst werden.
    104104
    105105Bei Personen wird, falls bekannt, die GND eingefügt. Beispiel:
     
    150150Soweit wie möglich sollten die Korrekturen im {{{replacements}}}-Block am Anfang des Textes stehen. Der {{{replacements:}}}-Block wird in Schritt 3.02 aufgelöst. Einzelfälle können aber auch direkt im Text korrigiert werden. Beispiel: Ein einzelnes {{{Hinɔ}}} wird zu {{{Hinc}}}.
    151151
    152 Eventuell wird das Skript noch von einer Blacklist von Unicode-Blöcken auf eine Whitelist umgestellt.
     152Eventuell wird das Skript noch von einer Blacklist der verbotenenen Unicode-Blöcke auf eine Whitelist der erlaubten Unicode-Blöcke umgestellt.
    153153
    154154
     
    160160unknown:
    161161<002> ꝑ
     162<006> ℞ (prescription take), ℟ (response), or ꝶ (rum)
    162163}}}
    163164wird zu
     
    165166unknown:
    166167<002> ꝑ (p.28: ok)
     168<006> ℞ (used as a variable name)
    167169}}}
    168170
     
    176178auf und prüft dann, ob danach noch folgende Zeichen im Text sind: { und \
    177179
    178 Man muss dann bei jeder Fundstelle entscheiden, ob diese geschweiften Klammern etc. legitimerweise noch im Text sind oder ob das Skript in Schritt 3.01 nicht korrekt arbeitet. Beispiel: Im Text wird die idiosynkratische Notation {ta} für eine Ligatur in kursiver Schrift verwendet.
     180Man muss dann bei jeder Fundstelle entscheiden, ob diese geschweiften Klammern etc. legitimerweise noch im Text sind oder ob das Skript in Schritt 3.01 nicht korrekt arbeitet. Beispiel: Im Text wird die idiosynkratische Notation {ta} für eine Ligatur in kursiver Schrift verwendet:
    179181{{{
    180182replacements:
     
    196198Das Skript
    197199[source:trunk/schema/scripts/workflow/Filter_2_07_check_tags.pl Filter_2_07_check_tags]
    198 prüft ein paar Fälle, die nicht vorkommen sollten und auf Fehler bei der Transkription hindeuten. Der Sinn dieser Prüfung ist auch, dass sich die weiteren Skripte auf die Einhaltung dieser formalen Dinge verlassen können.
     200prüft ein paar Fälle, die nicht vorkommen sollten und auf Fehler bei der Transkription hindeuten. Der Sinn dieser Prüfung ist auch, dass sich die weiteren Skripte auf die Einhaltung dieser formalen Dinge verlassen können. Beispiele:
    199201
    200202  * {{{<h>}}}, {{{<mgl>}}}, {{{<mgr>}}} jeweils am Anfang einer Zeile
    201   * {{{</h>}}}, {{{</mgl>}}}, {{{</mgr>}}} jeweils am ende einer Zeile
     203  * {{{</h>}}}, {{{</mgl>}}}, {{{</mgr>}}} jeweils am Ende einer Zeile
    202204  * {{{<tb>}}}, {{{<fig>}}} auf eigener Zeile
    203   * bei {{{<pb>}}} ist nur noch {{{<rh>}}} erlaubt
     205  * bei {{{<pb>}}} ist nur noch {{{<rh>}}} in der gleichen Zeile erlaubt
    204206  * nicht-existente Elemente, wie z.B. in {{{<scG</sc>}}}, oder auch {{{<sup>9</sup>}}} statt {{{<^>9</^>}}} (aber siehe unten)
    205207  * verschachtelte {{{<p>}}} (vermutlich ein {{{<p>}}} zuviel), und entsprechend für {{{<h>}}} etc.
     
    249251(Schöner wäre es, wenn die entsprechende Zeichen durch Unicode-Mathematik-Zeichen angenähert werden könnten und die modernen Zeichen erst in der MathML-Formel verwendet werden. Leider gibt es diese Zeichen so nicht in Unicode. Der Umgang mit veralteter mathematischer Notation ist noch nicht vollständig geklärt. Alternative wäre wie bei Alchemie-Symbolen ein Bild; ist das bei Büchern mit vielen Formeln realistisch?)
    250252
    251 Zum Beispiel die Special Instructions für die Tabellen am Ende von Berzelius 1819 könnten dagegen mit einem Skript weiterverarbeitet werden.
     253Zum Beispiel die Special Instructions für die Tabellen am Ende von [wiki:WO4_Berzelius_1819 Berzelius 1819] würden dagegen eher mit einem Skript weiterverarbeitet werden.
    252254
    253255
     
    286288Anschließend wird der Text in Unicode-Normalform [http://unicode.org/reports/tr15/ NRC] gebracht.
    287289
    288 Das Skript soll nicht mitdenken, sondern einfach das, was die Chinesen getippt haben, so gut wie möglich mit Unicode-Mitteln ausdrücken:
     290Das Skript soll nicht mitdenken, sondern einfach die Schreibweisen der DESpecs in Unicode umsetzen:
    289291  * {{{\-}}} wird hier zu einem combining macron, weil es so im transkribierten Text steht. Später wird das in den meisten Fällen zu einer Tilde korrigiert, weil das Makron normalerweise eine falsche Transkription einer Tilde ist.
    290292  * Genauso ist {{{\,e}}} in den meisten Fällen in Wirklichkeit {{{ę}}}, wird aber hier zu {{{ȩ}}}.
     
    311313
    312314Das Skript [source:trunk/schema/scripts/workflow/Filter_3_06_make_tags_wellformed.pl Filter_3_06_make_tags_wellformed] macht die tags wohlgeformt:
    313   * reservierte Zeichen in XML: {{{&}}} wird zu {{{&amp;}}}. (Das Skript kann mehrere Male aufgerufen werden, es wird also aus {{{&amp;}}} nicht {{{&amp;amp;}}}.) Die verbotenen Zeichen < und > kommen normalerweise nicht vor, werden aber auch geändert.
     315  * reservierte Zeichen in XML: {{{&}}} wird zu {{{&amp;}}}. (Das Skript kann mehrere Male aufgerufen werden, es wird also aus {{{&amp;}}} nicht {{{&amp;amp;}}}.) Die verbotenen Zeichen < und > wurden bereits in Schritt 2.07 abgefangen.
    314316  * Attribute: {{{<... it>}}} wird zu {{{<... style="it">}}}, genauso für {{{fr}}}. Das Skript ignoriert tags, die bereits Attribute mit der gültigen Syntax {{{name="wert"}}} haben.
    315317  * ergänze „{{{/}}}“ in den ungeschlossenen Elementen wie {{{<pb>}}} und {{{<hd>}}}