Changes between Initial Version and Version 1 of arborealAndSchemaTexts


Ignore:
Timestamp:
Jun 8, 2010, 3:13:26 PM (14 years ago)
Author:
wschmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • arborealAndSchemaTexts

    v1 v1  
     1= MPDL Schema Texts in Arboreal =
     2
     3[[PageOutline(2-4,,pullout)]]
     4
     5This page discusses issues with displaying [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-content/wiki/echo-schema schema-conformant] XML texts in Arboreal.
     6
     7== Requirements ==
     8
     9Man braucht die aktuelle docspecs-Version (ersetzt die alten docspecs). Und wenn man IDs, matching-files etc. erzeugen will, braucht man die aktuellen XSLT-Skripte (zusätzlich zu den alten XSLT-Skripten). Diese Versionen sind
     10[https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-content/browser/trunk/schema/arboreal hier].
     11
     12== Issues ==
     13
     14=== <reg> ===
     15Arboreal zeigt den Originaltext und nicht die regularisierte Version an, weil noch niemand Arboreal mitgeteilt hat, dass wir die Struktur von <reg> geändert haben.
     16
     17Auch Donatus hat ein Problem mit der neuen <reg>-Struktur. (Warum?)
     18
     19=== Anzeige-Modi in Arboreal ===
     20
     21Beispiel `<reg norm="prae" type="simple">prę</reg>`: Man möchte wahrscheinlich auch in Arboreal wählen können, ob man den Originaltext "prę" oder den regularisierten Text "prae" sieht. Die docspecs sehen aber keine Wahlmöglichkeiten vor. Man kann immerhin auf der echten Seite die XML-Anzeige an- und ausschalten, also zwischen Original "prę" und Original+Regularisierung "<reg norm="prae" type="simple">prę</reg>"
     22wählen.
     23
     24Was in den docspecs sofort ginge:
     25
     261. prę [prae]
     27{{{
     28<self>
     29        <element name="reg"/>
     30        <render-after> [<attribute name="norm"/>]</render-after>
     31</self>
     32}}}
     332. ''prę''
     34{{{
     35<self>
     36        <element name="reg"/>
     37        <style><italic/></style>
     38</self>
     39}}}
     403. ''prę'' [prae] (Kombination aus 1. und 2.)
     41{{{
     42<self>
     43        <element name="reg"/>
     44        <style><italic/></style>
     45        <render-after> [<attribute name="norm"/>]</render-after>
     46</self>
     47}}}
     484. prae
     49{{{
     50<self>
     51        <element name="s"/>
     52        <apply-filter rule="s/.+//"/>
     53        <render-after><attribute name="norm"/></render-after>
     54</self>
     55}}}
     56Version 4 funktioniert aber so nicht. Es ist unklar, wie die regex-engine vorgeht, denn manche regexes funktionieren und andere nicht:
     57`s/(\w+)/\u$1/g` funktioniert,
     58`s/(\w+)//g` funktioniert nicht.
     59`DocSpec.java` und `DocSpecManager.java` geben auf den ersten Blick auch keine Erklärung.
     60
     61(Und wie gesagt, man würde dann immer prae sehen und kann im Textanzeigemodus nicht auf prę umschalten.)
     62
     63
     64=== Textgestalt ===
     65Beim Anwenden des Skripts "Generate IDs (MPDL)" wurden die Zeilenumbrüche (U+000A) vor und nach <pb> und <anchor> durch spaces U+0020 ersetzt. Als Konsequenz ist jedes <s> auf einer Zeile, mit großen Abständen vor und nach <pb> und <anchor>. Das Skript sollte nicht ungefragt in die Textgestalt eingreifen.
     66
     67Ich kann das allerdings bei mir nicht nachvollziehen. Bei mir, mit der gleichen XML-Datei, der gleichen Arboreal-Version (5.21) und gleichen Skript-Version (hoffentlich) bleiben die Zeilenumbrüche erhalten. Woran kann es noch liegen? An der Java-Version??
     68
     69=== Text-Anzeige ===
     70Die internen links von der ursprünglichen Stelle eines Floats zum <div float>, in dem das Float jetzt ist, funktionieren in Arboreal noch nicht. Frage ist, was genau man eigentlich bei der Text-Anzeige haben möchte.
     71
     72Jedenfalls möchte man keine Text-Version speziell für Arboreal. Deshalb kann man kein XSLT-Skript verwenden, sondern muss das on the fly machen. Performance-Problem.
     73
     74Zum Beispiel werden Abbildungen auch nicht an ihrer Stelle im Text, sondern hinter dem Absatz angezeigt (im gleichen <div>). Das Bild hätte man zwar gern an der Originalstelle, aber den zum Bild gehörenden Text nicht.
     75
     76Arboreal fügt große Abstände ein, wenn zwei tags aufeinanderfolgen, also zum Beispiel bei
     77<var>.a.d.</var> <reg norm="æqualium" type="context">æqualiũ</reg>
     78Wo und warum passiert das? (Im XML sind diese Abstände nicht.)
     79
     80=== Feature Requests ===
     81
     82Zusätzlich zu den oben erwähnten Dingen (Umgang mit <reg>, insbesondere die Anzeige-Modi; unveränderte Textgestalt bei XSLT-Skripten; Anzeige der Figures; Abstände zwischen direkt aufeinanderfolgenden tags):
     83
     84Ersetze die docspecs durch CSS etc.
     85
     86Arboreal sollte die Dateiendungen selbst ergänzen können.
     87
     88Arboreal 5.21 ist offenbar nur PPC und nicht unversal. Stimmt das? Kann man das ändern?
     89
     90== Offline-Version eines XML-Dokuments ==
     91
     92Beispiel Benedetti: Die xlinks funktionieren nur online.
     93
     94Lege einen neuen Ordner an. Der Ordner darf keine Leerzeichen im Pfad haben. Kopiere folgende Dateien und Ordner in diesen Ordner:
     95
     96von foxridge:
     97  * online/permanent/library/163127KK/pageimg
     98  * online/permanent/library/163127KK/figures
     99
     100von unserem trac nach benedetti:
     101  * [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-content/export/2607/trunk/texts/Benedetti_1585/xml/Benedetti_1585_lokal.xml Benedetti_1585_lokal.xml]
     102  * [https://it-dev.mpiwg-berlin.mpg.de/tracs/mpdl-project-content/export/2608/trunk/texts/Benedetti_1585/xml/Benedetti_1585_reg_lokal.xml Benedetti_1585_reg_lokal.xml]
     103
     104Außerdem muss man ein Verzichnis `thumbs` anlegen, in dem JPG-Versionen der figures sind. Im Benedetti steht immer noch zum Beispiel `<image file="0014-01" xlink:href="figures/0014-01.tif"/>`. Der link auf die JPG-Version der figure im thumbs-Verzeichnis steht also nicht im Text, sondern den baut sich Arboreal selber?
     105
     106Die beiden Benedetti-Versionen unterscheiden sich nur dadurch, dass sie die alte bzw. die neue <reg>-Struktur verwenden. Unterschiede zur "normalen" Benedetti-Version:
     107  * `&URLbase;` ist als leerer String definiert, also: `<!ENTITY  URLbase "">` im DTD-Fragment
     108  * `(xlink:href="&URLbase;pageimg/\d{4})"` --> `\1.jpg"`
     109  * `(xlink:href="&URLbase;figures/\d{4}-\d{2})"` --> `\1.tif"`
     110
     111Entsprechend für Guidobaldo: Es gibt 275 <pb> und Seitenbilder, aber 248 <figure> und nur 247 zugehörige figures. Ein wahrscheinlicher Kandidat für diese Unstimmigkeit ist `<figure id="fig209" place="text" xlink:href=""/>` im Text.
     112  * `(xlink:href="[^"]+?)/` --> `\1.`
     113  * `(<pb[^>]+xlink:href=)"(\d{3}\.\d{2}\.\d{3}\.jpg"/>)` --> `\1"036-01-pageimg/\2`
     114  * `(<figure[^>]+xlink:href=)"(\d{3}\.\d{2}\.\d{3}\.\d{1}\.jpg"/>)` --> `\1"036-01-figures/\2`
     115
     116
     117== Etwas ganz anderes ==
     118Wie es ausschaut, haben wir (oder hatten zumindest früher) keine einheitlichen Standards für das Eingeben von Metadaten: Der englische Guidobaldo steht als Guidobaldo del Monte im Alphabet unter G und der lateinische Guidobaldo als Monte, Guidobaldo del unter M. Aber wer braucht schon alphabetische Sortierung im Zeitalter der Volltextsuche.