wiki:TeamMeeting

Protokoll 2011-01-13

Snowball

Snowball wird verwendet, wenn es keine andere Möglichkeit gibt, die Grundform eines Wortes zu ermitteln. Die von Snowball erzeugten Grundformen sind unter Umständen keine echten Wortformen. Beispiele:

  • Poincare wird zu Poincar
  • bei einer vom Backend nicht erkannten Silbentrennung:
    • characte wird zu charact
    • ristisch bleibt ristisch

Poincar und charact erhalten dann vom backend eine Linkseite und ristisch nicht. Das Kriterium ist, dass Snowball eine Änderung gemacht hat. Die Snowball-Formen führen in diesen Fällen zu link-Seiten, wo kein link funktioniert. Es ist unklar, ob es Fälle gibt, wo Snowball eine sinnvolle Form liefert, die man nicht auf andere Weise bekommen kann.

Josef schlägt deshalb vor, Snowball auszuschalten, muss dafür aber noch mehr Tests machen.

Zeilenumbrüche

Bei neuen Texten wird die Bindestrich-Information am Ende einer Zeile verdoppelt, d.h. vor dem <lb/> ist entweder ein Bindestrich oder ein Leerzeichen, aber nicht beides:

  • Silbe / Silbe wird zu Silbe <lb/>Silbe
  • Silbe- / Silbe wird zu Silbe-<lb/>Silbe

Das Backend soll nun erkennen, ob hier ein getrenntes Wort oder zwei Wörter sind. Die Hauptinformation ist der Bindestrich, die Sekundärinformation ist das Leerzeichen.

Robert hatte in einem der letzten Meetings dafür plädiert, dass wir als Information trotzdem das Leerzeichen verwenden, damit wir den Fall unterscheiden können, dass ein Bindestrich am Ende einer Zeile keine Worttrennung signalisiert. Jochen ist dagegen, weil man diese Konvention nicht gut als explizite Regel für das XML angeben kann, weil whitespace schwer zu kontrollieren ist. Stattdessen muss man sie dem Benutzer getrennt mitteilen. Das ist insbesondere dann ein Problem, wenn der Text weitergereicht wird. Jochen plädiert also dafür, den Bindestrich als Signal zu nehmen und Bindestriche, die keine Worttrennung anzeigen, anders zu markieren, zum Beispiel mit einem XML-tag.

In Archimedes gibt es offenbar verschiedene Konventionen. Wolfgang wird das untersuchen. Vielleicht brauchen wir ein Metadatum, das die Verwendung der Bindestriche im Text beschreibt.

Texte hochladen

Texte hochladen belastet das System. Zwei Gründe:

  • Serverlast (PDF erstellen etc.)
  • eXist mag es nicht, wenn viele neue Versionen hochgeladen werden.

Wenn Texte hochzuladen ein Problem ist, muss sofort ein Testserver aufgesetzt werden.

Josef: Es ist zurzeit kein Problem, sondern nur ein Bitte, vor dem Hochladen zweimal zu überlegen, ob es nötig ist.

Team Meeting: Themen

[ab hier ist diese Wiki-Seite wahrscheinlich veraltet!]

  • draft des Fortführungsantrags?

Workflow

  • Simones Email 2010-07-12: Koordination mit ECHO

Die Ablage, Verwaltung und Publikation dieser Texte sollte für alle Institutsprojekte geklärt werden.

Für die alten Archimedes-Texte gab es ein CVS-System, das nun nicht mehr verwendet und schon gar nicht um neue Vollteste erweitert werden soll. Die Frage, wo und wie neue Volltexte ab sofort abgelegt werden und wie sie mit den Bilder im ECHO-Viewer gemeinsam präsentiert werden, bzw. was man dafür tun muss (Workflow, Dokumentation der Ablage-Bedingungen, z.B. Benennungen von Ordnern oder Files?), muß m. E. von der IT-Gruppe gelöst und bekanntgegeben werden.

Die Bibliothek und ich wären dann an dem Verfahren sehr interessiert. Ihr müsst bedenken, dass wir ein Verfahren brauchen, durch das auch xml-Texte auch anderer Projekte und Mitarbeiter, Texte, die nicht bei Formax abgeschrieben wurden und von euch geprüft wurden, ja zumindest vernünftig abgelegt sein sollten, außerdem ein Workflow und Viewer-System, dass auch von euch nicht behandelte Texte publizieren kann, zumindest so, dass man alle Schwierigkeiten sieht und besondere Probleme erörtern kann.

Wenn neue Volltexte erstellt werden, zu Quellen, bei denen vorher nur Bilder vorlagen (z.B. der Bendetti von 1585), und wir nicht offiziell die Workflows geklärt haben, weiß ich im Moment auch nicht, wie man sie im neuen Gewand publizieren soll.

  • Wenn zu einem Buch in Echo der Text in dieeXist-Datenback hochgeladen wird, wird er automatisch auch in Echo angezeigt.
  • Texte jetzt schon einsortieren, oder erst mit überarbeiteten Skripten erzeugte Versionen? --> 2010-07-08: so früh wie möglich verfügbar machen
  • Es gibt offenbar keinen zentralen Ort in Echo mehr, wo auf alle MPDL-Texte verwiesen wird. In Josefs System gibt es aber noch eine Liste.
  • Was passiert, wenn Benedetti_1585.xml in Benedetti_1585_163127KK.xml umbenannt wird? Ist das ein Problem?
  • Problem mit zero width space U+200B ?
  • zzzz.jpg: Gehört diese Seite zum Buch und sollte deshalb ein <pb> haben, oder nicht?
  • Normalisierung für Deutsch:
    • Beispiel George Adams original, normalisiert: ich werde Normalisierungsmodule schreiben, mit Unterscheidung von Anzeige und Version für Pollux.
    • In Lex? --> 2010-07-08: Ja, JFlex.
    • worinn, Elektricität: wo ansiedeln? Sprachspezifische Entscheidungen, je nach Standardisierbarkeit der Orthographie? Deutsch: 21. Jh. (Rechtschreibreform), 20. Jh (nach der Rechtschreibkonferenz), 19. Jh (bereits weitgehend standardisiert, aber zum Beispiel "Thier"?) 18. Jh. und früher: unterschiedliche Schreibweisen im gleichen Text. Zwischenschicht zwischen Regularisierung und Normalisierung?
    • Adams index.meta: "Versuch über die Elektrizität [Elektricität], worinn Theorie und ..."
  • Normalisierung für Englisch: Es kann nicht sinnvoll sein, "thou hast" zu "you have" zu machen, nicht einmal in der Version für Pollux. Was macht man statt dessen?
  • Status:
    • über 60 Texte
    • Verbesserungen der Workflow-Skripte sind in Arbeit
    • reg
    • Chinesisch

Frontend

  • chinesische Texte: Implementierung der links-rechts-Metapher (links-Pfeil geht von Seite 100 auf Seite 101, rechts-Pfeil von Seite 100 auf Seite 99) steht noch an
  • Pollux: Beispiel-Seite, dort klick auf (ex) ſuis:
    • Die Popup-Seite wird nicht in den Vordergrund gebracht, wenn sie im Hintergrund ist und man nochmal auf einen Wörterbuch-link klickt.

Backend

  • Pollux: Beispiel-Seite, dort klick auf (ex) ſuis:
    • Als erstes kommt "Suē, ēs, f., a town in Assyria", was sicher extrem selten das ist, was der Benutzer sucht (verschieben auf "linguistische Analyse", 2011 ?)
    • Der Eintrag ist nicht richtig formatiert.
  • Normalisierung:
    • normalisiert als default
    • normalisiert = original --> regularisiert --> normalisiert
    • Wieso werden in einem deutschen Text keine Pollux-links angezeigt? --> 2010-07-08: es gibt kein deutsches Wörterbuch
  • Numerierung der figures: Die Numerierung sollte nicht völlig durcheinandergeraten, wenn Verzierungen den Status als Figure verlieren (Beispiel)
  • Entschlackung der URLs beim Prototyp-Frontend: Zum Beispiel diese URL (unwichtig?)

Archimedes-Texte

  • Betacode-Umwandlung auch bei als Latein markierten Stellen:
    • Heron in Betacode (Archimedes-CVS): <foreign lang="la">Heronis <lb n="1t"/>Mechanicorum Fragmenta</foreign>
    • Heron in Unicode (im neuen SVN): <foreign lang="la">Heronis <lb n="1t"></lb>Mεξηανιξορυμ Fραγμεντα</foreign>

aber: getrenntes Archimedes-Meeting!

Text-Pipeline

  • chinesische Texte für Cathleen Päthe: SIs in Arbeit; Testseiten, Kostenvoranschläge
  • Pauls Text: Swineshead

erledigt

  • Stand bei <place> ? Josefs Teil ist fertig, Falks Teil ist fertig. Andreys Teil?
  • xmllint-Email 2.7.10: Ursache des Kodierungsproblems ist zwar nicht völlig geklärt, tritt aber im Normalfall nicht auf

Last modified 13 years ago Last modified on Jan 19, 2011, 1:12:06 PM