Opened 9 years ago

Last modified 8 years ago

#64 new defect

Betacode: some End-Sigma have been converted to Mid-Sigma

Reported by: wschmidle Owned by: jwillenborg
Priority: major Milestone: 1.1
Component: language-technology Version:
Keywords: Greek Cc:
Parent Tickets: #137, #157, #230, #241

Description (last modified by wschmidle)

Bei der Umwandlung von Betacode nach Unicode in den Archimedes-Texten wurde das Betacode-Sigma am Wortende manchmal nicht in ein Schluss-Sigma umgewandelt.

Beispiel Baif 1537: Betacode (suche nach "100.jpg") und Unicode:

Die meisten Schluss-Sigma wurden korrekt umgewandelt. Ausnahmen:

  • Zeile 6: "πλείουσ.</foreign>" und "σκευοφὸρεσ</foreign>": immer noch das Problem mit dem Schluss-Sigma vor einem XML-tag
  • πλῆθος: im Text richtig, aber falsches Schluss-Sigma im Pollux-link
    http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lex.xql?language=grc&query=πλῆθοσ
  • in diesem Wörterbucheintrag im Liddell-Scott-Jones ebenfalls an solchen Stellen falsches Schluss-Sigma, zum Beispiel beim Lemma-Grundwort selbst

Subtickets (add)

Change History (18)

comment:1 Changed 9 years ago by wschmidle

  • Owner set to jwillenborg

comment:2 Changed 9 years ago by jwillenborg

  • Zeile 6: "πλείουσ.</foreign>" und "σκευοφὸρεσ</foreign>": immer noch das Problem mit dem

Schluss-Sigma vor einem XML-tag

Problem erkannt: die Umwandlung des Schluss-Sigma ς direkt vor einem Tag ist fehlerhaft. Wenn ein Satzendezeichen davor ist, geht es korrekt.

--> in der Routine schauen und falls möglich beheben und alle griechischen Archimedes-Texte neu erzeugen

Schluss-Sigma, zum Beispiel beim Lemma-Grundwort selbst

Die Normalisierungsfunktion ersetzt im Griechischen ein kleines Schluss-Sigma (ς) durch ein normales kleines Sigma (σ). Dadurch werden die Links von den Wörtern zu den Pollux-Wörterbüchern erstmal korrekt erkannt, da in den Pollux-Wörterbüchern die Worte, die am Ende eine kleines Sigma haben, dort (fehlerhaft ?) mit einem normalen kleinen Sigma kodiert sind.

--> in der Routine für die Betacode-Pollux-Wörterbücher schauen, wie die Einträge für das kleine Sigma erzeugt werden und falls möglich beheben und alle griechischen Pollux-Wörterbücher neu erzeugen

Insgesamt: --> ist alles eher aufwändig und bringt nicht den riesigen Effekt (sehr spez. Problem). Verschieben, bis mehr Zeit vorhanden ist

comment:3 Changed 9 years ago by wschmidle

Ich halte das keineswegs für ein sehr spezielles Problem. Solange dieses Problem nicht gelöst ist, kann man griechischen Texte nicht in unserem System vorführen. Siehe auch den Eintrag für πλῆθος (betacode: plh=qos) im LSL in Perseus hier (man muss noch auf LSJ klicken).

Last edited 9 years ago by wschmidle (previous) (diff)

comment:4 Changed 9 years ago by wschmidle

Siehe jetzt auch hier.

comment:5 Changed 8 years ago by wschmidle

  • Keywords Greek added

comment:6 Changed 8 years ago by wschmidle

  • Milestone set to 1.0

Im Meeting besprochen: Ich werde einen Archimedes-Text korrigieren und einchecken, dann testen wir, ob die Morphologie noch funktioniert. Falls es ein Problem gibt, muss es von 1.0 auf 1.1 verschoben werden.

Last edited 8 years ago by wschmidle (previous) (diff)

comment:7 Changed 8 years ago by wschmidle

Die Sigmas in Baif 1537 sind jetzt vor </foreign> umgewandelt. Details siehe hier.

Bei der Morphologie kein Unterschied:

  • vorher πλείουσ, nachher πλείους: hat weiterhin den link πλείουσ
  • vorher σκευοφὸρεσ, nachehr σκευοφὸρες: weiterhin ohne link

comment:8 Changed 8 years ago by jwillenborg

  • Milestone changed from 1.0 to 1.1

Überprüfung des Aufwands:

  1. Morphologie:

a) Perseus-/donatusSupplements-/donatusAdditonalSupplements-XML-Dateien modifizieren (Ersetzen der Sigmas am Wortende durch ein EndSigma? --> done b) alle XML-Dateien aller Sprachen neu in die leere Donatus-BerkelyDB einlesen --> ToDo?

  1. Pollux

a) autenrieth.xml + lsj.xml modifizieren: Ersetzen der Sigmas am Wortende durch ein EndSigma? --> ToDo? b) neue Einlesemethode für alle Pullux-XML-Dateien entwickeln. Anschliessend alle XML-Dateien aller Sprachen neu in die leere Pollux-BerkelyDB einlesen --> ToDo?

  1. Neuindexierung aller Dokumente --> ToDo?

Dies alles ist aufwendig und heikel (alle Donatus und Pollux-Daten müssen neu geschrieben werden). Durch die Normalisierungsfunktion, die oft einen korrekten Link auf die Pollux erzeugt, ist dieser Punkt auch weniger dringend. Auch alle Texte wurden ja bereits korrigiert.

Deshalb wird wie im Meeting besprochen dieser Punkt deshalb auf Version 1.1 verschoben.

comment:9 Changed 8 years ago by wschmidle

Siehe auch #158 und #160.

comment:10 Changed 8 years ago by wschmidle

  • Parent Tickets set to 157

comment:11 Changed 8 years ago by wschmidle

Alle Sigmas in den Archimedes-Texten sind umgewandelt, siehe hier.

comment:12 Changed 8 years ago by wschmidle

  • Parent Tickets changed from 157 to 157, 167

comment:13 Changed 8 years ago by wschmidle

  • Parent Tickets changed from 157, 167 to 137, 157, 167

comment:14 Changed 8 years ago by wschmidle

  • Parent Tickets changed from 137, 157, 167 to 137, 157, 167, 230

comment:15 Changed 8 years ago by wschmidle

  • Description modified (diff)

comment:16 Changed 8 years ago by wschmidle

Meeting 2011-08-09: Die Archimedes-Texte habe ich korrigiert. Die Wörterbücher können wohl auf ähnliche Weise korrigiert werden, müssen also nicht aus dem Betacode vollständig neu erzeugt werden. Das kann ich aber nicht machen, denn die Wörterbücher sind nicht als XML-Texte im Repository.

comment:17 Changed 8 years ago by wschmidle

Siehe #238.

comment:18 Changed 8 years ago by wschmidle

  • Parent Tickets changed from 137, 157, 167, 230 to 137, 157, 230, 241
Note: See TracTickets for help on using tickets.