Context Navigation

Changes between Version 22 and Version 23 of normalization/5

Timestamp:: Jan 17, 2011, 10:10:11 AM (14 years ago)
Author:: Wolfgang Schmidle
Comment:: --

Legend:

: Unmodified
: Added
: Removed
: Modified

normalization/5

-                      v22
+                      v23
 [[PageOutline(1-4,,pullout)]]
+== 5. Wie soll regularisiert werden? ==
+[wiki:normalization Regularisierung und Normalisierung],
+I: [wiki:normalization/1 1] [wiki:normalization/2 2] [wiki:normalization/3 3], II: [wiki:normalization/4 4] [wiki:normalization/5 5] [wiki:normalization/6 6] [wiki:normalization/7 7]
+= 5. Wie soll regularisiert werden? =
 Die Regularisierung eines Textes mit Hilfe von <reg> ist wohlbekannt. Schon vor Beginn des MPDL-Projektes wurde das <expan> aus dem Archimedes-Projekt in <reg> umbenannt, und vor einem halben Jahr wurde die Struktur von <reg> umgestellt:
 …
 Beispiele für Regularisierungen sind in [wiki:normalization/4 dieser Tabelle] zu sehen.
 === Ziele ===
+== Ziele ==
 Durch die Regularisierung soll im Idealfall eine Textgestalt geschaffen werden, die zusammen mit der Normalisierung einer klassischen Text-Edition entspricht.
 …
 === Das faithful-Attribut ===
+== Das faithful-Attribut ==
 Das faithful-Attribut nimmt Informationen aus dem Rohtext auf, die wir zurzeit noch nicht richtig darstellen können und die die Suche brechen. (Ein anderer möglicher Name wäre "facsimile".)
 …
 Das type-Attribut in <reg> wird sich wohl weiterhin nur auf den Inhalt des norm-Attributs beziehen. Es wird sowieso nicht vom Anzeigesystem ausgewertet und soll nur menschenlesbar erklären, wie es zu einer bestimmten Regularisierung gekommen ist.
 === Zusammenhang mit den Anzeigemodi ===
+== Zusammenhang mit den Anzeigemodi ==
 Bei den Anzeigemodi ist "faithful" als eine Checkbox von Original realisiert.
 …
 === Die Grenze zwischen orig und faithful ===
+== Die Grenze zwischen orig und faithful ==
 In diesem Abschnitt geht es um die Frage, wo die Grenze zwischen Original und faithful gezogen wird.
 …
 Gruppen 4 und 5 gehören zu faithful; für diesen Gruppen ist faithful ja eingeführt worden. Entscheidend ist, dass wir ein Zeichen in der Vorlage nicht durch mehrere Zeichen in Original wiedergeben wollen. Zum Beispiel können wir IDS-Sequenzen, die naturgemäß aus mehreren offiziellen Unicode-Zeichen bestehen, zurzeit noch nicht richtig (d.h. als ein einzelnes Schriftzeichen) darstellen. Eine nicht umgewandelte IDS-Sequenz würde also die Textvorlage nur indirekt wiedergeben. Um diese Gruppen korrekt anzuzeigen, muss man also auf der Server-Seite Programmieraufwand betreiben.
 === Die PUA ===
+== Die PUA ==
 Wir würden gerne einfach alle PUA-Zeichen zum Beispiel der MUFI verwenden, aber unsere Texte müssen in einem Web-basierten System anzeigbar sein. Die Anzeigeprobleme für die vorliegende Wiki-Seite auf dem Bildschirm und auf Papier sind bereits ein Hinweis für die Schwierigkeiten des Themas. Klar ist:
 …
 Dass im zweiten Fall im faithful-Attribut unterschiedliche Dinge stehen, ist unbefriedigend, aber vielleicht nicht zu ändern. (Man könnte den Unterschied eventuell kleiner machen, indem man "ſenatori́" durch "ſenatori{q3-a}" ersetzt. Für {q3-a} könnte dann im System statt einem Bild das PUA-Zeichen ́ hinterlegt sein.) Der Unterschied im ersten Fall ist allerdings noch viel unbefriedigender als der zweite Fall. Das wäre also ein Argument gegen PUA-Zeichen in Original.
 === Abkürzungen ===
+== Abkürzungen ==
 Abkürzungszeichen wie ꝙ oder ũ werden regularisiert, denn sie sind tatsächlich als Abkürzungen gedacht, wo der Setzer nicht genug Platz hatte. Zeichen wie ę sind dagegen wohl keine Abkürzungszeichen in diesem Sinne, sondern eine bestimmte Weise, den ehemaligen Diphthong ae zu verschriftlichen (zu ę siehe auch [wiki:e-caudata hier]).
 …
 Die Lösung wie im Benedetti hätte jedenfalls den Vorteil, dass die Abkürzungen in der Textanzeige optisch erkennbar sind, weil alle <reg> optisch erkennbar sind. Und es wäre klar, was man im Wörterbuch suchen muss (unabhängig davon, ob es dann auch einen Wörterbucheintrag gibt).
 === Automatische Fehlerkorrektur ===
+== Automatische Fehlerkorrektur ==
 In [wiki:normalization/4 dieser Tabelle] geht es um korrekt transkribierte Formen, d.h. die Transkription gibt wieder, was im Original steht. Dies wird natürlich nicht immer der Fall sein. Es steht daher an, die Textqualität automatisiert zu verbessern.
 …
 Lesehilfe-Diakritika können wir möglicherweise zur Wortgrenzenerkennung verwenden, zum Beispiel beim fehlenden Leerzeichen in "ferècæteri" (Benedetti p.7).
 === Standard-Regularisierungen in allen Sprachen ===
+== Standard-Regularisierungen in allen Sprachen ==
 * Fehler-Korrekturen
 * Abkürzungszeichen auflösen
 === Latein ===
+== Latein ==
  * reſiduũ wird zu reſiduum
 …
  * alle medievalist characters (Standard-Unicode und PUA-Zeichen) werden regularisiert
 === Deutsch ===
+== Deutsch ==
 Die Vorgehensweise in deutschen Texten ist noch unklar. Bei einem modernen Text werden wohl nur echte Fehler regularisiert.
 …
 (Sollten wir in Zukunft die Information uͤ versus ü markieren lassen? In Cardano kommt beides vor, offenbar ohne Bedeutungsunterschied. Und das alternative r? Eher vergleichbar mit ſ oder mit letter variation ϐ? Immerhin ist das alternative r in Unicode: ꝛ (A75B). Wenn sich der Benutzer den Text mit einem Fraktur-Font anzeigen lässt, wäre es sicher netter, wenn das alternative r richtig dargestellt wird. Aber gibt es überhaupt Fraktur-Fonts, die ausreichend kompatibel mit Unicode sind? Zwangsligaturen wie ch, ck, tz lassen wir auch nicht markieren und überlassen es einem eventuellen Fraktur-Font, sie korrekt darzustellen.)
 === Chinesisch ===
+== Chinesisch ==
 In Unicode enthaltene Zeichenvarianten auf ihr Standardzeichen zurückzuführen ist Aufgabe der Normalisierung.
 …
 Wir haben bisher noch keinen Font für ''Extension C'' und ''Extension D''. Diese Extensions sind viel kleiner als Extension B, und unsere Texte enthalten bisher keine Zeichen aus Extension C oder D. Wir werden mit dem Problem umgehen, wenn es auftritt.
 === Griechisch ===
+== Griechisch ==
 Bei der Aufarbeitung von griechischem Text stehen wir noch am Anfang. Übliche Fehler in der Vorlage sind: