5 | | Die Regularisierung eines Textes mit Hilfe von <reg> ist wohlbekannt. Seit Archimedes wurde insbesondere die Struktur von <reg> umgestellt von `<reg orig="Original">Korrektur</reg>` zu `<reg norm="Korrektur">Original</reg>`, also zu <reg> als einer Annotation des Originaltextes. |
6 | | |
7 | | Neu ist eine weitere Funktion von <reg>: Wenn wir im Rohtext Informationen haben, die wir nicht darstellen können, kommen diese in ein neues Attribut namens "faithful". Beispiele sind griechische Ligaturen und chinesische Zeichenvarianten, die nicht in Unicode sind. Die Idee, solche Zeichenvarianten in ein Attribut von <reg> zu schieben, stammt von Robert. |
8 | | |
9 | | Viele Beispiele für Regularisierungen sind in [wiki:normalization/4#Beispiele dieser] Tabelle zu sehen. |
10 | | |
11 | | === Grundgedanken === |
12 | | |
13 | | Ziele: |
14 | | * Wissen über den einzelnen Text und einzelne Textstellen muss in <reg> |
| 5 | Die Regularisierung eines Textes mit Hilfe von <reg> ist wohlbekannt. Seit dem Archimedes-Projekt wurde insbesondere die Struktur von <reg> umgestellt von [[BR]] `<reg orig="Original">Korrektur</reg>` zu [[BR]] `<reg norm="Korrektur">Original</reg>`, [[BR]] also zu <reg> als einer Annotation des Originaltextes. |
| 6 | |
| 7 | Neu ist eine weitere Funktion von <reg>: Wenn wir im Rohtext Informationen haben, die wir nicht darstellen können, kommen diese in ein neues Attribut namens "faithful". Beispiele sind griechische Ligaturen und chinesische Zeichenvarianten, die nicht in Unicode sind. (Die Idee, solche Zeichenvarianten in ein Attribut von <reg> zu schieben, stammt von Robert.) |
| 8 | |
| 9 | Beispiele für Regularisierungen sind in [wiki:normalization/overview dieser Tabelle] zu sehen. |
| 10 | |
| 11 | === Ziele bei der Regulierung === |
| 12 | |
| 13 | * Wissen über den einzelnen Text und einzelne Textstellen muss in <reg> und nicht in die Normalisierung. |
28 | | Das faithful-Attribut nimmt, wie gesagt, Informationen aus dem Rohtext auf, die wir zurzeit noch nicht richtig darstellen können. Es gibt keine Verpflichtung, in <reg> ein faithful-Attribut anzugeben. (Wenn es kein faithful-Attribut gibt, muss es aber, wie bisher auch, das norm-Attribut geben.) In vielen Texten wird es auch keine Notwendigkeit geben, es zu verwenden. Aber häufig enthalten unsere Rohtexte Informationen, die wir nicht sinnvoll in Unicode kodieren können. Zum Beispiel enthält Pappus 1660 aus Work Order 1 diverse griechische Ligaturen und Abbreviaturen, also Formen wie {πρ}ός (im Text steht meistens die Form {πρ}ὸς). Wir können es zurzeit nicht leisten, die Transkription des griechischen Textes auf Korrektheit zu überprüfen, deshalb verschieben wir die hier erkannte πρ-Ligatur in das faithful-Attribut: |
29 | | |
30 | | <reg faithful="{πρ}ός">πρός</reg> |
31 | | |
32 | | Wahrscheinlich werden wir in absehbarer Zukunft keinen Mechanismus für {πρ} anbieten, so dass im faithful-Modus einfach {πρ}ός angezeigt wird. Die Textdarstellung funktioniert auch ohne einen geeigneten Mechanismus, und der Mechanismus kann jederzeit nachgeliefert werden. |
| 27 | Das faithful-Attribut nimmt Informationen aus dem Rohtext auf, die wir zurzeit noch nicht richtig darstellen können und die die Suche brechen. |
| 28 | |
| 29 | Das faithful-Attribut muss nicht verwendet werden, insbesondere bei Texten, die nicht in China abgetippt wurden. Wenn es kein faithful-Attribut gibt, muss es aber, wie bisher auch, das norm-Attribut geben. |
| 30 | |
| 31 | In vielen Texten wird es tatsächlich keine Notwendigkeit geben, es zu verwenden. Aber häufig enthalten unsere Rohtexte Informationen, die wir nicht sinnvoll in Unicode kodieren können. Zum Beispiel enthält Pappus 1660 aus Work Order 1 diverse griechische Ligaturen und Abbreviaturen, also Formen wie {πρ}ός (im Text steht meistens die Form {πρ}ὸς). Wir können es zurzeit nicht leisten, die Transkription des griechischen Textes auf Korrektheit zu überprüfen, deshalb verschieben wir die hier erkannte πρ-Ligatur in das faithful-Attribut: |
| 32 | |
| 33 | <reg faithful="{πρ}ός">πρός</reg> |
36 | | Umgekehrt kann ein Forscher auch beschließen, dass die {πρ}-Ligatur in diesem Text nicht markierenswert ist. Diese Entscheidung muss nicht für weitere Texte gelten, denn sie hängt vom im Buch verwendeten Font ab. (Vermutlich gibt es aber eine Liste von Ligaturen, die in allen Fonts trivial sind.) Dann kann er alle {πρ} durch das simplere πρ ersetzen, also zum Beispiel {πρ}ός durch πρός. |
37 | | |
38 | | Es wird ein Workflow-Skript geben, das dabei hilft, `<reg faithful="{πρ}ός">πρός</reg>` durch πρός zu ersetzen. Beachte dabei insbesondere den Fall, dass in einem Wort wie {πα}ρε{σκ}{ευ}ασ{μέν}η die ersten beiden Ligaturen einfach sind, die anderen Ligaturen jedoch nicht. Dieses Skript wird auch helfen, beispielsweise `<reg norm="exem" type="context">exẽ</reg> <lb/>plo` durch `<reg norm="exem- plo" type="context">exẽ-<lb/>plo</reg>` zu ersetzen (eigentlich mit soft hyphen). |
| 37 | Umgekehrt kann ein Forscher auch beschließen, dass die {πρ}-Ligatur in diesem Text nicht markierenswert ist. Diese Entscheidung muss nicht für weitere Texte gelten, denn sie hängt vom im Buch verwendeten Font ab. (Vermutlich gibt es aber eine Liste von Ligaturen, die in allen Fonts trivial sind.) Dann kann er alle {πρ} durch das simplere πρ ersetzen, also zum Beispiel {πρ}ός durch πρός. |
| 38 | |
| 39 | Es wird ein Workflow-Skript geben, das dabei hilft, `<reg faithful="{πρ}ός">πρός</reg>` durch πρός zu ersetzen. Beachte dabei insbesondere den Fall, dass in einem Wort wie {πα}ρε{σκ}{ευ}ασ{μέν}η die ersten beiden Ligaturen {πα} und {σκ} recht einfach sind, die Ligaturen {ευ und {μέν} jedoch nicht. Dieses Skript wird auch helfen, beispielsweise [[BR]] `<reg norm="exem" type="context">exẽ</reg> <lb/>plo` durch [[BR]] `<reg norm="exem- plo" type="context">exẽ-<lb/>plo</reg>` [[BR]] zu ersetzen (eigentlich mit soft hyphen). |
60 | | In diesem Abschnitt geht es um die Frage, wo die Grenze zwischen orig und faithful gezogen wird. |
61 | | |
62 | | Fälle, die entweder in orig oder in faithful gehören: |
63 | | 1. Unicode-Zeichen: Kernbereich (zum Beispiel "a") |
64 | | 1. Unicode-Zeichen: alle offiziellen Codepoints, die direkt einem Zeichen oder einem Diakritikum im Text entsprechen (zum Beispiel "ꝫ", combining characters, alchemistische Zeichen) |
| 63 | In diesem Abschnitt geht es um die Frage, wo die Grenze zwischen Original und faithful gezogen wird. |
| 64 | |
| 65 | Gruppen, die entweder in orig oder in faithful gehören: |
| 66 | 1. Unicode-Zeichen: Kernbereich, d.h. alle Zeichen, die auf heutigen Computern problemlos angezeigt werden können (zum Beispiel "a") |
| 67 | 1. Unicode-Zeichen: alle offiziellen Codepoints, die direkt einem Zeichen oder einem Diakritikum im Text entsprechen; zum Beispiel |
| 68 | * Zeichen aus Spezialgebieten, wie der medievalist character "ꝫ", für den man einen [http://www.mufi.info/ MUFI]-kompatiblen Font benötigt |
| 69 | * combining characters, die generell ein Problem sind |
| 70 | * offizielle Zeichen, für die wir selbst noch keinen Font haben, wie die Alchemie-Zeichen (nur in diesem Fall würden wir nicht den Codepoint selbst, sondern eine escape sequence wie `&x1F700;` verwenden) |
69 | | Voraussetzung: Zu orig sollen mindestens Gruppe 1 und 2 gehören. Also zum Beispiel Zeichen aus dem Kernbereich wie "a", Zeichen aus Spezialgebieten wie der medievalist character "ꝫ", und offizielle Zeichen, für die wir selbst noch keinen Font haben, wie die Alchemie-Zeichen (nur in diesem Fall würden wir eine escape sequence wie `&x1F700;` verwenden). Ein Kernbereich von Unicode-Zeichen ist sowieso nicht klar definierbar. |
70 | | |
71 | | Mögliche Kriterien, um zu entscheiden, ob die anderen Gruppen in orig oder in faithful kommen, sind: |
| 75 | Voraussetzung: Zu orig sollen mindestens Gruppe 1 und 2 gehören. Ein Kernbereich von Unicode-Zeichen ist sowieso nicht klar definierbar. |
| 76 | |
| 77 | Mögliche Kriterien, um zu entscheiden, ob die anderen Gruppen in Original oder in faithful kommen, sind: |