Changes between Version 12 and Version 13 of normalization/5
- Timestamp:
- Dec 12, 2010, 10:26:51 PM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/5
v12 v13 27 27 === Das faithful-Attribut === 28 28 29 Das faithful-Attribut nimmt Informationen aus dem Rohtext auf, die wir zurzeit noch nicht richtig darstellen können und die die Suche brechen. 29 Das faithful-Attribut nimmt Informationen aus dem Rohtext auf, die wir zurzeit noch nicht richtig darstellen können und die die Suche brechen. (Ein anderer möglicher Name wäre "facsimile".) 30 30 31 31 Das faithful-Attribut muss nicht verwendet werden, insbesondere bei Texten, die nicht in China abgetippt wurden. Wenn es kein faithful-Attribut gibt, muss es aber, wie bisher auch, das norm-Attribut geben. … … 105 105 Ein weiteres Argument: Benedetti enthält einige medievalist characters, sie werden aber nicht mehr wie im Alvarus standardmäßig verwendet. Ein schwieriger Fall ist aber das kursive Wort $enatori\'{que} (Benedetti p.296). Das Zeichen {que} könnte wieder mit dem PUA-Zeichen wiedergegeben werden: 106 106 <reg norm="ſenatorique">ſenatorí</reg> 107 Aber wir haben keinen Font, der es dann auch in seiner kursiven Form anzeigen kann. Stattdessen müsste man schreiben: 107 Aber wir haben keinen Font, der es dann auch in seiner kursiven Form anzeigen kann. (Eine Anfrage an die MUFI-Liste ergibt: Es gibt einen kommerziellen Font, der dieses Zeichen enthält ([http://www.signographie.de/cms/front_content.php?idart=223 Andron Mega]). Dieser Font ist aber leider nicht frei, so dass wir ihn nicht in einem Web-basierten System verwenden können. Außerdem enthält die allerneueste Version von Junicode dieses Zeichen. Das Argument hängt aber nicht an diesem speziellen Zeichen, sondern es illustriert, was bei PUA-Zeichen passieren kann.) 108 109 Stattdessen müsste man schreiben: 108 110 <reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg> 109 111 {q3-it-a} wird dann entweder als Text wiedergegeben, oder es gibt eine Datei `q3-it-a` vom Typ jpg/gif/bmp, svg, etc. … … 127 129 === Abkürzungen === 128 130 129 Abkürzungszeichen wie ꝙ oder ũ werden regularisiert, denn sie sind tatsächlich als Abkürzungen gedacht, wo der Setzer nicht genug Platz hatte. Zeichen wie ę sind dagegen wohl keine Abkürzungszeichen in diesem Sinne, sondern eine bestimmte Weise, den ehemaligen Diphthong ae zu verschriftlichen .131 Abkürzungszeichen wie ꝙ oder ũ werden regularisiert, denn sie sind tatsächlich als Abkürzungen gedacht, wo der Setzer nicht genug Platz hatte. Zeichen wie ę sind dagegen wohl keine Abkürzungszeichen in diesem Sinne, sondern eine bestimmte Weise, den ehemaligen Diphthong ae zu verschriftlichen (zu ę siehe auch [wiki:e-caudata hier]). 130 132 131 133 Was ist mit Abkürzungen wie "&c."? Wird das zu "et cetera" oder nur zu "etc."? Im Benedetti steht zurzeit `<reg norm="&c." type="unresolved">&c.</reg>`. Die Idee davon ist unter anderem, dass jeder Punkt im Text, der nicht Satzendepunkt ist, sich rechtfertigen muss. Eine Art, das zu tun, ist, in einem tag wie <reg> zu verschwinden. Dieses Kriterium wird aber nur für sehr aufwändig nachbearbeitete Texte realistisch sein.