Changes between Version 12 and Version 13 of normalization/5


Ignore:
Timestamp:
Dec 12, 2010, 10:26:51 PM (13 years ago)
Author:
Wolfgang Schmidle
Comment:

--

Legend:

Unmodified
Added
Removed
Modified
  • normalization/5

    v12 v13  
    2727=== Das faithful-Attribut ===
    2828
    29 Das faithful-Attribut nimmt Informationen aus dem Rohtext auf, die wir zurzeit noch nicht richtig darstellen können und die die Suche brechen.
     29Das faithful-Attribut nimmt Informationen aus dem Rohtext auf, die wir zurzeit noch nicht richtig darstellen können und die die Suche brechen. (Ein anderer möglicher Name wäre "facsimile".)
    3030
    3131Das faithful-Attribut muss nicht verwendet werden, insbesondere bei Texten, die nicht in China abgetippt wurden. Wenn es kein faithful-Attribut gibt, muss es aber, wie bisher auch, das norm-Attribut geben.
     
    105105Ein weiteres Argument: Benedetti enthält einige medievalist characters, sie werden aber nicht mehr wie im Alvarus standardmäßig verwendet. Ein schwieriger Fall ist aber das kursive Wort $enatori\'{que} (Benedetti p.296). Das Zeichen {que} könnte wieder mit dem PUA-Zeichen  wiedergegeben werden:
    106106 <reg norm="ſenatorique">ſenatori́</reg>
    107 Aber wir haben keinen Font, der es dann auch in seiner kursiven Form anzeigen kann. Stattdessen müsste man schreiben:
     107Aber wir haben keinen Font, der es dann auch in seiner kursiven Form anzeigen kann. (Eine Anfrage an die MUFI-Liste ergibt: Es gibt einen kommerziellen Font, der dieses Zeichen enthält ([http://www.signographie.de/cms/front_content.php?idart=223 Andron Mega]). Dieser Font ist aber leider nicht frei, so dass wir ihn nicht in einem Web-basierten System verwenden können. Außerdem enthält die allerneueste Version von Junicode dieses Zeichen. Das Argument hängt aber nicht an diesem speziellen Zeichen, sondern es illustriert, was bei PUA-Zeichen passieren kann.)
     108
     109Stattdessen müsste man schreiben:
    108110 <reg faithful="ſenatori{q3-it-a}" norm="ſenatorique">ſenatoriq́ꝫ</reg>
    109111{q3-it-a} wird dann entweder als Text wiedergegeben, oder es gibt eine Datei `q3-it-a` vom Typ jpg/gif/bmp, svg, etc.
     
    127129=== Abkürzungen ===
    128130
    129 Abkürzungszeichen wie ꝙ oder ũ werden regularisiert, denn sie sind tatsächlich als Abkürzungen gedacht, wo der Setzer nicht genug Platz hatte. Zeichen wie ę sind dagegen wohl keine Abkürzungszeichen in diesem Sinne, sondern eine bestimmte Weise, den ehemaligen Diphthong ae zu verschriftlichen.
     131Abkürzungszeichen wie ꝙ oder ũ werden regularisiert, denn sie sind tatsächlich als Abkürzungen gedacht, wo der Setzer nicht genug Platz hatte. Zeichen wie ę sind dagegen wohl keine Abkürzungszeichen in diesem Sinne, sondern eine bestimmte Weise, den ehemaligen Diphthong ae zu verschriftlichen (zu ę siehe auch [wiki:e-caudata hier]).
    130132
    131133Was ist mit Abkürzungen wie "&c."? Wird das zu "et cetera" oder nur zu "etc."? Im Benedetti steht zurzeit `<reg norm="&amp;c." type="unresolved">&amp;c.</reg>`. Die Idee davon ist unter anderem, dass jeder Punkt im Text, der nicht Satzendepunkt ist, sich rechtfertigen muss. Eine Art, das zu tun, ist, in einem tag wie <reg> zu verschwinden. Dieses Kriterium wird aber nur für sehr aufwändig nachbearbeitete Texte realistisch sein.