glossar

Context Navigation

CJK-Extension B, C, D: Ergänzungen zur Liste der chinesischen (und japanischen, koreanischen, vietnamesischen) Schriftzeichen in Unicode. Extension B ist sehr groß und kommt bei uns tatsächlich vor. Extensions C und D sind klein und enthalten recht seltene Zeichen.
combining character: Ein Zeichen in Unicode ohne eigene Breite, das ein anderes Zeichen ergänzen soll. Beispiel: die Punkte über dem a, die a zu ä machen.

medievalist character: Lateinische Abkürzungszeichen. Siehe Unicode-Proposal N3027.
MUFI: Medieval Unicode Font Initiative: www.mufi.info
MUFI-Font: Ein Font, der die von der MUFI vorgeschlagenen Zeichen ganz oder teilweise enthält: www.mufi.info/fonts.

NFC-Normalform: Viele Zeichen können in Unicode auf verschiedene Weise dargestellt werden, nämlich sowohl mit einem einzigen Codepoint als precomposed character, zum Beispiel ä, als auch als Sequenz von zwei oder mehr Codepoints, nämlich als Grundzeichen mit getrennten Diakritika, zum Beispiel a mit "combining diaeresis", also den Umlaut-Punkten. Bei der NFC-Normalform werden im Text, wo immer möglich, precomposed characters verwendet.

IDS-Sequenz: Ideographic Description Sequence: Viele Zeichenvarianten haben keinen eigenen Codepoint (d.h. sie sind in Unicode nicht vorhanden). Diese Zeichen können mit einer IDS-Sequenz dargestellt werden. Bei einer IDS-Sequenz wird ein Schriftzeichen durch seine Bestandteile beschrieben. Wenn also zum Beispiel das Zeichen 国 nicht in Unicode wäre, könnte man es mit der Folge von Unicode-Zeichen ⿴口玉 umschreiben: Das erste Zeichen ⿴ gibt das Verhältnis der beiden folgenden Zeichen an, nämlich 口 ist außen und 玉 ist innen. (Von diesen Verhältnis-Beschreibungszeichen gibt es zwölf Stück: U+2FF0 bis U+2FFB. Auch längere Folgen kommen vor, siehe Unicode 5.2, ch. 12, p.398.) Ein weiteres Beispiel ist ⿱井蛙. Noch mehr Beispiele siehe hier.
IVS-Sequenz: Ideographic Variation Sequence. Diese bestehen aus einem Schriftzeichen und einem weiteren Zeichen aus dem Bereich FE00-FE0F (und nochmal ab E0100). Im Gegensatz zur IDS-Sequenz wird das Zeichen nicht konkret beschrieben, sondern es wird das Standardzeichen genannt, plus eine Nummer zwischen 1 und 16. Eine Datenbank enthält dann für das Standardzeichen und die Nummer das Bild des gesuchten Zeichens. Siehe hier.

precomposed character: Ein Zeichen zusammen mit Diakritika, zum Beispiel ä. Dieses Zeichen kann auch aus dem Grundzeichen a und einem oder mehr combining character für die Diakritika zusammengesetzt werden.
PUA: Private Use Area von Unicode: siehe hier. Zeichen aus diesem Bereich sind nicht Teil des offiziellen Unicode, aber es gibt einige Standard-Belegungen von anderen Organisationen, z.B. der MUFI.

ZWJ: zero width joiner (U+200D). Ein ZWJ zwischen zwei Zeichen signalisiert eine Ligatur dieser Zeichen. In der Praxis funktioniert das bei lateinischen Schriften nicht, sondern im Gegenteil werden durch das zusätzliche Zeichen Ligaturen aktiv verhindert, und die Suche bricht.
ZWS: zero width space (U+200B). Zum Beispiel im Chinesischen kann damit eine unsichtbare Wortgrenze markiert werden.

Last modified 14 years ago Last modified on Dec 22, 2010, 2:49:30 PM