== Glossar ==

 Arboreal::
   wird im [https://it-dev.mpiwg-berlin.mpg.de/tracs/Arboreal Arboreal-Wiki] erklärt.

 CJK-Extension B, C, D::
   Ergänzungen zur Liste der chinesischen (und japanischen, koreanischen, vietnamesischen) Schriftzeichen in Unicode. Extension B ist sehr groß und kommt bei uns tatsächlich vor. Extensions C und D sind klein und enthalten recht seltene Zeichen.
 combining character::
   Ein Zeichen in Unicode ohne eigene Breite, das ein anderes Zeichen ergänzen soll. Beispiel: die Punkte über dem a, die a zu ä machen.

 Extension B, C, D::
   siehe CJK-Extension

 Flexionsparadigma::
   siehe [http://de.wikipedia.org/wiki/Flexionsparadigma Eintrag] in Wikipedia

 medievalist character::
   Lateinische Abkürzungszeichen. Siehe Unicode-Proposal [http://www.mufi.info/proposals/ N3027].
 MUFI::
   Medieval Unicode Font Initiative: [http://www.mufi.info www.mufi.info]
 MUFI-Font::
   Ein Font, der die von der MUFI vorgeschlagenen Zeichen ganz oder teilweise enthält: [http://www.mufi.info/fonts www.mufi.info/fonts].

 NFC-Normalform::
   Viele Zeichen können in Unicode auf verschiedene Weise dargestellt werden, nämlich sowohl mit einem einzigen Codepoint als ''precomposed character'', zum Beispiel ä, als auch als Sequenz von zwei oder mehr Codepoints, nämlich als Grundzeichen mit getrennten Diakritika, zum Beispiel a mit "combining diaeresis", also den Umlaut-Punkten. Bei der NFC-Normalform werden im Text, wo immer möglich, precomposed characters verwendet.

 IDS-Sequenz::
   Ideographic Description Sequence: Viele Zeichenvarianten haben keinen eigenen Codepoint (d.h. sie sind in Unicode nicht vorhanden). Diese Zeichen können mit einer IDS-Sequenz dargestellt werden. Bei einer IDS-Sequenz wird ein Schriftzeichen durch seine Bestandteile beschrieben. Wenn also zum Beispiel das Zeichen 国 nicht in Unicode wäre, könnte man es mit der Folge von Unicode-Zeichen ⿴口玉 umschreiben: Das erste Zeichen ⿴ gibt das Verhältnis der beiden folgenden Zeichen an, nämlich 口 ist außen und 玉 ist innen. (Von diesen Verhältnis-Beschreibungszeichen gibt es zwölf Stück: U+2FF0 bis U+2FFB. Auch längere Folgen kommen vor, siehe [http://www.unicode.org/versions/Unicode5.2.0/ch12.pdf Unicode 5.2, ch. 12], p.398.) Ein weiteres Beispiel ist ⿱井蛙. Noch mehr Beispiele siehe [http://www.unicode.org/reports/tr45/tr45-sourcedata-2.txt hier]. 
 IVS-Sequenz::
   Ideographic Variation Sequence. Diese bestehen aus einem Schriftzeichen und einem weiteren Zeichen aus dem Bereich FE00-FE0F (und nochmal ab E0100). Im Gegensatz zur IDS-Sequenz wird das Zeichen nicht konkret beschrieben, sondern es wird das Standardzeichen genannt, plus eine Nummer zwischen 1 und 16. Eine Datenbank enthält dann für das Standardzeichen und die Nummer das Bild des gesuchten Zeichens. Siehe [wiki:VariationSequences hier].

 Lex::
   Für Lex bzw. Flex siehe [http://de.wikipedia.org/wiki/Lex_(Informatik) hier].

 precomposed character::
   Ein Zeichen zusammen mit Diakritika, zum Beispiel ä. Dieses Zeichen kann auch aus dem Grundzeichen a und einem oder mehr ''combining character'' für die Diakritika zusammengesetzt werden.
 PUA::
   Private Use Area von Unicode: siehe [http://en.wikipedia.org/wiki/Private_Use_Area#Private_use_characters hier]. Zeichen aus diesem Bereich sind nicht Teil des offiziellen Unicode, aber es gibt einige Standard-Belegungen von anderen Organisationen, z.B. der MUFI.

 ZWJ::
   zero width joiner (U+200D). Ein ZWJ zwischen zwei Zeichen signalisiert eine Ligatur dieser Zeichen. In der Praxis funktioniert das bei lateinischen Schriften nicht, sondern im Gegenteil werden durch das zusätzliche Zeichen Ligaturen aktiv verhindert, und die Suche bricht.
 ZWS::
   zero width space (U+200B). Zum Beispiel im Chinesischen kann damit eine unsichtbare Wortgrenze markiert werden.