wiki:unihan

Unicode Han Database: web-Version, Text-Version

Unicode Standard Annex #38 (insbesondere 3.7 Variants)

Drei Achsen:

  • x-Varianten: Bedeutung: Zeichen mit unterschiedlicher Bedeutung können keine Varianten voneinander sein.
  • y-Varianten: abstrakte Form
    • kSimplifiedVariant / kTraditionalVariant
    • kSemanticVariant, kSpecializedSemanticVariant
  • z-Varianten: rein stilistische Varianten, sollten idealerweise gar nicht mehr als einen Codepoint haben
    • kZVariant

Mehrere Langzeichen können auf dasselbe Kurzzeichen abgebildet werden.

Beispiel

Standardzeichen U+6B77, Variante U+6B74: Die Variante hat einen niedrigeren Codepoint als das Standardzeichen.

Wenn ich es recht verstehe:

  • Die semantischen Varianten 66C6 und 6B77 sind beide OK als Langzeichen, aber werden beide mit dem gleichen Kurzzeichen wiedergegeben. Wenn man daraus wieder ein Langzeichen macht, dann 6B77.
  • Die Verbindung von 5386 zu 53B2 wird nur in Fenn gemacht, nicht in Lau, Matthews, MeyerWempe.

Trotzdem kommt mir die Verbindung der Zeichen inkonsequent vor.

5386 5389 53A4 53B2 66C6 6B74 6B77
kMandarin LI4 LI4 LI4 LI4 LI4 LI4 LI4
kDefinition 1 2 3 1 4 5 5
kSemanticVariant 53B2 66C6 5386 53A4 6B74 6B77 66C6 6B77 66C6 6B74
kSimplifiedVariant 5389 5386 5386
kTraditionalVariant 66C6 6B77 53B2
kZVariant 6B77 6B77

kDefinition:

  1. history; calendar
  2. whetstone; grind, sharpen; whet
  3. to calculate; the calendar
  4. calendar, era
  5. take place, past, history

Zeichentabelle für 5386: 66C6 6B74 6B77, aber auch 53AF 66A6 (und F98B F98C) --> wo kommt das her?

Das ist zugegebenermaßen ein besonders schwieriges Beispiel. Trotzdem zeigt es: Die Hoffnung, alle Zeichen für die Suche in Äquivalenzklassen aufzuteilen, am besten noch mit einem ausgezeichnetem "Standardzeichen", ist nicht realistisch. Beispiel: Kurzzeichen 5386 <--> Langzeichen 53B2, und Langzeichen 53B2 <--> Kurzzeichen 5389, aber nicht 5386 <--> 5389 (nicht transitiv).

Möglicherweise kann man also nur verschiedene Suchstufen anbieten:

  • streng: nur genau das angegebene Zeichen
  • akzeptiere z-Varianten
  • akzeptiere Langzeichen / Kurzzeichen
  • akzeptiere semantische Varianten

Die "akzeptiere"-Optionen können einzeln oder zusammen verwendet werden. Aber wie soll es genau aussehen? Sinnvollerweise wird man von 5386 über 6B77 zu 6B74 kommen, aber nicht von 5389 über 53B2 nach 5386. Formal ist es aber der gleiche Weg.

Auf den Punkt gebracht: Warum ist 6B74 eine semantische Variante von 6B77, aber 66A6 keine semantische Variante von 66C6?

Es gibt außerdem ein core set von Zeichen, die am Attribut "kIICore" (mit dem festen Wert "2.1") erkennbar sind.

Last modified 14 years ago Last modified on Aug 17, 2010, 7:22:53 AM

Attachments (1)

Download all attachments as: .zip