Opened 9 years ago

Closed 9 years ago

Last modified 8 years ago

#32 closed defect (fixed)

chinese punctuation signs should not be transformed in normalization

Reported by: casties Owned by: jwillenborg
Priority: major Milestone:
Component: echo-textdisplay Version:
Keywords: Chinese Cc:
Parent Tickets: #138, #144

Description


Subtickets

Change History (5)

comment:1 Changed 9 years ago by wschmidle

Manche Satzzeichen werden in der normalisierten Textfassung fälschlicherweise durch ihre ASCII-Äquivalente ersetzt:

Satzzeichen " "
Unicode 3002 FF01 FF1F FF0C 3001 FF1A FF1B 3000
angezeigt als . ok ok ok , ok ok " "

Unicode-Namen: 300x: "ideographic ...", FFxx: "fullwidth ..." (i.e. fullwidth-Versionen von ASCII-Zeichen). Beim Punkt gibt es beides (fullwidth-Version ist FF0E), aber verwendet wird 3002. Beim Komma gibt es auch beides, und beide werden mit verschiedenen Bedeutungen verwendet (normales Komma FF0C vs. Aufzählungskomma 3001).

Es werden also die "ideographic"-Zeichen 3000-3002 nicht korrekt dargestellt.

Ein Beipiel für den ideographic space U+3000 ist die Überschrift auf Seite 18.

Ein Beispiel für 。 ist hier. Im Gesamt-XML ist es 。:

<s xml:id="N406244" xml:space="preserve">則​又​非​也。</s>

aber im Seiten-XML und bei der Textanzeige ist es ein ASCII-Punkt:

<s xml:id="N406244" xml:space="preserve">則​又​非​也.</s>

comment:2 Changed 9 years ago by wschmidle

  • Owner changed from abukhman to jwillenborg

comment:3 Changed 9 years ago by casties

  • Resolution set to fixed
  • Status changed from new to closed

All normalization modes do not change punctuation marks now.

comment:4 Changed 8 years ago by wschmidle

  • Keywords Chinese added

comment:5 Changed 8 years ago by wschmidle

  • Parent Tickets set to 138, 144
Note: See TracTickets for help on using tickets.