Changes between Version 35 and Version 36 of normalization/6
- Timestamp:
- Dec 18, 2010, 5:44:38 PM (13 years ago)
Legend:
- Unmodified
- Added
- Removed
- Modified
-
normalization/6
v35 v36 258 258 Wenn man ein <s> hat wie zum Beispiel "凡古今一言之嘉", sind die Wortgrenzen erstmal noch nicht bekannt. Wir haben noch keinen Mechanismus, um Wortgrenzen zu bestimmen. Soll auf einer Zwischenseite für zum Beispiel 古 auch 古今 vorgeschlagen werden? Kann man herausfinden, ob das Wörterbuch diesen Eintrag haben wird? Oder überlässt man dem Wörterbuch, was es aus 古 macht? (Wäre das dann wiederum ein rudimentärer Mechanismus zum Bestimmen von Wortgrenzen? Das zugrundeliegende Wörterbuch müsste jedenfalls für klassisches Chinesisch sein, sonst gibt es gar keine Chance, dass dieser Ansatz funktioniert.) 259 259 260 Die ''ZWS'' werden zumindest in der Normalisierung für das Wörterbuch entfernt. 260 Die ''ZWS'' werden zumindest in der Normalisierung für das Wörterbuch entfernt. Falls wir die ZWS aber zur Wortendemarkierung verwenden, ist die Information, dass zwischen zwei Zeichen kein ZWS steht, ein Hinweis, dass die Zeichen zusammen ein Wort bilden. Das ist noch nicht ausgereift, denn mit unsichtbaren Zeichen wie ZWS kann man nicht gut arbeiten. 261 261 262 262 Einen Service zur Umwandlung von Lang- in Kurzzeichen könnten wir zwar auch anbieten, aber wirklich sinnvoll wäre das für klassisches Chinesisch wohl nicht.