mpdl-group: software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/doc/NormalizeCharsContentHandler.java comparison

new functions: externalObjects, normalizer, Unicode2Betacode

author	Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de>
date	Tue, 08 Feb 2011 14:54:09 +0100
parents	408254cf2f1d
children	fba5577e49d9

comparison

equal deleted inserted replaced

-:94305c504178
+:2396a569e446
 private String normalize(String charactersStr) throws SAXException {
 String retStr = "";
 try {
 MpdlTokenizerAnalyzer tokenizerAnalyzer = new MpdlTokenizerAnalyzer(language);
+tokenizerAnalyzer.setRegWithoutSemicolon(true);  // hack: feel free to remove it later
 ArrayList<Token> wordTokens = tokenizerAnalyzer.getToken(charactersStr);
 int endPos = 0;
 for (int i=0; i < wordTokens.size(); i++) {
 Token wordToken = wordTokens.get(i);
 int startPos = wordToken.startOffset();
 String beforeStr = charactersStr.substring(endPos, startPos);
 String beforeStrDeresolved = StringUtilEscapeChars.deresolveXmlEntities(beforeStr);
 endPos = wordToken.endOffset();
 String wordStr = charactersStr.substring(startPos, endPos);
 MpdlNormalizer mpdlNormalizer = new MpdlNormalizer(normalizeFunctions, language);
+mpdlNormalizer.setNormMode(MpdlNormalizer.MODE_4HUMAN_READERS);
 String normalizedWordStr = mpdlNormalizer.normalize(wordStr);
 String normalizedWordStrDeresolved = StringUtilEscapeChars.deresolveXmlEntities(normalizedWordStr);
 // String wordTokenText = wordToken.termText();
 retStr = retStr + beforeStrDeresolved + normalizedWordStrDeresolved;
 }
 String lastAfterStr = charactersStr.substring(endPos);

Mercurial > hg > mpdl-group