mpdl-group: software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/doc/NormDictContentHandler.java comparison

comparison software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/doc/NormDictContentHandler.java @ 16:257f67be5c00

diverse Fehlerbehebungen

author	Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de>
date	Tue, 27 Sep 2011 16:40:57 +0200
parents	5df60f24e997
children

comparison

equal deleted inserted replaced

-:e99964f390e4
+:257f67be5c00
 import org.xml.sax.*;
 import de.mpg.mpiwg.berlin.mpdl.exception.ApplicationException;
 import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.MpdlNormalizer;
 import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.MpdlTokenizerAnalyzer;
+import de.mpg.mpiwg.berlin.mpdl.lt.general.Language;
 import de.mpg.mpiwg.berlin.mpdl.lt.lex.db.LexHandler;
 import de.mpg.mpiwg.berlin.mpdl.util.StringUtilEscapeChars;
 public class NormDictContentHandler implements ContentHandler {
 private static String COMPLEX_ELEMENT_MARK = new Character('\u2425').toString();  // word delimiting element
 public void startDocument() throws SAXException {
 }
 public void endDocument() throws SAXException {
-String rootElemToStr = rootElement.toXmlString();
+try {
-write(rootElemToStr);
+String rootElemToStr = rootElement.toXmlString();
-write("\n");
+// hack: in echo documents the spaces between sentences should be removed
+if (rootElemToStr != null && rootElemToStr.startsWith("<echo") && Language.getInstance().isChinese(language)) {
+rootElemToStr = rootElemToStr.replaceAll("</s>[ \n\t]+<s", "</s><s");
+}
+write(rootElemToStr);
+write("\n");
+} catch (NullPointerException e) {
+throw new SAXException(e);
+}
 }
 public void characters(char[] c, int start, int length) throws SAXException {
 char[] cCopy = new char[length];
 System.arraycopy(c, start, cCopy, 0, length);
 */
 private boolean isWordDelimiterElement() {
 boolean isWordDelimiterElement = true;
 // "note" causes problems: word after the note is not recognized
 // "emph" causes problems: e.g. "Natur<emph>ereignis</emph> enthüllte" is replaced by "Natur<emph><w>ereignis</w></emph>enthüllte"
-if (name.equals("lb") || name.equals("cb") || name.equals("figure") || name.equals("image") || name.equals("handwritten") || name.equals("anchor"))
+if (name.equals("lb") || name.equals("br") || name.equals("cb") || name.equals("figure") || name.equals("image") || name.equals("handwritten") || name.equals("anchor"))
 isWordDelimiterElement = false;
 return isWordDelimiterElement;
 }
 private String toXmlString() throws SAXException {
 Element composite = composites.get(i);
 if (! composite.isComplex()) {
 if (composite.value != null && ! composite.value.equals("")) {
 String compositeValueStr = composite.value;
 compositeValueStr = compositeValueStr.replaceAll("\n", ""); // remove all newlines, they are no separators for words.
-compositeValueStr = compositeValueStr.replaceAll(" +", " "); // if there are many Blanks make them to one
+compositeValueStr = compositeValueStr.replaceAll("[ \t]+", " "); // if there are many Blanks/Tabs make them to one
 compositesCharsWithMarks = compositesCharsWithMarks + compositeValueStr;
 }
 } else {
 if (! composite.isWordDelimiterElement()) {
 compositesCharsWithMarks = compositesCharsWithMarks + COMPLEX_ELEMENT_NWD_MARK;  // add a special mark symbol at the position of the "not word delimiter element" (e.g. <lb>)
 mpdlNormalizer.setNormMode(MpdlNormalizer.DICTIONARY);
 } else {
 mpdlNormalizer.setNormMode(MpdlNormalizer.DISPLAY);
 }
 MpdlTokenizerAnalyzer tokenAnalyzer = new MpdlTokenizerAnalyzer(mpdlNormalizer, language);
-tokenAnalyzer.setRegWithoutSemicolon(true);  // hack: feel free to remove it later
 ArrayList<Token> wordTokens = tokenAnalyzer.getToken(charactersStr);
 int endPos = 0;
 for (int i=0; i < wordTokens.size(); i++) {
 Token wordToken = wordTokens.get(i);
 int startPos = wordToken.startOffset();
 for (int j=0; j<lexEntryKeys.size(); j++) {
 String lexEntryKey = lexEntryKeys.get(j);
 lexForms = lexForms + lexEntryKey + " ";
 }
 lexForms = lexForms.substring(0, lexForms.length() - 1);
-lexWord = "<w lang=\"" + language + "\"" + " form=\"" + wordForm + "\"" + " lexForms=\"" + lexForms + "\">" + displayWordDeresolved + "</w>";
+lexWord = "<w lang=\"" + lang + "\"" + " form=\"" + wordForm + "\"" + " lexForms=\"" + lexForms + "\">" + displayWordDeresolved + "</w>";
 } else {
 lexWord = displayWordDeresolved;
 }
 return lexWord;
 }

Mercurial > hg > mpdl-group

comparison software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/doc/NormDictContentHandler.java @ 16:257f67be5c00