mpdl-group: software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlNormalizer.java comparison

comparison software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlNormalizer.java @ 9:1ec29fdd0db8

neue .lex Dateien f?r Normalisierung / externe Objekte update

author	Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de>
date	Tue, 22 Feb 2011 16:03:45 +0100
parents	2396a569e446
children	5df60f24e997

comparison

equal deleted inserted replaced

-:d2a1c14fde31
+:1ec29fdd0db8
 import java.io.IOException;
 import java.io.StringReader;
 import java.util.ArrayList;
 import de.mpg.mpiwg.berlin.mpdl.exception.ApplicationException;
-import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.lang.MpdlNormalizerLexAll;
+import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.lang.MpdlNormalizerLexAR;
+import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.lang.MpdlNormalizerLexDE;
+import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.lang.MpdlNormalizerLexEL;
+import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.lang.MpdlNormalizerLexEN;
+import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.lang.MpdlNormalizerLexFR;
+import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.lang.MpdlNormalizerLexIT;
+import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.lang.MpdlNormalizerLexLA;
+import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.lang.MpdlNormalizerLexNL;
+import de.mpg.mpiwg.berlin.mpdl.lt.analyzer.lang.MpdlNormalizerLexZH;
 import de.mpg.mpiwg.berlin.mpdl.lt.doc.regularization.Regularization;
 import de.mpg.mpiwg.berlin.mpdl.lt.doc.regularization.RegularizationManager;
 import de.mpg.mpiwg.berlin.mpdl.lt.general.Language;
 public class MpdlNormalizer {
 return s;
 }
 }
 private String normalize4HumanReaders(String s) {
-String normStr = s;
+StringReader strReader = new StringReader(s + "\n");
-StringReader strReader = new StringReader(normStr + "\n");
-MpdlNormalizerLexAll mpdlNormalizerLexAll = new MpdlNormalizerLexAll(strReader);
-if (Language.getInstance().isLatin(language)) {
-mpdlNormalizerLexAll.yybegin(MpdlNormalizerLexAll.LA);
-} else if (Language.getInstance().isChinese(language)) {
-mpdlNormalizerLexAll.yybegin(MpdlNormalizerLexAll.ZH);
-} else {
-// TODO normalization for all languages
-return normalize4Lexica(s, null);  // old function
-}
 String retStr = "";
 String token = "";
-while (token != null) {
+try {
-try {
+if (Language.getInstance().isLatin(language)) {
-token = mpdlNormalizerLexAll.yylex();
+MpdlNormalizerLexLA mpdlNormalizerLex = new MpdlNormalizerLexLA(strReader);
-if (token != null)
+mpdlNormalizerLex.yybegin(MpdlNormalizerLexLA.DISP);
-retStr += token;
+while (token != null) {
-} catch (IOException e ) {
+token = mpdlNormalizerLex.yylex();
-// nothing cause IOException is not needed for a StringReader
+if (token != null)
-}
+retStr += token;
+}
+} else if (Language.getInstance().isArabic(language)) {
+MpdlNormalizerLexAR mpdlNormalizerLex = new MpdlNormalizerLexAR(strReader);
+mpdlNormalizerLex.yybegin(MpdlNormalizerLexAR.DISP);
+while (token != null) {
+token = mpdlNormalizerLex.yylex();
+if (token != null)
+retStr += token;
+}
+} else if (Language.getInstance().isGerman(language)) {
+MpdlNormalizerLexDE mpdlNormalizerLex = new MpdlNormalizerLexDE(strReader);
+mpdlNormalizerLex.yybegin(MpdlNormalizerLexDE.DISP);
+while (token != null) {
+token = mpdlNormalizerLex.yylex();
+if (token != null)
+retStr += token;
+}
+} else if (Language.getInstance().isGreek(language)) {
+MpdlNormalizerLexEL mpdlNormalizerLex = new MpdlNormalizerLexEL(strReader);
+mpdlNormalizerLex.yybegin(MpdlNormalizerLexEL.DISP);
+while (token != null) {
+token = mpdlNormalizerLex.yylex();
+if (token != null)
+retStr += token;
+}
+} else if (Language.getInstance().isEnglish(language)) {
+MpdlNormalizerLexEN mpdlNormalizerLex = new MpdlNormalizerLexEN(strReader);
+mpdlNormalizerLex.yybegin(MpdlNormalizerLexEN.DISP);
+while (token != null) {
+token = mpdlNormalizerLex.yylex();
+if (token != null)
+retStr += token;
+}
+} else if (Language.getInstance().isFrench(language)) {
+MpdlNormalizerLexFR mpdlNormalizerLex = new MpdlNormalizerLexFR(strReader);
+mpdlNormalizerLex.yybegin(MpdlNormalizerLexFR.DISP);
+while (token != null) {
+token = mpdlNormalizerLex.yylex();
+if (token != null)
+retStr += token;
+}
+} else if (Language.getInstance().isItalian(language)) {
+MpdlNormalizerLexIT mpdlNormalizerLex = new MpdlNormalizerLexIT(strReader);
+mpdlNormalizerLex.yybegin(MpdlNormalizerLexIT.DISP);
+while (token != null) {
+token = mpdlNormalizerLex.yylex();
+if (token != null)
+retStr += token;
+}
+} else if (Language.getInstance().isDutch(language)) {
+MpdlNormalizerLexNL mpdlNormalizerLex = new MpdlNormalizerLexNL(strReader);
+mpdlNormalizerLex.yybegin(MpdlNormalizerLexNL.DISP);
+while (token != null) {
+token = mpdlNormalizerLex.yylex();
+if (token != null)
+retStr += token;
+}
+} else if (Language.getInstance().isChinese(language)) {
+MpdlNormalizerLexZH mpdlNormalizerLex = new MpdlNormalizerLexZH(strReader);
+mpdlNormalizerLex.yybegin(MpdlNormalizerLexZH.DISP);
+while (token != null) {
+token = mpdlNormalizerLex.yylex();
+if (token != null)
+retStr += token;
+}
+} else {
+return normalize4Lexica(s, null);  // old function
+}
+} catch (IOException e ) {
+// nothing cause IOException is not needed for a StringReader
 }
-normStr = retStr;
+return retStr;
-return normStr;
 }
 /*
 // explicit words
 normStr = normStr.replaceAll("aliàs", "alias");

Mercurial > hg > mpdl-group

comparison software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlNormalizer.java @ 9:1ec29fdd0db8