mpdl-group: software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlTokenizerAnalyzer.java comparison

comparison software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlTokenizerAnalyzer.java @ 16:257f67be5c00

diverse Fehlerbehebungen

author	Josef Willenborg <jwillenborg@mpiwg-berlin.mpg.de>
date	Tue, 27 Sep 2011 16:40:57 +0200
parents	2396a569e446
children

comparison

equal deleted inserted replaced

-:e99964f390e4
+:257f67be5c00
 import de.mpg.mpiwg.berlin.mpdl.general.MpdlConstants;
 public class MpdlTokenizerAnalyzer extends Analyzer {
 protected String language = MpdlConstants.DEFAULT_LANGUAGE;
 protected MpdlNormalizer normalizer = null;
-private boolean regWithoutSemicolon = false;  // hack: in some cases there are words with a semicolon, then the normalization should be without semicolon
 public MpdlTokenizerAnalyzer(String language) {
 this.language = language;
 this.normalizer = new MpdlNormalizer(language);  // default normalizer
 }
 public MpdlTokenizerAnalyzer(MpdlNormalizer normalizer, String language) {
 this.language = language;
 this.normalizer = normalizer;
 }
-public void setRegWithoutSemicolon(boolean regWithoutSemicolon) {
-this.regWithoutSemicolon = regWithoutSemicolon;
-}
-public boolean isRegWithoutSemicolon() {
-return regWithoutSemicolon;
-}
 public TokenStream tokenStream(String fieldName, Reader reader) {
 MpdlTokenizer tmpTokenizer = new MpdlTokenizer(reader, language, normalizer);
-tmpTokenizer.setRegWithoutSemicolon(regWithoutSemicolon); // hack: feel free to remove it later
 TokenStream result = (TokenStream) tmpTokenizer;
 result = new MpdlFilter(result);  // filter to remove the hyphen in a token etc.
 result = new LowerCaseFilter(result);
 return result;
 }
 public ArrayList<Token> getToken(String inputString) throws ApplicationException {
 ArrayList<Token> token = new ArrayList<Token>();
 try {
 Reader reader = new StringReader(inputString);
 MpdlTokenizer tmpTokenizer = new MpdlTokenizer(reader, language, normalizer);
-tmpTokenizer.setRegWithoutSemicolon(regWithoutSemicolon);  // hack: feel free to remove it later
 TokenStream result = (TokenStream) tmpTokenizer;
 result = new MpdlFilter(result);  // filter to remove the hyphen in a token etc.
 result = new LowerCaseFilter(result);
 Token t = result.next();
 while (t != null) {

Mercurial > hg > mpdl-group

comparison software/eXist/mpdl-modules/src/de/mpg/mpiwg/berlin/mpdl/lt/analyzer/MpdlTokenizerAnalyzer.java @ 16:257f67be5c00