Mercurial > hg > fulltextSearch
annotate src/de/mpiwg/dwinter/fulltext/search/FulltextSearchDocsLines.java @ 0:72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
https://it-dev.mpiwg-berlin.mpg.de/tracs/pythonOcropusTools/ticket/16
author | dwinter |
---|---|
date | Wed, 03 Nov 2010 12:26:20 +0100 |
parents | |
children | 2b29b0b6db16 |
rev | line source |
---|---|
0
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
1 package de.mpiwg.dwinter.fulltext.search; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
2 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
3 import java.io.File; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
4 import java.io.IOException; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
5 import java.util.ArrayList; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
6 import java.util.HashMap; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
7 import java.util.HashSet; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
8 import java.util.List; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
9 import java.util.Map; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
10 import java.util.Set; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
11 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
12 import org.apache.log4j.Logger; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
13 import org.apache.lucene.analysis.de.GermanAnalyzer; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
14 import org.apache.lucene.analysis.fr.FrenchAnalyzer; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
15 import org.apache.lucene.analysis.standard.StandardAnalyzer; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
16 import org.apache.lucene.document.Document; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
17 import org.apache.lucene.index.CorruptIndexException; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
18 import org.apache.lucene.index.Term; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
19 import org.apache.lucene.search.BooleanQuery; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
20 import org.apache.lucene.search.BooleanClause; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
21 import org.apache.lucene.search.Collector; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
22 import org.apache.lucene.search.Query; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
23 import org.apache.lucene.search.ScoreDoc; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
24 import org.apache.lucene.search.TermQuery; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
25 import org.apache.lucene.search.TopDocs; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
26 import org.apache.lucene.search.TopDocsCollector; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
27 import org.apache.lucene.search.TopScoreDocCollector; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
28 import org.apache.lucene.store.LockObtainFailedException; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
29 import org.apache.lucene.util.Version; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
30 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
31 import de.mpiwg.dwinter.fulltext.search.utils.OCRDoc; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
32 import de.mpiwg.dwinter.fulltext.search.utils.OCRLine; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
33 import de.mpiwg.dwinter.fulltext.searcher.LanguageSearcher; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
34 import de.mpiwg.dwinter.fulltext.searcher.LanguageSearchers; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
35 import de.mpiwg.dwinter.fulltext.ticket.TicketWriter; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
36 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
37 public class FulltextSearchDocsLines extends FulltextSearch { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
38 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
39 protected static Logger logger = Logger.getRootLogger(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
40 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
41 private static final int MAX_LINES = 10000; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
42 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
43 protected File line_index_dir; // Index mit dem Zeilenindex |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
44 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
45 public LanguageSearchers languageSearchersLines = new LanguageSearchers(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
46 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
47 public FulltextSearchDocsLines(File index_dir, File line_index_dir) |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
48 throws CorruptIndexException, LockObtainFailedException, |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
49 IOException { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
50 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
51 super(index_dir); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
52 this.line_index_dir = line_index_dir; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
53 init_language_searchers_lines(line_index_dir); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
54 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
55 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
56 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
57 protected void init_language_searchers_lines(File dir) |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
58 throws CorruptIndexException, LockObtainFailedException, |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
59 IOException { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
60 languageSearchersLines.add(new LanguageSearcher("de", |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
61 new GermanAnalyzer(Version.LUCENE_30), dir)); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
62 languageSearchersLines.add(new LanguageSearcher("en", |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
63 new StandardAnalyzer(Version.LUCENE_30), dir)); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
64 languageSearchersLines.add(new LanguageSearcher("fr", |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
65 new FrenchAnalyzer(Version.LUCENE_30), dir)); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
66 languageSearchersLines.add(new LanguageSearcher("all", |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
67 new StandardAnalyzer(Version.LUCENE_30), dir)); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
68 languageSearchersLines.add(new LanguageSearcher("morph", |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
69 new StandardAnalyzer(Version.LUCENE_30), dir)); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
70 languageSearchersLines.add(new LanguageSearcher("la", |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
71 new StandardAnalyzer(Version.LUCENE_30), dir)); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
72 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
73 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
74 /** |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
75 * Erzeugt Ergebnisliste im Filesystem fuer die Weiterbenutzung bers |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
76 * Servlet |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
77 * |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
78 * @param query |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
79 * @param language |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
80 * @param ticket |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
81 * ticket unter dem auf die Daten zurckgegriffen werden soll. |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
82 * @return |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
83 * @throws IOException |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
84 */ |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
85 public void searchInLinesToDir(Query query, String language, String ticket) |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
86 throws IOException { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
87 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
88 // first step search docs |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
89 logger.debug("Start searching docs"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
90 TopScoreDocCollector col = (TopScoreDocCollector) search(query, |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
91 language); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
92 TopDocs docs = col.topDocs(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
93 ScoreDoc[] scoreDocs = docs.scoreDocs; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
94 // ArrayList<OCRDoc> ocrDocs = new ArrayList<OCRDoc>(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
95 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
96 TicketWriter tw = new TicketWriter(ticket, query, language); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
97 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
98 LanguageSearcher searcher = languageSearchers |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
99 .getSearcherByLanguage(language); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
100 logger.debug("Start writing docs"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
101 tw.writeResultsForLanguageSearch(language, docs, searcher.reader); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
102 tw.commitTicket(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
103 logger.debug("Wrote docs"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
104 LanguageSearcher lineSearcher = languageSearchersLines |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
105 .getSearcherByLanguage(language); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
106 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
107 Set<String> textIds = new HashSet<String>(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
108 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
109 for (ScoreDoc doc : scoreDocs) { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
110 Document d = searcher.reader.document(doc.doc); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
111 String textID = d.get("textId"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
112 logger.debug("Start:" + textID); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
113 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
114 // teste ob schon gesucht TODO: warum sind manchmal textid mehrfach |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
115 // in der treffer liste? |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
116 if (!textIds.contains(textID)) { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
117 textIds.add(textID); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
118 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
119 Query textIDQuery = new TermQuery(new Term("textId", textID)); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
120 //Query[] queries = new Query[] { query, textIDQuery }; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
121 //Query lineQuery = query.combine(queries); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
122 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
123 BooleanQuery booleanQuery = new BooleanQuery(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
124 booleanQuery.add(textIDQuery, BooleanClause.Occur.MUST); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
125 booleanQuery.add(query, BooleanClause.Occur.MUST); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
126 // suche jetzt die Zeilen |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
127 TopScoreDocCollector lineCol = TopScoreDocCollector.create( |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
128 MAX_LINES, false); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
129 lineSearcher.searcher.search(booleanQuery, lineCol); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
130 logger.debug("Searched:" + textID); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
131 OCRDoc ocrDoc = new OCRDoc(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
132 ocrDoc.docId = doc.doc; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
133 ocrDoc.document = d; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
134 ocrDoc.textId = d.get("textId"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
135 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
136 Map<String, ArrayList<OCRLine>> ocrPages = new HashMap<String, ArrayList<OCRLine>>(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
137 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
138 for (ScoreDoc line : lineCol.topDocs().scoreDocs) { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
139 // fuege alle zeile zusammen |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
140 OCRLine ocrLine = new OCRLine(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
141 Document lineD = lineSearcher.reader.document(line.doc); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
142 ocrLine.pageDimension = lineD.get("pageDimension"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
143 ocrLine.bbox = lineD.get("bbox"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
144 ocrLine.lineNumber = lineD.get("lineNumber"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
145 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
146 String pageNumber = getPageName(lineD.get("cleanedPath")); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
147 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
148 if (!ocrPages.containsKey(pageNumber)) { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
149 ocrPages.put(pageNumber, new ArrayList<OCRLine>()); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
150 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
151 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
152 ArrayList<OCRLine> page = ocrPages.get(pageNumber); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
153 page.add(ocrLine); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
154 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
155 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
156 logger.debug("collected:" + textID); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
157 ocrDoc.linesInPage = ocrPages; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
158 tw.writeDoc(language, ocrDoc); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
159 tw.commitTicket(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
160 logger.debug("written:" + textID); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
161 } else { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
162 logger.debug("already done:" + textID); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
163 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
164 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
165 tw.closeTicket(language); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
166 logger.debug("everything done!"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
167 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
168 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
169 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
170 public OCRDoc searchInLinesDoc(String textId,Query query, String language) throws IOException{ |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
171 Query textIDQuery = new TermQuery(new Term("textId", textId)); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
172 BooleanQuery booleanQuery = new BooleanQuery(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
173 booleanQuery.add(textIDQuery, BooleanClause.Occur.MUST); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
174 booleanQuery.add(query, BooleanClause.Occur.MUST); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
175 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
176 List<OCRDoc> docs = searchInLines(booleanQuery, language); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
177 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
178 if (docs.size()==0) |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
179 return new OCRDoc(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
180 else |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
181 return docs.get(0); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
182 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
183 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
184 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
185 public List<OCRDoc> searchInLines(Query query, String language) |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
186 throws IOException { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
187 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
188 // first step search docs |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
189 logger.debug("Start searching docs."); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
190 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
191 TopScoreDocCollector col = (TopScoreDocCollector) search(query, |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
192 language); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
193 TopDocs docs = col.topDocs(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
194 ScoreDoc[] scoreDocs = docs.scoreDocs; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
195 ArrayList<OCRDoc> ocrDocs = new ArrayList<OCRDoc>(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
196 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
197 LanguageSearcher searcher = languageSearchers |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
198 .getSearcherByLanguage(language); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
199 LanguageSearcher lineSearcher = languageSearchersLines |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
200 .getSearcherByLanguage(language); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
201 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
202 logger.debug("found docs."); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
203 Set<String> textIds = new HashSet<String>(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
204 for (ScoreDoc doc : scoreDocs) { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
205 Document d = searcher.reader.document(doc.doc); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
206 String textID = d.get("textId"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
207 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
208 if (!textIds.contains(textID)) { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
209 textIds.add(textID); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
210 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
211 Query textIDQuery = new TermQuery(new Term("textId", textID)); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
212 //Query[] queries = new Query[] { query, textIDQuery }; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
213 //Query lineQuery = query.combine(queries); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
214 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
215 BooleanQuery booleanQuery = new BooleanQuery(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
216 booleanQuery.add(textIDQuery, BooleanClause.Occur.MUST); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
217 booleanQuery.add(query, BooleanClause.Occur.MUST); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
218 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
219 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
220 // suche jtzt die Zeilen |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
221 TopScoreDocCollector lineCol = TopScoreDocCollector.create( |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
222 MAX_LINES, false); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
223 lineSearcher.searcher.search(booleanQuery, lineCol); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
224 logger.debug("Searched:" + textID); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
225 OCRDoc ocrDoc = new OCRDoc(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
226 ocrDoc.docId = doc.doc; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
227 ocrDoc.document = d; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
228 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
229 Map<String, ArrayList<OCRLine>> ocrPages = new HashMap<String, ArrayList<OCRLine>>(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
230 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
231 for (ScoreDoc line : lineCol.topDocs().scoreDocs) { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
232 // fuege alle zeile zusammen |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
233 OCRLine ocrLine = new OCRLine(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
234 Document lineD = lineSearcher.reader.document(line.doc); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
235 ocrLine.pageDimension = lineD.get("pageDimension"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
236 ocrLine.bbox = lineD.get("bbox"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
237 ocrLine.lineNumber = lineD.get("lineNumber"); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
238 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
239 String pageNumber = getPageName(lineD.get("cleanedPath")); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
240 logger.debug("collect:" + pageNumber); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
241 if (!ocrPages.containsKey(pageNumber)) { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
242 ocrPages.put(pageNumber, new ArrayList<OCRLine>()); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
243 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
244 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
245 ArrayList<OCRLine> page = ocrPages.get(pageNumber); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
246 page.add(ocrLine); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
247 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
248 logger.debug("collected:" + textID); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
249 ocrDoc.linesInPage = ocrPages; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
250 ocrDocs.add(ocrDoc); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
251 } else { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
252 logger.debug("already done:" + textID); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
253 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
254 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
255 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
256 return ocrDocs; |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
257 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
258 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
259 /** |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
260 * Gibt aus dem Pfad denDateinamen zurueck, der dann als Seitenname benutzt |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
261 * wird. |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
262 * |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
263 * @param path |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
264 * @return |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
265 */ |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
266 private String getPageName(String path) { |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
267 File f = new File(path); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
268 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
269 return f.getName(); |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
270 } |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
271 |
72a015318a6d
CLOSED - # 16: Zeige nur eine konfigurierbare Anzahl von Treffern an.
dwinter
parents:
diff
changeset
|
272 } |