fulltextIndexer: src/de/mpiwg/dwinter/lucencetools/documents/.svn/text-base/FileDocument.java.svn-base annotate

annotate src/de/mpiwg/dwinter/lucencetools/documents/.svn/text-base/FileDocument.java.svn-base @ 0:dc7622afcfea default tip

initial

author	dwinter
date	Wed, 03 Nov 2010 12:33:16 +0100
parents
children

rev	line source
0 dc7622afcfea initial dwinter parents: diff changeset	1 /* */ package de.mpiwg.dwinter.lucencetools.documents;
dc7622afcfea initial dwinter parents: diff changeset	2 /* */
dc7622afcfea initial dwinter parents: diff changeset	3 /* */ import de.mpiwg.dwinter.lucencetools.analyzer.XMLFilteredReader;
dc7622afcfea initial dwinter parents: diff changeset	4 /* */ import java.io.File;
dc7622afcfea initial dwinter parents: diff changeset	5 /* */ import java.io.FileInputStream;
dc7622afcfea initial dwinter parents: diff changeset	6 /* */ import java.io.IOException;
dc7622afcfea initial dwinter parents: diff changeset	7 /* */ import java.io.Reader;
dc7622afcfea initial dwinter parents: diff changeset	8 /* */ import org.apache.lucene.document.DateTools;
dc7622afcfea initial dwinter parents: diff changeset	9 /* */ import org.apache.lucene.document.DateTools.Resolution;
dc7622afcfea initial dwinter parents: diff changeset	10 /* */ import org.apache.lucene.document.Document;
dc7622afcfea initial dwinter parents: diff changeset	11 /* */ import org.apache.lucene.document.Field;
dc7622afcfea initial dwinter parents: diff changeset	12 /* */ import org.apache.lucene.document.Field.Index;
dc7622afcfea initial dwinter parents: diff changeset	13 /* */ import org.apache.lucene.document.Field.Store;
dc7622afcfea initial dwinter parents: diff changeset	14 /* */
dc7622afcfea initial dwinter parents: diff changeset	15 /* */ public class FileDocument
dc7622afcfea initial dwinter parents: diff changeset	16 /* */ {
dc7622afcfea initial dwinter parents: diff changeset	17
dc7622afcfea initial dwinter parents: diff changeset	18 public static String toXML(Document doc){
dc7622afcfea initial dwinter parents: diff changeset	19 //String path = doc.get("path");
dc7622afcfea initial dwinter parents: diff changeset	20 String cleanedPath = doc.get("cleanedPath");
dc7622afcfea initial dwinter parents: diff changeset	21 String textId = doc.get("textId");
dc7622afcfea initial dwinter parents: diff changeset	22 String md = doc.get("dcMetaData");
dc7622afcfea initial dwinter parents: diff changeset	23 String ret = "<result>";
dc7622afcfea initial dwinter parents: diff changeset	24 ret+= "<cleanedPath>"+cleanedPath+"</cleanedPath>";
dc7622afcfea initial dwinter parents: diff changeset	25 ret+= "<textId>"+textId.replace("/",":")+"</textId>";
dc7622afcfea initial dwinter parents: diff changeset	26 ret+= "<textIdCleaned>"+textId.replace("/","_")+"</textIdCleaned>";
dc7622afcfea initial dwinter parents: diff changeset	27 ret+= "<md>"+md+"</md>";
dc7622afcfea initial dwinter parents: diff changeset	28 ret+="</result>";
dc7622afcfea initial dwinter parents: diff changeset	29 return ret;
dc7622afcfea initial dwinter parents: diff changeset	30
dc7622afcfea initial dwinter parents: diff changeset	31 }
dc7622afcfea initial dwinter parents: diff changeset	32 /* */ public static Document Document(File f, String cleanedPath,String language, String textId)
dc7622afcfea initial dwinter parents: diff changeset	33 /* */ throws IOException
dc7622afcfea initial dwinter parents: diff changeset	34 /* */ {
dc7622afcfea initial dwinter parents: diff changeset	35 /* 63 */ return Document(f, cleanedPath,language, null, textId);
dc7622afcfea initial dwinter parents: diff changeset	36 /* */ }
dc7622afcfea initial dwinter parents: diff changeset	37 /* */
dc7622afcfea initial dwinter parents: diff changeset	38 /* */ public static Document Document(File f, String cleanedPath,String language, String dcMetaData, String textId)
dc7622afcfea initial dwinter parents: diff changeset	39 /* */ throws IOException
dc7622afcfea initial dwinter parents: diff changeset	40 /* */ {
dc7622afcfea initial dwinter parents: diff changeset	41 /* 70 */ Document doc = new Document();
dc7622afcfea initial dwinter parents: diff changeset	42 /* */
dc7622afcfea initial dwinter parents: diff changeset	43 /* 74 */ doc.add(new Field("path", f.getCanonicalPath(), Field.Store.YES, Field.Index.NOT_ANALYZED));
dc7622afcfea initial dwinter parents: diff changeset	44 /* 74 */ doc.add(new Field("cleanedPath", cleanedPath, Field.Store.YES, Field.Index.NOT_ANALYZED));
dc7622afcfea initial dwinter parents: diff changeset	45 /* 75 */ if (dcMetaData == null)
dc7622afcfea initial dwinter parents: diff changeset	46 /* 76 */ dcMetaData = "";
dc7622afcfea initial dwinter parents: diff changeset	47 /* 77 */ doc.add(new Field("dcMetaData", dcMetaData, Field.Store.YES, Field.Index.ANALYZED));
dc7622afcfea initial dwinter parents: diff changeset	48 /* */
dc7622afcfea initial dwinter parents: diff changeset	49 /* 79 */ if (textId == null)
dc7622afcfea initial dwinter parents: diff changeset	50 /* 80 */ textId = "";
dc7622afcfea initial dwinter parents: diff changeset	51 /* 81 */ doc.add(new Field("textId", textId, Field.Store.YES, Field.Index.NOT_ANALYZED));
dc7622afcfea initial dwinter parents: diff changeset	52 /* */
dc7622afcfea initial dwinter parents: diff changeset	53 /* 87 */ doc.add(
dc7622afcfea initial dwinter parents: diff changeset	54 /* 89 */ new Field("modified",
dc7622afcfea initial dwinter parents: diff changeset	55 /* 88 */ DateTools.timeToString(f.lastModified(), DateTools.Resolution.MINUTE),
dc7622afcfea initial dwinter parents: diff changeset	56 /* 89 */ Field.Store.YES, Field.Index.NOT_ANALYZED));
dc7622afcfea initial dwinter parents: diff changeset	57 /* */
dc7622afcfea initial dwinter parents: diff changeset	58 /* 95 */ Reader in = new XMLFilteredReader(new FileInputStream(f), "UTF-8");
dc7622afcfea initial dwinter parents: diff changeset	59 /* */
dc7622afcfea initial dwinter parents: diff changeset	60 /* 98 */ doc.add(new Field("contents", in));
dc7622afcfea initial dwinter parents: diff changeset	61 /* */
dc7622afcfea initial dwinter parents: diff changeset	62 /* 105 */ doc.add(new Field("language", language, Field.Store.YES, Field.Index.NOT_ANALYZED));
dc7622afcfea initial dwinter parents: diff changeset	63 /* */
dc7622afcfea initial dwinter parents: diff changeset	64 /* 107 */ return doc;
dc7622afcfea initial dwinter parents: diff changeset	65 /* */ }
dc7622afcfea initial dwinter parents: diff changeset	66
dc7622afcfea initial dwinter parents: diff changeset	67
dc7622afcfea initial dwinter parents: diff changeset	68 /* */ }
dc7622afcfea initial dwinter parents: diff changeset	69
dc7622afcfea initial dwinter parents: diff changeset	70 /* Location: /private/tmp/fulltextIndexer.jar
dc7622afcfea initial dwinter parents: diff changeset	71 * Qualified Name: de.mpiwg.dwinter.lucencetools.documents.FileDocument
dc7622afcfea initial dwinter parents: diff changeset	72 * JD-Core Version: 0.5.4
dc7622afcfea initial dwinter parents: diff changeset	73 */

Mercurial > hg > fulltextIndexer

annotate src/de/mpiwg/dwinter/lucencetools/documents/.svn/text-base/FileDocument.java.svn-base @ 0:dc7622afcfea default tip