0
|
1 # -*- coding: utf-8 -*-
|
|
2
|
|
3 #Verbindet Zope mit solr. Vorraussetzung ist das Paket sunburnt, @see http://opensource.timetric.com/sunburnt/
|
|
4
|
|
5
|
|
6 from OFS.SimpleItem import SimpleItem
|
|
7 from Products.PageTemplates.PageTemplateFile import PageTemplateFile
|
|
8 import os.path
|
|
9 import sunburnt
|
|
10 from Globals import package_home
|
|
11 import httplib2
|
|
12 import urllib
|
|
13 import re
|
|
14 import xml.etree.ElementTree as ET
|
|
15 import json
|
|
16
|
|
17 #Worte die nicht in der Termliste angezeigt werden sollen #TODO: make this configurable
|
|
18
|
|
19 STOPLIST={'main_content':['forward','drucken','history','science','part','publications','projects',
|
|
20 'project','new','geschichte','institute','related','boltzmannstraße','14195'],
|
|
21
|
|
22 'title':['bd','10','11','12','18','19','20','abt','ad','di','history','geschichte','science']
|
|
23 }
|
|
24
|
|
25
|
|
26
|
|
27 def zptFile(self, path, orphaned=False):
|
|
28 """returns a page template file from the product"""
|
|
29 if orphaned:
|
|
30 # unusual case
|
|
31 pt=PageTemplateFile(os.path.join(package_home(globals()), path))
|
|
32 else:
|
|
33
|
|
34 pt=PageTemplateFile(os.path.join(package_home(globals()), path)).__of__(self)
|
|
35 return pt
|
|
36
|
|
37
|
|
38
|
|
39 class ZopeSolr(SimpleItem):
|
|
40
|
|
41
|
|
42 meta_type="ZopeSolr"
|
|
43
|
|
44 manage_options= ({'label':'Main Config','action': 'changeMain'},) + SimpleItem.manage_options
|
|
45
|
|
46 def __init__(self,id,title,solrURL):
|
|
47 self.id=id
|
|
48 self.title=title
|
|
49 self.solrURL=solrURL #URL einer solr instance bzw. einer collection, falls nicht die default collection benutzt werden soll
|
|
50
|
|
51
|
|
52 #Verbinde mit der solt Instance
|
|
53
|
|
54 def connect(self):
|
|
55 self._v_solr=sunburnt.SolrInterface(url=self.solrURL)
|
|
56
|
|
57 #erzeuge einen Link, insbesonder für faceted suche
|
|
58 #@param search: ist suchparameter, wird einfach als search=%s weitergereicht
|
|
59 #@param facetSearch: bekommt einen hash (feldname, liste der suchworte)
|
|
60
|
1
|
61 def generateLink(self,search,facetSearch={},ranges={},args={}):
|
0
|
62 ret="?search=%s"%search
|
|
63
|
|
64 for facet in facetSearch.keys():
|
|
65
|
|
66 searchTerms = facetSearch[facet]
|
|
67
|
|
68 if isinstance(searchTerms, basestring):
|
|
69 searchTerms=[searchTerms]
|
|
70
|
|
71 for searchTerm in searchTerms:
|
|
72 try:
|
|
73 ret+="&%s_fc=%s"%(facet,searchTerm.encode('utf-8'))
|
|
74 except:
|
|
75 ret+="&%s_fc=%s"%(facet,searchTerm)
|
|
76
|
|
77 for key,values in ranges.items():
|
|
78
|
|
79 if isinstance(values, basestring):
|
|
80 values=[values]
|
|
81
|
|
82 for value in values:
|
|
83 ret+="&%s_rg=%s"%(key,value)
|
|
84
|
|
85
|
1
|
86 for key,value in args.items():
|
|
87
|
|
88 if isinstance(value, basestring):
|
|
89 value=[value]
|
|
90
|
|
91 for val in value:
|
|
92 ret+="&%s=%s"%(key,val)
|
0
|
93 return ret
|
|
94
|
|
95 #hilfsmethode erzeuget immer eine liste von einträgen
|
|
96 def getList(self,param):
|
|
97 if isinstance(param, basestring):
|
|
98 param=[param]
|
|
99
|
|
100 return param
|
|
101
|
|
102 #erzeugt analog zu den Ranges in Velocity für ein numerisches Feld die Suche in ranges
|
|
103 #@param field:ist der name des Feldes in dem in Ranges gesucht werden soll
|
|
104 #@param begin anfang der ranges
|
|
105 #@param end ende der Raanges
|
|
106 #@param increment größe eines ranges
|
|
107 # für alle andere paramter @see prepareSearch
|
|
108 #@return gibt ein hash: mit range -> anzahl der Treffer in dem Ranage. e.g 1921-1950 -> 21
|
|
109 def ranges(self,field,begin,end,increment,solrQuery="",facetFields=[],start=0,rows=10,facetSearch=None,sortFacets=True):
|
|
110
|
|
111 q=self.prepareSearch(solrQuery,facetFields,start,rows,facetSearch,sortFacets)
|
|
112
|
|
113 res={}
|
|
114 if not getattr(self,'_v_solr_',None):
|
|
115 self.connect()
|
|
116
|
|
117
|
|
118
|
|
119 for x in range(begin,end,increment):
|
|
120 query={}
|
|
121 #query["%s__gt"%field]=x
|
|
122 #TODO __gt scheint nicht zu funktionieren wird zu gte (???)
|
|
123 query["%s__gte"%field]=int(x)+1
|
|
124
|
|
125 query["%s__lte"%field]=x+increment
|
|
126
|
|
127 result = q.query(**query).execute()
|
|
128
|
|
129 res["%s-%s"%(x,x+increment)]=result.result.numFound
|
|
130
|
|
131 return res
|
|
132
|
|
133
|
|
134 #prepareSearch erzeugt die Suchabfrage
|
|
135
|
|
136 #solrQuery sucht im in schema.xml bzw. solrconfig.xml festgelegt generischen Feld, hierbei werden mit blanks getrennte eintrage in "AND" zerlegt.
|
|
137 #TODO: erlaube auch suche nach phrasen mit ""
|
|
138 #facetFields:Liste der Felder, nach denen facitiert werden sollen, wirdn in facet_by in solrburn uebersetzt.
|
|
139 #start: Erste Eintrag für paginierung, anzahl der Treffer
|
|
140 #rows: anzahl der Treffer
|
|
141 #facetSearch: Hash mit Feldnamen: suchwort oder Feldname: liste von Suchworten, hast wird direkt an query von solrburnt weitergegeben,
|
|
142 #sortfacets: if true, dann werden die Ergebnisse der facetierten suche alphabetisch sortiert, ACHTUNG: das ist nicht gleich der Funktion in solr die Liste
|
|
143 #direkt sortiert zurückzubekommen, hier werden die haufigsten Werte genommen (einstellt in solrconfig.xml) und dann nur diese sortiert!
|
|
144 #ausserdem werden beim sortieren, die stopworte gefiltert!
|
|
145 #
|
|
146 #neben den direkten parameter koennen auch parameter fuer die facetierte Suche über FORM im REQUEST übergeben werden, diese Felder müssen dann
|
|
147 #mit "_fc" enden.
|
|
148 # gibt als ergebnis den folgenden Hash, so wie in http://opensource.timetric.com/sunburnt/queryingsolr.html#executing-queries-and-interpreting-the-response,
|
|
149 # http://opensource.timetric.com/sunburnt/queryingsolr.html#highlighting
|
|
150 # und http://opensource.timetric.com/sunburnt/queryingsolr.html#faceting
|
|
151 #dokumentiert. Highlighting selbst wird in sorlconfig.xml konfiguriert.
|
|
152 #return ein Queryobjet, zur eigentlichen Suche muss darauf noch execute ausgeführt werden.
|
|
153
|
1
|
154 def prepareSearch(self,solrQuery,facetFields=[],start=0,rows=10,facetSearch=None,sortFacets=True,orSearch=None):
|
0
|
155 "search solr"
|
|
156
|
|
157
|
|
158 ranges={}
|
|
159 ## deal with a form
|
|
160 if self.REQUEST:
|
|
161 constr = self.REQUEST.form
|
|
162 print constr
|
|
163 for field in constr.keys():
|
|
164
|
|
165 #facetes
|
|
166 if field.endswith("_fc"):
|
|
167 if facetSearch is None:
|
|
168 facetSearch={}
|
|
169
|
|
170 vals = constr[field]
|
|
171 if not isinstance(vals,basestring):
|
|
172
|
|
173 vals=[x.decode('utf-8') for x in vals]
|
|
174 else:
|
|
175 vals=vals.decode('utf-8')
|
1
|
176
|
|
177
|
0
|
178 facetSearch[field.replace("_fc",'')]=vals
|
|
179 #ranges form a-b
|
|
180
|
1
|
181
|
|
182 if field.endswith("_or"):
|
|
183 if orSearch is None:
|
|
184 orSearch={}
|
|
185
|
|
186 vals = constr[field]
|
|
187 if not isinstance(vals,basestring):
|
|
188
|
|
189 vals=[x.decode('utf-8') for x in vals]
|
|
190 else:
|
|
191 vals=vals.decode('utf-8')
|
|
192
|
|
193
|
|
194 orSearch[field.replace("_or",'')]=vals
|
|
195 #ranges form a-b
|
|
196
|
|
197
|
0
|
198
|
|
199 if field.endswith("_rg"):
|
|
200
|
|
201
|
|
202 splitted = "_".split(field)
|
|
203 if len(splitted)==2:
|
|
204 #ranges[field.replace("_rg","__gt")]=splitted[0]
|
|
205 #TODO __gt scheint nicht zu funktionieren wird zu gte (???)
|
|
206 ranges[field.replace("_rg","__gte")]=int(splitted[0])+1
|
|
207 ranges[field.replace("_rg","__lte")]=splitted[1]
|
|
208
|
|
209
|
|
210
|
|
211 #teste verbindung zu solr
|
|
212 if not getattr(self,'_v_solr_',None):
|
|
213 self.connect()
|
|
214
|
|
215
|
|
216
|
|
217 solrQuery = solrQuery.decode('utf-8')
|
|
218
|
|
219 #teile die suche nach " " daraus wird dann eine AND suche
|
|
220 #TODO: sollte flexibler sein. insbesondere phrasen
|
|
221 splitted= solrQuery.split(" ")
|
|
222
|
|
223 res = self._v_solr
|
|
224
|
|
225
|
|
226
|
|
227
|
|
228 res=res.query(splitted)
|
|
229 if len(ranges.keys())>0:
|
|
230 res=res.query(ranges)
|
|
231
|
|
232
|
|
233 #ubergebe alle weiteren feld an die suche.
|
|
234 if facetSearch:
|
|
235 for key,vals in facetSearch.items():
|
|
236
|
|
237 if key.endswith("_rg"):
|
|
238
|
|
239 if not isinstance(vals,basestring):
|
|
240
|
|
241 vals=[x.decode('utf-8') for x in vals]
|
|
242 else:
|
|
243 vals=[vals.decode('utf-8')]
|
|
244
|
|
245 for val in vals:
|
|
246
|
|
247 splitted = val.split("-")
|
|
248 print splitted
|
|
249 if len(splitted)==2:
|
|
250 #TODO __gt scheint nicht zu funktionieren wird zu gte (???)
|
|
251 facetSearch[key.replace("_rg","__gte")]=int(splitted[0])+1
|
|
252 facetSearch[key.replace("_rg","__lte")]=splitted[1]
|
|
253 print "I AM HERE 3"
|
|
254 print facetSearch
|
|
255 del facetSearch[key] # loesche das urspuerngliche feld
|
|
256
|
|
257 else:
|
1
|
258 if not isinstance(vals, basestring):
|
|
259 val = [x for x in vals if x!="*"] #siehe oben
|
|
260 else:
|
|
261 val = [vals]
|
0
|
262 facetSearch[key]=val
|
|
263
|
|
264
|
|
265 res=res.query(**facetSearch)
|
1
|
266
|
|
267
|
|
268 #felder mit ODER-Suche
|
|
269 if orSearch:
|
|
270
|
|
271 for key,vals in orSearch.items():
|
|
272 qr = None
|
|
273 if not "*" in vals: #dann ohne einschränkung (key:*) sucht nur nach eintragen in denen etwas im feld steht, wir wollen aber alle
|
|
274 if isinstance(vals, basestring):
|
|
275 vals = [vals]
|
|
276
|
|
277
|
|
278 for val in vals:
|
|
279 if not qr:
|
|
280 qr=self._v_solr.Q(**{key:val})
|
|
281
|
|
282 else:
|
|
283 qr=qr|self._v_solr.Q(**{key:val})
|
|
284
|
|
285
|
|
286 res=res.query(qr)
|
|
287
|
|
288
|
0
|
289
|
|
290 #wenn facetField existieren dann rufe facetierung auf
|
|
291 if len(facetFields)>0:
|
|
292 #for facet in facetFields:
|
|
293
|
|
294 # res = res.facet_by(facet)
|
|
295 res = res.facet_by(facetFields)
|
|
296
|
|
297 #res=res.paginate(start=start, rows=rows).highlight("main_content")
|
|
298
|
|
299 res=res.paginate(start=start, rows=rows)
|
|
300
|
|
301
|
|
302
|
|
303 res=res.paginate(start=start, rows=rows).highlight()
|
|
304
|
|
305 return res
|
|
306
|
|
307
|
|
308 #für die parameter @see prepareSearch
|
|
309 #erzeugt eine Suchabfrage und führt diese aus.
|
|
310 #return {"result":response.result, "hl":response.highlighting,"facetFields":facetedFields}
|
|
311
|
1
|
312 def search(self,solrQuery,facetFields=[],start=0,rows=10,facetSearch=None,sortFacets=True,orSearch=None):
|
0
|
313
|
1
|
314 res=self.prepareSearch(solrQuery,facetFields,start,rows,facetSearch,sortFacets,orSearch=orSearch)
|
0
|
315 response= res.execute()
|
|
316
|
|
317 #speichere faceted fields
|
|
318 if len(facetFields)>0:
|
|
319 facetedFields=response.facet_counts.facet_fields
|
|
320
|
|
321 if sortFacets:
|
|
322 facetedFields=self.sortFacetedFields(facetedFields)
|
|
323
|
|
324 else:
|
|
325 facetedFields={}
|
|
326
|
|
327
|
|
328
|
|
329
|
|
330 return {"result":response.result, "hl":response.highlighting,"facetFields":facetedFields}
|
|
331
|
|
332
|
|
333
|
|
334 #hilfsmethode zum sortieren über der ranges
|
|
335 def sortRanges(self,ranges):
|
|
336 x=list(ranges)
|
|
337 x.sort()
|
|
338 return x
|
|
339
|
|
340 #sortiert die Werte der FacetedFields
|
|
341 #(facetedFields ist ein hast mit feldname -> liste der (wert für das feld, anzahl der treffer für den wert)
|
|
342 #ausserdem werden die werte gemäß des angegebenen Filter gefiltert.
|
|
343
|
|
344 def sortFacetedFields(self, facetedFields,filter=STOPLIST):
|
|
345 ret={}
|
|
346
|
|
347 def cmpTuple(x,y):
|
|
348 return cmp(x[0],y[0])
|
|
349
|
|
350
|
|
351 for key in facetedFields.keys():
|
|
352 ls = facetedFields[key]
|
|
353 ls.sort(cmpTuple)
|
|
354 ret[key]=ls
|
|
355
|
|
356 if filter.get(key,None):
|
|
357 ls2=[]
|
|
358 for x in ls:
|
|
359 if x[0].encode('utf-8') not in filter[key]:
|
|
360 ls2.append(x)
|
|
361 ret[key]=ls2
|
|
362
|
|
363
|
|
364 ret[key]=[x for x in ret[key] if x[1]!=0]
|
|
365 return ret
|
|
366
|
|
367 def changeMain(self,solrURL=None,title=None,REQUEST=None,RESPONSE=None):
|
|
368 """change main settings"""
|
|
369 if solrURL:
|
|
370 self.solrURL=solrURL
|
|
371 self.title=title
|
|
372 self._v_solr=sunburnt.SolrInterface(url=solrURL)
|
|
373
|
|
374 if RESPONSE is not None:
|
|
375 RESPONSE.redirect('manage_main')
|
|
376
|
|
377
|
|
378 else:
|
|
379 pt=zptFile(self, 'zpt/ChangeZopeSolr.zpt')
|
|
380 return pt()
|
|
381
|
|
382 #sucht die je nach einsteillung in solrconfig.xml Werte mit den häufigsten Treffern oder alphabetisch sortiert zu einem
|
|
383 #bestimmten eintrag aus solr
|
|
384 #gedacht ist die methoden für die Anwendung nach dem Harvesten einer Website, es wird daher davon ausgegangen, dass sie hinter der
|
|
385 #idfield eine url steht. Wir es z.b. bei Nutch passiert. index.htm/index_html als Teil der url wird dabei unterdrückt (analog zu den harbest einstellunge für
|
|
386 # nutch für zope webseiten.
|
|
387 #@param @idfield is hierbei der Name des Feldes, das in solrschema als id defniert wurde
|
|
388 #field der Feldname von dem die Treffer gesurcht wernde sollen
|
|
389 #url die url des textes
|
|
390
|
|
391 def getTermsAsJSON(self,idfield,field,url):
|
|
392 """getTerms"""
|
|
393
|
|
394 ret=[]
|
|
395 h = httplib2.Http()
|
|
396 url = url.replace("/index.html","").replace("/index_html","")
|
|
397 if url[-1]=="/":
|
|
398 url=url[0:-1]
|
|
399
|
|
400 urlq=url.replace(":","\:")
|
|
401 urlq=urlq.replace("/","\/")
|
|
402
|
|
403 q ="http://localhost:8983/solr/mpiwgweb/select?q=%s:%s&wt=xml&tv=on&qt=tvrh&fl=%s&tv.tf=true"%(idfield,urlq,field)
|
|
404
|
|
405 resp, content = h.request(q)
|
|
406
|
|
407 root = ET.fromstring(content)
|
|
408 #uri = "http://127.0.0.1:18080/www_neu/de/aktuelles/features/feature28"
|
|
409
|
|
410 xpstr = ".//lst[@name='termVectors']/lst[@name='%s']/lst[@name='%s']/lst"%(url,field)
|
|
411
|
|
412
|
|
413 tvs = root.findall(xpstr)
|
|
414
|
|
415 for tv in tvs:
|
|
416 wd = tv.attrib['name']
|
|
417 for f in tv.findall("./int[@name='tf']"):
|
|
418 fre = f.text
|
|
419
|
|
420
|
|
421 if int(fre)>2:
|
|
422
|
|
423 ret.append('{"text":"%s","size":%s}'%(wd,fre))
|
|
424
|
|
425 retStr="["+",".join(ret)+"]"
|
|
426
|
|
427 return retStr
|
|
428
|
|
429 #tauscht im request die in neewparams angegeben parameter aus.
|
|
430 def replaceParam(self, newparams):
|
|
431 x = self.REQUEST.form.copy()
|
|
432
|
|
433 for key,value in newparams.items():
|
|
434 x[key]=value
|
|
435
|
|
436
|
|
437 retls=[]
|
|
438 for k,v in x.items():
|
|
439 if not isinstance(v,basestring):
|
|
440 for y in v:
|
|
441 retls.append((k,y))
|
|
442 else:
|
|
443 retls.append((k,v))
|
|
444
|
|
445 return "?"+"&".join(["%s=%s"%(k,urllib.quote_plus(v,'/')) for (k, v) in retls])
|
|
446
|
|
447
|
|
448
|
|
449
|
|
450 #ruft @set ranges aus, gibt das ergebnis als json zurück
|
|
451 def getRangesAsJSON(self,field,begin,end,increment):
|
|
452 """ getRangesAsJSON"""
|
|
453 res = self.ranges(field, int(begin), int(end), int(increment))
|
|
454 return json.dumps(res)
|
|
455
|
|
456
|
|
457 #return only the values of resultList whicht start with startLetter or if starLetterNonAscii all values which
|
|
458 #start with an non ascii character
|
|
459 def filter (self,resultList,startLetter=None,startLetterNonAscii=0):
|
1
|
460 ls=[]
|
0
|
461 if startLetter:
|
|
462
|
|
463 matchStr = "[\[\]'\"]*"+startLetter
|
|
464 ls = [x for x in resultList if re.match(matchStr,x[0])]
|
|
465
|
|
466 if startLetterNonAscii ==1:
|
|
467
|
|
468 ls = [x for x in resultList if not re.match("[\[\]'\"a-zA-Z].*",x[0])]
|
|
469 return ls
|
|
470
|
|
471 def manage_addZopeSolrForm(self):
|
|
472 """Form for external Links"""
|
|
473 pt=zptFile(self, 'zpt/AddZopeSolr.zpt')
|
|
474 return pt()
|
|
475
|
|
476
|
|
477 def manage_addZopeSolr(self,id,title,solrURL,RESPONSE=None):
|
|
478 """Add an external Link"""
|
|
479
|
|
480 newObj=ZopeSolr(id,title,solrURL)
|
|
481
|
|
482 self._setObject(id,newObj)
|
|
483
|
|
484
|
|
485 if RESPONSE is not None:
|
|
486 RESPONSE.redirect('manage_main')
|
|
487 |