documentViewer: MpiwgXmlTextServer.py comparison

comparison MpiwgXmlTextServer.py @ 583:ca0274423382

follow changes in html format of new text-backend.

author	casties
date	Mon, 12 Nov 2012 18:12:33 +0100
parents	fc861a6cef17
children	6000c7e24d8a

comparison

equal deleted inserted replaced

-:bf0f514b6f92
+:ca0274423382
 l.set('target', '_blank')
 if punditMode:
 self._addPunditAttributes(pagediv, pageinfo, docinfo)
-# TODO: move empty page text
-ep = dom.find(".//div[@class='emptyPage']")
-if ep is not None:
-pagediv.append(ep)
 s = serialize(pagediv)
 logging.debug("getTextPage done in %s"%(datetime.now()-startTime))
 return s
 # xml mode
 a.set('target', '_blank')
 except:
 logging.warn("processFigures: strange figure!")
+def _cleanSearchResult(self, pagediv):
+"""fixes search result html (change pbs and figures)"""
+# replace figure-tag with figureNumText
+for fig in pagediv.findall(".//span[@class='figure']"):
+txt = fig.findtext(".//span[@class='figureNumText']")
+tail = fig.tail
+fig.clear()
+fig.set('class', 'figure')
+fig.text = txt
+fig.tail = tail
+# replace lb-tag with "//"
+for lb in pagediv.findall(".//br[@class='lb']"):
+lb.tag = 'span'
+lb.text = '//'
+# replace pb-tag with "///"
+for pb in pagediv.findall(".//span[@class='pb']"):
+tail = pb.tail
+pb.clear()
+pb.set('class', 'pb')
+pb.text = '///'
+pb.tail = tail
+return pagediv
+def _cleanSearchResult2(self, pagediv):
+"""fixes search result html (change pbs and figures)"""
+# unfortunately etree can not select class.startswith('figure')
+divs = pagediv.findall(".//span[@class]")
+for d in divs:
+cls = d.get('class')
+if cls.startswith('figure'):
+# replace figure-tag with figureNumText
+txt = d.findtext(".//span[@class='figureNumText']")
+d.clear()
+d.set('class', 'figure')
+d.text = txt
+elif cls.startswith('pb'):
+# replace pb-tag with "//"
+d.clear()
+d.set('class', 'pb')
+d.text = '//'
+return pagediv
 def _fixEmptyDivs(self, pagediv):
 """fixes empty div-tags by inserting a space"""
 divs = pagediv.findall('.//div')
 for d in divs:
 return pagediv
 def getSearchResults(self, mode, query=None, pageinfo=None, docinfo=None):
 """loads list of search results and stores XML in docinfo"""
+normMode = pageinfo.get('characterNormalization', 'reg')
-logging.debug("getSearchResults mode=%s query=%s"%(mode, query))
+logging.debug("getSearchResults mode=%s query=%s norm=%s"%(mode, query, normMode))
 if mode == "none":
 return docinfo
 #TODO: put mode into query
 cachedQuery = docinfo.get('cachedQuery', None)
 if cachedQuery is not None:
 # cached search result
-if cachedQuery == '%s_%s'%(mode,query):
+if cachedQuery == '%s_%s_%s'%(mode,query,normMode):
 # same query
 return docinfo
 else:
 # different query
 del docinfo['resultSize']
 del docinfo['results']
 # cache query
-docinfo['cachedQuery'] = '%s_%s'%(mode,query)
+docinfo['cachedQuery'] = '%s_%s_%s'%(mode,query,normMode)
 # fetch full results
 docpath = docinfo['textURLPath']
 params = {'docId': docpath,
 'query': query,
 'outputFormat': 'html'}
 pagexml = self.getServerData("query/QueryDocument",urllib.urlencode(params))
 results = []
 try:
 dom = ET.fromstring(pagexml)
+# clean html output
+self._processWTags('plain', normMode, dom)
+self._cleanSearchResult(dom)
 # page content is currently in multiple <td align=left>
 alldivs = dom.findall(".//tr[@class='hit']")
 for div in alldivs:
 # change tr to div
 div.tag = 'div'
 return docinfo
 def getResultsPage(self, mode="text", query=None, pn=None, start=None, size=None, pageinfo=None, docinfo=None):
-"""returns single page from the table of contents"""
+"""returns single page from the list of search results"""
 logging.debug("getResultsPage mode=%s, pn=%s"%(mode,pn))
 # get (cached) result
 self.getSearchResults(mode=mode, query=query, pageinfo=pageinfo, docinfo=docinfo)
 resultxml = docinfo.get('results', None)

Mercurial > hg > documentViewer

comparison MpiwgXmlTextServer.py @ 583:ca0274423382