documentViewer: MpiwgXmlTextServer.py comparison

comparison MpiwgXmlTextServer.py @ 566:4a31608f8b0e

more new MpiwgXmlTextServer.

author	casties
date	Wed, 10 Oct 2012 18:09:49 +0200
parents	1b483194901c
children	8b1e20bf300d

comparison

equal deleted inserted replaced

-:1b483194901c
+:4a31608f8b0e
 # the text is in div@class=text
 pagediv = body.find(".//div[@class='text']")
 logging.debug("pagediv: %s"%repr(pagediv))
-# plain text mode
+# plain text or text-with-links mode
-if textmode == "text":
+if textmode == "text" or textmode == "dict":
 if pagediv is not None:
-# handle pb-tag
+self._processPbTag(pagediv, pageinfo)
-self._extractPbTag(pagediv, pageinfo)
+self._processFigures(pagediv, docinfo)
+#self._fixEmptyDivs(pagediv)
 # get full url assuming documentViewer is parent
 selfurl = self.getLink()
-if punditMode:
-self._addPunditAttributes(pagediv, pageinfo, docinfo)
-# fix empty div tags
-self._fixEmptyDivs(pagediv)
 # check all a-tags
 links = pagediv.findall('.//a')
-for l in links:
-href = l.get('href')
-# handle notes FIXME!
-if href and href.startswith('#note-'):
-href = href.replace('#note-',"%s#note-"%selfurl)
-l.set('href', href)
-return serialize(pagediv)
-# text-with-links mode
-elif textmode == "dict":
-if pagediv is not None:
-# handle pb-div
-self._extractPbTag(pagediv, pageinfo)
-viewerurl = docinfo['viewerUrl']
-selfurl = self.getLink()
-if punditMode:
-pagediv = self.addPunditAttributes(pagediv, pageinfo, docinfo)
-# fix empty div tags
-self._fixEmptyDivs(pagediv)
-# check all a-tags
-links = pagediv.findall(".//a")
 for l in links:
 href = l.get('href')
 if href:
 # is link with href
 linkurl = urlparse.urlparse(href)
-#logging.debug("getTextPage: linkurl=%s"%repr(linkurl))
 if linkurl.path.endswith('GetDictionaryEntries'):
 #TODO: replace wordInfo page
 # is dictionary link - change href (keeping parameters)
 #l.set('href', href.replace('http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/interface/lt/wordInfo.xql','%s/template/viewer_wordinfo'%viewerurl))
 # add target to open new page
 l.set('target', '_blank')
-if href.startswith('#note-'):
+elif href.startswith('#note-'):
-# note link
+# note link FIXME!
 l.set('href', href.replace('#note-',"%s#note-"%selfurl))
+if punditMode:
+self._addPunditAttributes(pagediv, pageinfo, docinfo)
 return serialize(pagediv)
 # xml mode
 elif textmode == "xml":
 if pagediv is not None:
 # pureXml mode WTF?
 elif textmode == "pureXml":
 if pagediv is not None:
 return serialize(pagediv)
-# gis mode
+# gis mode FIXME!
 elif textmode == "gis":
 if pagediv is not None:
 # fix empty div tags
 self._fixEmptyDivs(pagediv)
 # check all a-tags
 return serialize(pagediv)
 return None
-def _extractPbTag(self, pagediv, pageinfo):
+def _processPbTag(self, pagediv, pageinfo):
 """extracts information from pb-tag and removes it from pagediv"""
 pbdiv = pagediv.find(".//span[@class='pb']")
 if pbdiv is None:
 logging.warning("getTextPage: no pb-span!")
 return pagediv
 # check all div-tags
 divs = pagediv.findall(".//div")
 for d in divs:
 id = d.get('id')
 if id:
+# TODO: check path (cf RFC2396)
 d.set('about', "http://echo.mpiwg-berlin.mpg.de/%s/pn=%s/#%s"%(textid,pn,id))
 cls = d.get('class','')
 cls += ' pundit-content'
 d.set('class', cls.strip())
 return pagediv
+def _processFigures(self, pagediv, docinfo):
+"""processes figure-tags"""
+divs = pagediv.findall(".//span[@class='figure']")
+scalerUrl = docinfo['digilibScalerUrl']
+viewerUrl = docinfo['digilibViewerUrl']
+for d in divs:
+try:
+a = d.find('a')
+img = a.find('img')
+imgsrc = img.get('src')
+imgurl = urlparse.urlparse(imgsrc)
+imgq = imgurl.query
+imgparams = urlparse.parse_qs(imgq)
+fn = imgparams.get('fn', None)
+if fn is not None:
+# parse_qs puts parameters in lists
+fn = fn[0]
+# TODO: check valid path
+# fix img@src
+newsrc = '%s?fn=%s&dw=200&dh=200'%(scalerUrl,fn)
+img.set('src', newsrc)
+# fix a@href
+newlink = '%s?fn=%s'%(viewerUrl,fn)
+a.set('href', newlink)
+a.set('target', '_blank')
+except:
+logging.warn("processFigures: strange figure!")
 def _fixEmptyDivs(self, pagediv):
 """fixes empty div-tags by inserting a space"""
 divs = pagediv.findall('.//div')
 for d in divs:
 if len(d) == 0 and not d.text:

Mercurial > hg > documentViewer

comparison MpiwgXmlTextServer.py @ 566:4a31608f8b0e