documentViewer: documentViewer.py comparison

comparison documentViewer.py @ 90:6a4a72033d58

new version with new full-text infrastructure and some more changed templates

author	casties
date	Thu, 08 Apr 2010 13:04:51 +0200
parents	a6e4f9b6729a
children	db6d594aa4d9

comparison

equal deleted inserted replaced

-:3d95ba1bf535
+:6a4a72033d58
 {'label':'main config','action':'changeDocumentViewerForm'},
 )
 # templates and forms
 viewer_main = PageTemplateFile('zpt/viewer_main', globals())
-thumbs_main = PageTemplateFile('zpt/thumbs_main', globals())
+toc_thumbs = PageTemplateFile('zpt/toc_thumbs', globals())
-image_main = PageTemplateFile('zpt/image_main', globals()) # obsolete!
+toc_text = PageTemplateFile('zpt/toc_text', globals())
+toc_figures = PageTemplateFile('zpt/toc_figures', globals())
 page_main_images = PageTemplateFile('zpt/page_main_images', globals())
 page_main_text = PageTemplateFile('zpt/page_main_text', globals())
+page_main_text_dict = PageTemplateFile('zpt/page_main_text_dict', globals())
 head_main = PageTemplateFile('zpt/head_main', globals())
 docuviewer_css = PageTemplateFile('css/docuviewer.css', globals())
 info_xml = PageTemplateFile('zpt/info_xml', globals())
 thumbs_main_rss = PageTemplateFile('zpt/thumbs_main_rss', globals())
 viewMode="images"
 return pt(docinfo=docinfo,pageinfo=pageinfo,viewMode=viewMode)
 security.declareProtected('View','index_html')
-def index_html(self,url,mode="texttool",viewMode="auto",start=None,pn=1,mk=None):
+def index_html(self,url,mode="texttool",viewMode="auto",tocMode="thumbs",start=None,pn=1,mk=None):
 '''
 view it
 @param mode: defines how to access the document behind url
 @param url: url which contains display information
-@param viewMode: if images display images, if text display text, default is images (text,images or auto)
+@param viewMode: if images display images, if text display text, default is auto (text,images or auto)
+@param tocMode: type of 'table of contents' for navigation (thumbs, text, figures)
 '''
 logging.debug("documentViewer (index) mode: %s url:%s start:%s pn:%s"%(mode,url,start,pn))
 if not hasattr(self, 'template'):
 if not getattr(self, 'digilibBaseUrl', None):
 self.digilibBaseUrl = self.findDigilibUrl() or "http://nausikaa.mpiwg-berlin.mpg.de/digitallibrary"
 docinfo = self.getDocinfo(mode=mode,url=url)
-pageinfo = self.getPageinfo(start=start,current=pn,docinfo=docinfo)
+pageinfo = self.getPageinfo(start=start,current=pn,docinfo=docinfo,viewMode=viewMode,tocMode=tocMode)
-pt = getattr(self.template, 'viewer_main')
+if tocMode != "thumbs":
+# get table of contents
+docinfo = self.getToc(mode=tocMode, docinfo=docinfo)
 if viewMode=="auto": # automodus gewaehlt
 if docinfo.get("textURL",''): #texturl gesetzt und textViewer konfiguriert
 viewMode="text"
 else:
 viewMode="images"
+pt = getattr(self.template, 'viewer_main')
 return pt(docinfo=docinfo,pageinfo=pageinfo,viewMode=viewMode,mk=self.generateMarks(mk))
 def generateMarks(self,mk):
 ret=""
-	if mk is None:
+if mk is None:
-		return ""
+return ""
+	if type(mk) is not ListType:
-	if type(mk) is not ListType:
+		mk=[mk]
-		mk=[mk]
 for m in mk:
 ret+="mk=%s"%m
 return ret
 def findDigilibUrl(self):
 """try to get the digilib URL from zogilib"""
 url = self.template.zogilib.getDLBaseUrl()
 return url
 # dom = NonvalidatingReader.parseUri(metaUrl)
 txt=urllib.urlopen(metaUrl).read()
 dom = Parse(txt)
 break
 except:
-logger("ERROR documentViewer (getIndexMata)", logging.INFO,"%s (%s)"%sys.exc_info()[0:2])
+logger("ERROR documentViewer (getIndexMeta)", logging.INFO,"%s (%s)"%sys.exc_info()[0:2])
 if dom is None:
 raise IOError("Unable to read index meta from %s"%(url))
 return dom
 metaUrl = url
 else:
 # online path
 server=self.digilibBaseUrl+"/servlet/Texter?fn="
 metaUrl=server+url.replace("/mpiwg/online","")
 for cnt in range(num_retries):
 try:
 # patch dirk encoding fehler treten dann nicht mehr auf
 # dom = NonvalidatingReader.parseUri(metaUrl)
 def getDocinfoFromTextTool(self, url, dom=None, docinfo=None):
 """parse texttool tag in index meta"""
 logger("documentViewer (getdocinfofromtexttool)", logging.INFO, "url: %s" % (url))
 if docinfo is None:
 docinfo = {}
 if docinfo.get('lang', None) is None:
 docinfo['lang'] = '' # default keine Sprache gesetzt
 if dom is None:
 dom = self.getIndexMeta(url)
 docinfo = self.getBibinfoFromTextToolPresentation(presentationUrl, docinfo=docinfo, dom=dom)
 docinfo = self.getAuthinfoFromIndexMeta(url, docinfo=docinfo, dom=dom)   # get access info
 return docinfo
 def getBibinfoFromTextToolPresentation(self,url,docinfo=None,dom=None):
 """gets the bibliographical information from the preseantion entry in texttools
 """
 docinfo = self.getDocinfoFromImagePath(url, docinfo=docinfo)
 elif mode=="filepath":
 docinfo = self.getDocinfoFromImagePath(url, docinfo=docinfo,cut=1)
 else:
 logger("documentViewer (getdocinfo)", logging.ERROR,"unknown mode!")
-raise ValueError("Unknown mode %s"%(mode))
+raise ValueError("Unknown mode %s! Has to be one of 'texttool','imagepath','filepath'."%(mode))
 logger("documentViewer (getdocinfo)", logging.INFO,"docinfo: %s"%docinfo)
 self.REQUEST.SESSION['docinfo'] = docinfo
 return docinfo
-def getPageinfo(self, current, start=None, rows=None, cols=None, docinfo=None):
+def getPageinfo(self, current, start=None, rows=None, cols=None, docinfo=None, viewMode=None, tocMode=None):
 """returns pageinfo with the given parameters"""
 pageinfo = {}
 current = getInt(current)
 pageinfo['current'] = current
 rows = int(rows or self.thumbrows)
 pageinfo['groupsize'] = grpsize
 start = getInt(start, default=(math.ceil(float(current)/float(grpsize))*grpsize-(grpsize-1)))
 # int(current / grpsize) * grpsize +1))
 pageinfo['start'] = start
 pageinfo['end'] = start + grpsize
-if docinfo is not None:
+if (docinfo is not None) and ('numPages' in docinfo):
 np = int(docinfo['numPages'])
 pageinfo['end'] = min(pageinfo['end'], np)
 pageinfo['numgroups'] = int(np / grpsize)
 if np % grpsize > 0:
 pageinfo['numgroups'] += 1
+pageinfo['viewMode'] = viewMode
+pageinfo['tocMode'] = tocMode
+pageinfo['tocPageSize'] = self.REQUEST.get('tocPageSize', '10')
+pageinfo['tocPN'] = self.REQUEST.get('tocPN', '1')
 return pageinfo
 docinfo['numPages'] = text.count("<pb ")
 return docinfo
 def getTextPage(self, mode="text", pn=1, docinfo=None):
 """returns single page from fulltext"""
-pagexml=self.template.fulltextclient.eval("/mpdl/interface/page-fragment.xql", "document=%s&mode=%s&pn=%s"%(docinfo['textURLPath'],mode,pn), outputUnicode=False)
+docpath = docinfo['textURLPath']
+if mode == "text_dict":
+textmode = "textPollux"
+else:
+textmode = mode
+pagexml=self.template.fulltextclient.eval("/mpdl/interface/page-fragment.xql", "document=%s&mode=%s&pn=%s"%(docpath,textmode,pn), outputUnicode=False)
 # post-processing downloaded xml
 pagedom = Parse(pagexml)
 # plain text mode
 if mode == "text":
 # first div contains text
 if len(pagedivs) > 0:
 pagenode = pagedivs[0]
 return serializeNode(pagenode)
 # text-with-links mode
-if mode == "textPollux":
+if mode == "text_dict":
 # first div contains text
 pagedivs = pagedom.xpath("/div")
 if len(pagedivs) > 0:
 pagenode = pagedivs[0]
 # check all a-tags
 l.setAttributeNS(None, 'target', '_blank')
 return serializeNode(pagenode)
 return "no text here"
+def getToc(self, mode="text", docinfo=None):
+"""loads table of contents and stores in docinfo"""
+logging.debug("documentViewer (gettoc) mode: %s"%(mode))
+if 'tocSize_%s'%mode in docinfo:
+# cached toc
+return docinfo
+docpath = docinfo['textURLPath']
+# we need to set a result set size
+pagesize = 1000
+pn = 1
+if mode == "text":
+queryType = "toc"
+else:
+queryType = mode
+# number of entries in toc
+tocSize = 0
+tocDiv = None
+pagexml=self.template.fulltextclient.eval("/mpdl/interface/doc-query.xql", "document=%s&queryType=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath,queryType,pagesize,pn), outputUnicode=False)
+# post-processing downloaded xml
+pagedom = Parse(pagexml)
+# get number of entries
+numdivs = pagedom.xpath("//div[@class='queryResultHits']")
+if len(numdivs) > 0:
+tocSize = int(getTextFromNode(numdivs[0]))
+# div contains text
+#pagedivs = pagedom.xpath("//div[@class='queryResultPage']")
+#if len(pagedivs) > 0:
+#    tocDiv = pagedivs[0]
+docinfo['tocSize_%s'%mode] = tocSize
+#docinfo['tocDiv_%s'%mode] = tocDiv
+return docinfo
+def getTocPage(self, mode="toc", pn=1, pageinfo=None, docinfo=None):
+"""returns single page from the table of contents"""
+# TODO: this should use the cached TOC
+if mode == "text":
+queryType = "toc"
+else:
+queryType = mode
+docpath = docinfo['textURLPath']
+pagesize = pageinfo['tocPageSize']
+pn = pageinfo['tocPN']
+pagexml=self.template.fulltextclient.eval("/mpdl/interface/doc-query.xql", "document=%s&queryType=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath,queryType,pagesize,pn), outputUnicode=False)
+# post-processing downloaded xml
+pagedom = Parse(pagexml)
+# div contains text
+pagedivs = pagedom.xpath("//div[@class='queryResultPage']")
+if len(pagedivs) > 0:
+pagenode = pagedivs[0]
+return serializeNode(pagenode)
+else:
+return "No TOC!"
 def changeDocumentViewer(self,title="",digilibBaseUrl=None,thumbrows=2,thumbcols=10,authgroups='mpiwg',RESPONSE=None):
 """init document viewer"""
 self.title=title
 self.digilibBaseUrl = digilibBaseUrl

Mercurial > hg > documentViewer

comparison documentViewer.py @ 90:6a4a72033d58