documentViewer/MpdlXmlTextServer.py - view

File: [Repository] / documentViewer / MpdlXmlTextServer.py
Revision 1.220: download - view: text, annotated - select for diffs - revision graph
Thu Dec 23 17:05:01 2010 UTC (13 years, 6 months ago) by casties
Branches: MAIN
CVS tags: HEAD

new getInfoFromPage to read multiple parameters at once

1: 2: from OFS.SimpleItem import SimpleItem 3: from Products.PageTemplates.PageTemplateFile import PageTemplateFile 4: from Ft.Xml import EMPTY_NAMESPACE, Parse 5: 6: import sys 7: import logging 8: import urllib 9: import documentViewer 10: from documentViewer import getTextFromNode, serializeNode 11: 12: class MpdlXmlTextServer(SimpleItem): 13: """TextServer implementation for MPDL-XML eXist server""" 14: meta_type="MPDL-XML TextServer" 15: 16: manage_options=( 17: {'label':'Config','action':'manage_changeMpdlXmlTextServerForm'}, 18: )+SimpleItem.manage_options 19: 20: manage_changeMpdlXmlTextServerForm = PageTemplateFile("zpt/manage_changeMpdlXmlTextServer", globals()) 21: 22: def __init__(self,id,title="",serverUrl="http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/interface/", serverName=None, timeout=40): 23: """constructor""" 24: self.id=id 25: self.title=title 26: self.timeout = timeout 27: if serverName is None: 28: self.serverUrl = serverUrl 29: else: 30: self.serverUrl = "http://%s/mpdl/interface/"%serverName 31: 32: def getHttpData(self, url, data=None): 33: """returns result from url+data HTTP request""" 34: return documentViewer.getHttpData(url,data,timeout=self.timeout) 35: 36: def getServerData(self, method, data=None): 37: """returns result from text server for method+data""" 38: url = self.serverUrl+method 39: return documentViewer.getHttpData(url,data,timeout=self.timeout) 40: 41: def getSearch(self, pn=1, pageinfo=None, docinfo=None, query=None, queryType=None, lemma=None, characterNormalization=None, optionToggle=None): 42: """get search list""" 43: docpath = docinfo['textURLPath'] 44: url = docinfo['url'] 45: pagesize = pageinfo['queryPageSize'] 46: pn = pageinfo['searchPN'] 47: sn = pageinfo['sn'] 48: highlightQuery = pageinfo['highlightQuery'] 49: query =pageinfo['query'] 50: queryType =pageinfo['queryType'] 51: viewMode= pageinfo['viewMode'] 52: tocMode = pageinfo['tocMode'] 53: characterNormalization = pageinfo['characterNormalization'] 54: optionToggle = pageinfo['optionToggle'] 55: tocPN = pageinfo['tocPN'] 56: selfurl = self.absolute_url() 57: 58: data = self.getServerData("doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&sn=%s&viewMode=%s&characterNormalization=%s&optionToggle=%s&highlightQuery=%s"%(docpath, 'text', queryType, urllib.quote(query), pagesize, pn, sn, viewMode,characterNormalization,optionToggle ,urllib.quote(highlightQuery))) 59: #page=self.template.fulltextclient.eval("/mpdl/interface/doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&sn=%s&viewMode=%s&highlightQuery=%s"%(docpath, 'text', queryType, query, pagesize, pn, sn, viewMode,highlightQuery) ,outputUnicode=False) 60: 61: pagexml = data.replace('?document=%s'%str(docpath),'?url=%s'%url) 62: pagedom = Parse(pagexml) 63: if (queryType=="fulltext")or(queryType=="xpath")or(queryType=="xquery")or(queryType=="fulltextMorphLemma"): 64: pagedivs = pagedom.xpath("//div[@class='queryResultPage']") 65: if len(pagedivs)>0: 66: pagenode=pagedivs[0] 67: links=pagenode.xpath("//a") 68: for l in links: 69: hrefNode = l.getAttributeNodeNS(None, u"href") 70: if hrefNode: 71: href = hrefNode.nodeValue 72: if href.startswith('page-fragment.xql'): 73: selfurl = self.absolute_url() 74: pagexml=href.replace('mode=text','mode=texttool&viewMode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&tocMode=%s&searchPN=%s&tocPN=%s&optionToggle=%s&characterNormalization=%s'%(viewMode,queryType,urllib.quote(query),pagesize,pn,tocMode,pn,tocPN,optionToggle,characterNormalization)) 75: hrefNode.nodeValue = pagexml.replace('page-fragment.xql','%s'%selfurl) 76: return serializeNode(pagenode) 77: if (queryType=="fulltextMorph"): 78: pagedivs = pagedom.xpath("//div[@class='queryResult']") 79: if len(pagedivs)>0: 80: pagenode=pagedivs[0] 81: links=pagenode.xpath("//a") 82: for l in links: 83: hrefNode = l.getAttributeNodeNS(None, u"href") 84: if hrefNode: 85: href = hrefNode.nodeValue 86: if href.startswith('page-fragment.xql'): 87: selfurl = self.absolute_url() 88: pagexml=href.replace('mode=text','mode=texttool&viewMode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&tocMode=%s&searchPN=%s&tocPN=%s&optionToggle=%s&characterNormalization=%s'%(viewMode,queryType,urllib.quote(query),pagesize,pn,tocMode,pn,tocPN,optionToggle,characterNormalization)) 89: hrefNode.nodeValue = pagexml.replace('page-fragment.xql','%s'%selfurl) 90: if href.startswith('../lt/lemma.xql'): 91: hrefNode.nodeValue = href.replace('../lt/lemma.xql','%s/template/head_main_lemma_New'%(selfurl)) 92: l.setAttributeNS(None, 'target', '_blank') 93: l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=400, scrollbars=1'); return false;") 94: l.setAttributeNS(None, 'onClick', 'popupWin.focus();') 95: pagedivs = pagedom.xpath("//div[@class='queryResultMorphExpansion']") 96: return serializeNode(pagenode) 97: if (queryType=="ftIndex")or(queryType=="ftIndexMorph"): 98: pagedivs= pagedom.xpath("//div[@class='queryResultPage']") 99: if len(pagedivs)>0: 100: pagenode=pagedivs[0] 101: links=pagenode.xpath("//a") 102: for l in links: 103: hrefNode = l.getAttributeNodeNS(None, u"href") 104: if hrefNode: 105: href = hrefNode.nodeValue 106: hrefNode.nodeValue=href.replace('mode=text','mode=texttool&viewMode=%s&tocMode=%s&tocPN=%s&pn=%s&optionToggle=%s&characterNormalization=%s'%(viewMode,tocMode,tocPN,pn,optionToggle,characterNormalization)) 107: if href.startswith('../lt/lex.xql'): 108: hrefNode.nodeValue = href.replace('../lt/lex.xql','%s/template/head_main_voc'%selfurl) 109: l.setAttributeNS(None, 'target', '_blank') 110: l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=400, scrollbars=1'); return false;") 111: l.setAttributeNS(None, 'onClick', 'popupWin.focus();') 112: if href.startswith('../lt/lemma.xql'): 113: hrefNode.nodeValue = href.replace('../lt/lemma.xql','%s/template/head_main_lemma'%selfurl) 114: l.setAttributeNS(None, 'target', '_blank') 115: l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=400, scrollbars=1'); return false;") 116: l.setAttributeNS(None, 'onClick', 'popupWin.focus();') 117: return serializeNode(pagenode) 118: return "no text here" 119: 120: 121: def getNumTextPages (self, docinfo=None): 122: """get list of pages from fulltext (texts without images) and put in docinfo""" 123: logging.debug("getNumTextPages") 124: docpath = docinfo['textURLPath'] 125: selfurl = self.absolute_url() 126: #viewMode= pageinfo['viewMode'] 127: if 'numPages' in docinfo: 128: # allredy there 129: return docinfo 130: 131: text = self.getServerData("page-fragment.xql","document=%s"%(docinfo['textURLPath'])) 132: dom =Parse(text) 133: pagedivs = dom.xpath("//div[@class='countPages']") 134: logging.debug ("pagedivs=%s"%(pagedivs)) 135: if len(pagedivs)>0: 136: docinfo['numPages']= int(getTextFromNode(pagedivs[0])) 137: return docinfo 138: 139: def getTocEntries (self, docinfo=None): 140: """ number of text entries""" 141: self.getInfoFromPage(docinfo) 142: return docinfo['tocEntries'] 143: 144: def getFigureEntries (self, docinfo=None): 145: """ number of figure entries""" 146: self.getInfoFromPage(docinfo) 147: return docinfo['figureEntries'] 148: 149: def getGisPlaces(self, docinfo=None, pageinfo=None): 150: """ Show all Gis Places of whole Page""" 151: xpath='//place' 152: docpath = docinfo.get('textURLPath',None) 153: if not docpath: 154: return None 155: 156: url = docinfo['url'] 157: selfurl = self.absolute_url() 158: pn = pageinfo['current'] 159: hrefList=[] 160: myList= "" 161: text=self.getServerData("xpath.xql", "document=%s&xpath=%s&pn=%s"%(docinfo['textURLPath'],xpath,pn)) 162: dom = Parse(text) 163: result = dom.xpath("//result/resultPage/place") 164: for l in result: 165: hrefNode= l.getAttributeNodeNS(None, u"id") 166: href= hrefNode.nodeValue 167: hrefList.append(href) 168: myList = ",".join(hrefList) 169: logging.debug("getGisPlaces :%s"%(myList)) 170: return myList 171: 172: def getAllGisPlaces (self, docinfo=None, pageinfo=None): 173: """Show all Gis Places of whole Book """ 174: xpath ='//echo:place' 175: docpath =docinfo['textURLPath'] 176: url = docinfo['url'] 177: selfurl =self.absolute_url() 178: pn =pageinfo['current'] 179: hrefList=[] 180: myList="" 181: text=self.getServerData("xpath.xql", "document=%s&xpath=%s"%(docinfo['textURLPath'],xpath)) 182: dom =Parse(text) 183: result = dom.xpath("//result/resultPage/place") 184: 185: for l in result: 186: hrefNode = l.getAttributeNodeNS(None, u"id") 187: href= hrefNode.nodeValue 188: hrefList.append(href) 189: myList = ",".join(hrefList) 190: logging.debug("getALLGisPlaces :%s"%(myList)) 191: return myList 192: 193: def getOrigPages (self, docinfo=None, pageinfo=None): 194: """Show original page """ 195: docpath = docinfo.get('textURLPath',None) 196: if not docpath: 197: return None 198: selfurl = self.absolute_url() 199: pn =pageinfo['current'] 200: 201: viewMode= pageinfo['viewMode'] 202: text = self.getServerData("page-fragment.xql","document=%s&mode=%s&pn=%s"%(docinfo['textURLPath'], 'text', pn)) 203: dom =Parse(text) 204: pagedivs = dom.xpath("//div[@class='pageNumberOrig']") 205: if len(pagedivs)>0: 206: originalPage= getTextFromNode(pagedivs[0]) 207: #return docinfo['originalPage'] 208: return originalPage 209: 210: def getAllPlaces (self, docinfo=None): 211: """Show all Places if no places than 0""" 212: self.getInfoFromPage(docinfo) 213: return docinfo['allPlaces'] 214: 215: def getInfoFromPage(self, docinfo=None): 216: """ extract diverse info from page-fragment""" 217: docpath = docinfo['textURLPath'] 218: if 'allPlaces' in docinfo: 219: # allredy there 220: return docinfo 221: 222: if (docpath is not None): 223: text = self.getServerData("page-fragment.xql","document=%s"%(docinfo['textURLPath'])) 224: dom = Parse(text) 225: # figureEntries 226: pagedivs = dom.xpath("//div[@class='countFigureEntries']") 227: s = getTextFromNode(pagedivs[0]) 228: try: 229: docinfo['figureEntries'] = int(s) 230: except: 231: docinfo['figureEntries'] = 0 232: # tocEntries 233: pagedivs = dom.xpath("//div[@class='countTocEntries']") 234: s = getTextFromNode(pagedivs[0]) 235: try: 236: docinfo['tocEntries'] = int(s) 237: except: 238: docinfo['tocEntries'] = 0 239: # allPlaces 240: pagedivs = dom.xpath("//div[@class='countPlaces']") 241: s = getTextFromNode(pagedivs[0]) 242: try: 243: docinfo['allPlaces'] = int(s) 244: except: 245: docinfo['allPlaces'] = 0 246: 247: else: 248: # no full text -- init to 0 249: docinfo['figureEntries'] = 0 250: docinfo['tocEntries'] = 0 251: docinfo['allPlaces'] = 0 252: 253: return docinfo 254: 255: 256: def getTextPage(self, mode="text", pn=1, docinfo=None, pageinfo=None, viewMode=None, tocMode=None, tocPN=None, characterNormalization="reg", highlightQuery=None, sn=None, optionToggle=None): 257: """returns single page from fulltext""" 258: docpath = docinfo['textURLPath'] 259: path = docinfo['textURLPath'] 260: url = docinfo['url'] 261: name = docinfo['name'] 262: viewMode= pageinfo['viewMode'] 263: sn = pageinfo['sn'] 264: highlightQuery = pageinfo['highlightQuery'] 265: 266: tocMode = pageinfo['tocMode'] 267: characterNormalization=pageinfo['characterNormalization'] 268: tocPN = pageinfo['tocPN'] 269: selfurl = self.absolute_url() 270: if mode == "text_dict": 271: textmode = "textPollux" 272: else: 273: textmode = mode 274: #logging.debug("documentViewer highlightQuery: %s"%(highlightQuery)) 275: textParam = "document=%s&mode=%s&pn=%s&characterNormalization=%s"%(docpath,textmode,pn,characterNormalization) 276: if highlightQuery is not None: 277: textParam +="&highlightQuery=%s&sn=%s"%(urllib.quote(highlightQuery),sn) 278: #logging.debug("documentViewer highlightQuery: %s"%(highlightQuery)) 279: pagexml = self.getServerData("page-fragment.xql",textParam) 280: logging.debug("documentViewer highlightQuery: %s"%(highlightQuery)) 281: #pagexml=self.template.fulltextclient.eval("/mpdl/interface/page-fragment.xql", textParam, outputUnicode=False) 282: 283: pagedom = Parse(pagexml) 284: # plain text mode 285: if mode == "text": 286: # first div contains text 287: pagedivs = pagedom.xpath("/div") 288: if len(pagedivs) > 0: 289: pagenode = pagedivs[0] 290: links = pagenode.xpath("//a") 291: for l in links: 292: hrefNode = l.getAttributeNodeNS(None, u"href") 293: if hrefNode: 294: href= hrefNode.nodeValue 295: if href.startswith('#note-'): 296: hrefNode.nodeValue = href.replace('#note-',"?url=%s&viewMode=%s&tocMode=%s&tocPN=%s&pn=%s#note-"%(url,viewMode,tocMode,tocPN,pn)) 297: return serializeNode(pagenode) 298: if mode == "xml": 299: # first div contains text 300: pagedivs = pagedom.xpath("/div") 301: if len(pagedivs) > 0: 302: pagenode = pagedivs[0] 303: return serializeNode(pagenode) 304: if mode == "gis": 305: # first div contains text 306: pagedivs = pagedom.xpath("/div") 307: if len(pagedivs) > 0: 308: pagenode = pagedivs[0] 309: links =pagenode.xpath("//a") 310: for l in links: 311: hrefNode =l.getAttributeNodeNS(None, u"href") 312: if hrefNode: 313: href=hrefNode.nodeValue 314: if href.startswith('http://chinagis.mpiwg-berlin.mpg.de'): 315: hrefNode.nodeValue =href.replace('chinagis_REST/REST/db/chgis/mpdl','chinagis/REST/db/mpdl/%s'%name) 316: l.setAttributeNS(None, 'target', '_blank') 317: return serializeNode(pagenode) 318: 319: if mode == "pureXml": 320: # first div contains text 321: pagedivs = pagedom.xpath("/div") 322: if len(pagedivs) > 0: 323: pagenode = pagedivs[0] 324: return serializeNode(pagenode) 325: # text-with-links mode 326: if mode == "text_dict": 327: # first div contains text 328: pagedivs = pagedom.xpath("/div") 329: if len(pagedivs) > 0: 330: pagenode = pagedivs[0] 331: # check all a-tags 332: links = pagenode.xpath("//a") 333: for l in links: 334: hrefNode = l.getAttributeNodeNS(None, u"href") 335: if hrefNode: 336: # is link with href 337: href = hrefNode.nodeValue 338: if href.startswith('lt/lex.xql'): 339: # is pollux link 340: selfurl = self.absolute_url() 341: # change href 342: hrefNode.nodeValue = href.replace('lt/lex.xql','%s/template/head_main_voc'%selfurl) 343: # add target 344: l.setAttributeNS(None, 'target', '_blank') 345: l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=700, scrollbars=1'); return false;") 346: l.setAttributeNS(None, 'onClick', 'popupWin.focus();') 347: if href.startswith('lt/lemma.xql'): 348: selfurl = self.absolute_url() 349: hrefNode.nodeValue = href.replace('lt/lemma.xql','%s/template/head_main_lemma'%selfurl) 350: l.setAttributeNS(None, 'target', '_blank') 351: l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=700, scrollbars=1'); return false;") 352: l.setAttributeNS(None, 'onClick', 'popupWin.focus();') 353: if href.startswith('#note-'): 354: hrefNode.nodeValue = href.replace('#note-',"?url=%s&viewMode=%s&tocMode=%s&tocPN=%s&pn=%s#note-"%(url,viewMode,tocMode,tocPN,pn)) 355: return serializeNode(pagenode) 356: return "no text here" 357: 358: def getTranslate(self, query=None, language=None): 359: """translate into another languages""" 360: data = self.getServerData("lt/lex.xql","document=&language="+str(language)+"&query="+urllib.quote(query)) 361: #pagexml=self.template.fulltextclient.eval("/mpdl/interface/lt/lex.xql","document=&language="+str(language)+"&query="+url_quote(str(query))) 362: return data 363: 364: def getLemma(self, lemma=None, language=None): 365: """simular words lemma """ 366: data = self.getServerData("lt/lemma.xql","document=&language="+str(language)+"&lemma="+urllib.quote(lemma)) 367: #pagexml=self.template.fulltextclient.eval("/mpdl/interface/lt/lemma.xql","document=&language="+str(language)+"&lemma="+url_quote(str(lemma))) 368: return data 369: 370: def getLemmaNew(self, query=None, language=None): 371: """simular words lemma """ 372: data = self.getServerData("lt/lemma.xql","document=&language="+str(language)+"&lemma="+urllib.quote(query)) 373: #pagexml=self.template.fulltextclient.eval("/mpdl/interface/lt/lemma.xql","document=&language="+str(language)+"&lemma="+url_quote(str(query))) 374: return data 375: 376: def getQuery (self, docinfo=None, pageinfo=None, query=None, queryType=None, pn=1, optionToggle=None): 377: """number of""" 378: docpath = docinfo['textURLPath'] 379: pagesize = pageinfo['queryPageSize'] 380: pn = pageinfo['searchPN'] 381: query =pageinfo['query'] 382: queryType =pageinfo['queryType'] 383: tocSearch = 0 384: tocDiv = None 385: 386: pagexml = self.getServerData("doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath, 'text', queryType, urllib.quote(query), pagesize, pn)) 387: #pagexml=self.template.fulltextclient.eval("/mpdl/interface/doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath, 'text', queryType, query, pagesize, pn) ,outputUnicode=False) 388: pagedom = Parse(pagexml) 389: numdivs = pagedom.xpath("//div[@class='queryResultHits']") 390: tocSearch = int(getTextFromNode(numdivs[0])) 391: logging.debug("documentViewer (gettoc) tocSearch: %s"%(tocSearch)) 392: tc=int((tocSearch/10)+1) 393: logging.debug("documentViewer (gettoc) tc: %s"%(tc)) 394: return tc 395: 396: def getQueryResultHits(self, docinfo=None, pageinfo=None, query=None, queryType=None, pn=1, optionsClose=None): 397: 398: """number of hits in Search mode""" 399: docpath = docinfo['textURLPath'] 400: pagesize = pageinfo['queryPageSize'] 401: pn = pageinfo['searchPN'] 402: query =pageinfo['query'] 403: queryType =pageinfo['queryType'] 404: tocSearch = 0 405: tocDiv = None 406: 407: pagexml = self.getServerData("doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath, 'text', queryType, urllib.quote(query), pagesize, pn)) 408: #pagexml=self.template.fulltextclient.eval("/mpdl/interface/doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath, 'text', queryType, query, pagesize, pn) ,outputUnicode=False) 409: pagedom = Parse(pagexml) 410: numdivs = pagedom.xpath("//div[@class='queryResultHits']") 411: tocSearch = int(getTextFromNode(numdivs[0])) 412: tc=int((tocSearch/10)+1) 413: return tc 414: 415: def getQueryResultHitsText(self, docinfo=None, pageinfo=None): 416: """number of hits in Text of Contents mode""" 417: selfurl = self.absolute_url() 418: docpath = docinfo['textURLPath'] 419: viewMode= pageinfo['viewMode'] 420: text = self.getServerData("page-fragment.xql","document=%s&mode=%s"%(docinfo['textURLPath'], 'text')) 421: dom =Parse(text) 422: pagedivs = dom.xpath("//div[@class='countTocEntries']") 423: logging.debug ("pagedivs=%s"%(pagedivs)) 424: if len(pagedivs)>0: 425: originalPage= (getTextFromNode(pagedivs[0])) 426: tc = int (originalPage) 427: tc1 =tc/30+1 428: return tc1 429: 430: def getQueryResultHitsFigures(self, docinfo=None, pageinfo=None): 431: """number of hits in Text of Figures mode""" 432: 433: selfurl = self.absolute_url() 434: docpath = docinfo['textURLPath'] 435: viewMode= pageinfo['viewMode'] 436: text = self.getServerData("page-fragment.xql","document=%s&mode=%s"%(docinfo['textURLPath'], 'text')) 437: dom =Parse(text) 438: pagedivs = dom.xpath("//div[@class='countFigureEntries']") 439: logging.debug ("pagedivs=%s"%(pagedivs)) 440: if len(pagedivs)>0: 441: originalPage= (getTextFromNode(pagedivs[0])) 442: tc = int (originalPage) 443: tc1 =tc/30+1 444: return tc1 445: 446: 447: def getToc(self, mode="text", docinfo=None): 448: """loads table of contents and stores in docinfo""" 449: logging.debug("documentViewer (gettoc) mode: %s"%(mode)) 450: if mode == "none": 451: return docinfo 452: if 'tocSize_%s'%mode in docinfo: 453: # cached toc 454: return docinfo 455: 456: docpath = docinfo['textURLPath'] 457: # we need to set a result set size 458: pagesize = 1000 459: pn = 1 460: if mode == "text": 461: queryType = "toc" 462: else: 463: queryType = mode 464: # number of entries in toc 465: tocSize = 0 466: tocDiv = None 467: 468: pagexml = self.getServerData("doc-query.xql","document=%s&queryType=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath,queryType, pagesize, pn)) 469: #pagexml=self.template.fulltextclient.eval("/mpdl/interface/doc-query.xql", "document=%s&queryType=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath,queryType,pagesize,pn), outputUnicode=False) 470: # post-processing downloaded xml 471: pagedom = Parse(pagexml) 472: # get number of entries 473: numdivs = pagedom.xpath("//div[@class='queryResultHits']") 474: if len(numdivs) > 0: 475: tocSize = int(getTextFromNode(numdivs[0])) 476: docinfo['tocSize_%s'%mode] = tocSize 477: return docinfo 478: 479: def getTocPage(self, mode="text", pn=1, pageinfo=None, docinfo=None): 480: """returns single page from the table of contents""" 481: # TODO: this should use the cached TOC 482: if mode == "text": 483: queryType = "toc" 484: else: 485: queryType = mode 486: docpath = docinfo['textURLPath'] 487: path = docinfo['textURLPath'] 488: pagesize = pageinfo['tocPageSize'] 489: pn = pageinfo['tocPN'] 490: url = docinfo['url'] 491: selfurl = self.absolute_url() 492: viewMode= pageinfo['viewMode'] 493: characterNormalization = pageinfo ['characterNormalization'] 494: optionToggle =pageinfo ['optionToggle'] 495: tocMode = pageinfo['tocMode'] 496: tocPN = pageinfo['tocPN'] 497: 498: data = self.getServerData("doc-query.xql","document=%s&queryType=%s&queryResultPageSize=%s&queryResultPN=%s&characterNormalization=regPlusNorm&optionToggle=1"%(docpath,queryType, pagesize, pn)) 499: page = data.replace('page-fragment.xql?document=%s'%str(path),'%s?url=%s&viewMode=%s&tocMode=%s&tocPN=%s&optionToggle=1'%(selfurl,url, viewMode, tocMode, tocPN)) 500: text = page.replace('mode=image','mode=texttool') 501: logging.debug("documentViewer (characterNormalization) characterNormalization: %s"%(characterNormalization)) 502: #logging.debug("documentViewer (characterNormalization) text: %s"%(text)) 503: return text 504: 505: def manage_changeMpdlXmlTextServer(self,title="",serverUrl="http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/interface/",timeout=40,RESPONSE=None): 506: """change settings""" 507: self.title=title 508: self.timeout = timeout 509: self.serverUrl = serverUrl 510: if RESPONSE is not None: 511: RESPONSE.redirect('manage_main') 512: 513: # management methods 514: def manage_addMpdlXmlTextServerForm(self): 515: """Form for adding""" 516: pt = PageTemplateFile("zpt/manage_addMpdlXmlTextServer", globals()).__of__(self) 517: return pt() 518: 519: def manage_addMpdlXmlTextServer(self,id,title="",serverUrl="http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/interface/",timeout=40,RESPONSE=None): 520: """add zogiimage""" 521: newObj = MpdlXmlTextServer(id,title,serverUrl,timeout) 522: self.Destination()._setObject(id, newObj) 523: if RESPONSE is not None: 524: RESPONSE.redirect('manage_main') 525: 526: 527: