Context Navigation

← Previous Changeset
Next Changeset →

Changeset 513:67095296c95a in documentViewer

Timestamp:

Feb 28, 2012, 6:10:08 PM (12 years ago)

Author:

casties

Branch:

default

Parents:

497:73fb73577961 (diff), 512:92a6443a6f16 (diff)
Note: this is a merge changeset, the changes displayed below correspond to the merge itself.
Use the (diff) links above to see all the changes relative to each parent.

Message:

Merge from elementtree branch
92a6443a6f16ff25674d43814ec0d6c0a43a5e1a

Files:

: 3 deleted
: 2 edited

MpdlXmlTextServer.py (modified) (5 diffs)
documentViewer.py (modified) (16 diffs)
zpt/head_main.zpt (deleted)
zpt/page_main_images.zpt (deleted)
zpt/viewer_main.zpt (deleted)

Legend:

: Unmodified
: Added
: Removed

MpdlXmlTextServer.py

-                      r451
+                      r513
 from OFS.SimpleItem import SimpleItem
 from Products.PageTemplates.PageTemplateFile import PageTemplateFile
+from Ft.Xml import EMPTY_NAMESPACE, Parse
+from Ft.Xml.Domlette import NonvalidatingReader
+import md5
+import sys
+import xml.etree.ElementTree as ET
+import re
 import logging
 import urllib
+import documentViewer
+from documentViewer import getTextFromNode, serializeNode
+import urlparse
+import base64
+from SrvTxtUtils import getInt, getText, getHttpData
+def serialize(node):
+    """returns a string containing an XML snippet of node"""
+    s = ET.tostring(node, 'UTF-8')
+    # snip off XML declaration
+    if s.startswith('<?xml'):
+        i = s.find('?>')
+        return s[i+3:]
+    return s
 class MpdlXmlTextServer(SimpleItem):
 …
     manage_changeMpdlXmlTextServerForm = PageTemplateFile("zpt/manage_changeMpdlXmlTextServer", globals())
+    def __init__(self,id,title="",serverUrl="http://mpdl-test.mpiwg-berlin.mpg.de/mpdl/interface/", serverName=None, timeout=40):
+    #def __init__(self,id,title="",serverUrl="http://mpdl-text.mpiwg-berlin.mpg.de:30030/mpdl/interface/", serverName=None, timeout=40):
+    def __init__(self,id,title="",serverUrl="http://mpdl-text.mpiwg-berlin.mpg.de/mpdl/interface/", serverName=None, timeout=40):
         """constructor"""
         self.id=id
 …
     def getHttpData(self, url, data=None):
         """returns result from url+data HTTP request"""
         return documentViewer.getHttpData(url,data,timeout=self.timeout)
+        return getHttpData(url,data,timeout=self.timeout)
     def getServerData(self, method, data=None):
         """returns result from text server for method+data"""
         url = self.serverUrl+method
+        return documentViewer.getHttpData(url,data,timeout=self.timeout)
+    def getSearch(self, pageinfo=None,  docinfo=None):
+        """get search list"""
+        docpath = docinfo['textURLPath']
+        url = docinfo['url']
+        pagesize = pageinfo['queryPageSize']
+        pn = pageinfo.get('searchPN',1)
+        #sn = pageinfo['sn']
+        s = pageinfo['s']
+        highlightElementPos =pageinfo ['highlightElementPos']
+        highlightElement = pageinfo ['highlightElement']
+        highlightQuery = pageinfo['highlightQuery']
+        query =pageinfo['query']
+        queryType =pageinfo['queryType']
+        viewMode=  pageinfo['viewMode']
+        tocMode = pageinfo['tocMode']
+        characterNormalization = pageinfo['characterNormalization']
+        #optionToggle = pageinfo['optionToggle']
+        tocPN = pageinfo['tocPN']
+        selfurl = self.absolute_url()
+        data = self.getServerData("doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&s=%s&viewMode=%s&characterNormalization=%s&highlightElementPos=%s&highlightElement=%s&highlightQuery=%s"%(docpath, 'text', queryType, urllib.quote(query), pagesize, pn, s, viewMode,characterNormalization, highlightElementPos, highlightElement, urllib.quote(highlightQuery)))
+        #data = self.getServerData("doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&sn=%s&viewMode=%s&characterNormalization=%s&highlightQuery=%s"%(docpath, 'text', queryType, urllib.quote(query), pagesize, pn, sn, viewMode,characterNormalization, urllib.quote(highlightQuery)))
+        pagexml = data.replace('?document=%s'%str(docpath),'?url=%s'%url)
+        pagedom = Parse(pagexml)
+        """
+        pagedivs = pagedom.xpath("//div[@class='queryResultHits']")
+        if (pagedivs == pagedom.xpath("//div[@class='queryResultHits']")):
+            if len(pagedivs)>0:
+                docinfo['queryResultHits'] = int(getTextFromNode(pagedivs[0]))
+                s = getTextFromNode(pagedivs[0])
+                s1 = int(s)/10+1
+                try:
+                    docinfo['queryResultHits'] = int(s1)
+                    logging.debug("SEARCH ENTRIES: %s"%(s1))
+                except:
+                    docinfo['queryResultHits'] = 0
+        """
+        if (queryType=="fulltext")or(queryType=="xpath")or(queryType=="xquery")or(queryType=="fulltextMorphLemma"):
+            pagedivs = pagedom.xpath("//div[@class='queryResultPage']")
+            if len(pagedivs)>0:
+                pagenode=pagedivs[0]
+                links=pagenode.xpath("//a")
+                for l in links:
+                    hrefNode = l.getAttributeNodeNS(None, u"href")
+                    if hrefNode:
+                        href = hrefNode.nodeValue
+                        if href.startswith('page-fragment.xql'):
+                            selfurl = self.absolute_url()
+                            pagexml=href.replace('mode=text','mode=texttool&viewMode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&tocMode=%s&searchPN=%s&tocPN=%s&characterNormalization=%s'%(viewMode,queryType,urllib.quote(query),pagesize,pn,tocMode,pn,tocPN, characterNormalization))
+                            hrefNode.nodeValue = pagexml.replace('page-fragment.xql','%s'%selfurl)
+                #logging.debug("PUREXML :%s"%(serializeNode(pagenode)))
+                return serializeNode(pagenode)
+        if (queryType=="fulltextMorph"):
+            pagedivs = pagedom.xpath("//div[@class='queryResult']")
+            if len(pagedivs)>0:
+                pagenode=pagedivs[0]
+                links=pagenode.xpath("//a")
+                for l in links:
+                    hrefNode = l.getAttributeNodeNS(None, u"href")
+                    if hrefNode:
+                        href = hrefNode.nodeValue
+                        if href.startswith('page-fragment.xql'):
+                            selfurl = self.absolute_url()
+                            pagexml=href.replace('mode=text','mode=texttool&viewMode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&tocMode=%s&searchPN=%s&tocPN=%s&characterNormalization=%s'%(viewMode,queryType,urllib.quote(query),pagesize,pn,tocMode,pn,tocPN,characterNormalization))
+                            hrefNode.nodeValue = pagexml.replace('page-fragment.xql','%s'%selfurl)
+                        if href.startswith('../lt/lemma.xql'):
+                            hrefNode.nodeValue = href.replace('../lt/lemma.xql','%s/template/head_main_query'%(selfurl))
+                            l.setAttributeNS(None, 'target', '_blank')
+                            l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=300,height=400,top=180, left=400, scrollbars=1'); return false;")
+                            l.setAttributeNS(None, 'onDblclick', 'popupWin.focus();')
+                pagedivs = pagedom.xpath("//div[@class='queryResultMorphExpansion']")
+                return serializeNode(pagenode)
+        if (queryType=="ftIndex")or(queryType=="ftIndexMorph"):
+            pagedivs= pagedom.xpath("//div[@class='queryResultPage']")
+            if len(pagedivs)>0:
+                pagenode=pagedivs[0]
+                links=pagenode.xpath("//a")
+                for l in links:
+                    hrefNode = l.getAttributeNodeNS(None, u"href")
+                    if hrefNode:
+                        href = hrefNode.nodeValue
+                        hrefNode.nodeValue=href.replace('mode=text','mode=texttool&viewMode=%s&tocMode=%s&tocPN=%s&pn=%s&characterNormalization=%s'%(viewMode,tocMode,tocPN,pn,characterNormalization))
+                        if href.startswith('../lt/lex.xql'):
+                            hrefNode.nodeValue = href.replace('../lt/lex.xql','%s/template/head_main_lex'%selfurl)
+                            l.setAttributeNS(None, 'target', '_blank')
+                            l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=400, scrollbars=1'); return false;")
+                            l.setAttributeNS(None, 'onDblclick', 'popupWin.focus();')
+                        if href.startswith('../lt/lemma.xql'):
+                            hrefNode.nodeValue = href.replace('../lt/lemma.xql','%s/template/head_main_lemma'%(selfurl))
+                            l.setAttributeNS(None, 'target', '_blank')
+                            l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=300,height=400,top=180, left=400, scrollbars=1'); return false;")
+                            l.setAttributeNS(None, 'onDblclick', 'popupWin.focus();')
+                return serializeNode(pagenode)
+        return "no text here"
+    def getGisPlaces(self, docinfo=None, pageinfo=None):
+        """ Show all Gis Places of whole Page"""
+        xpath='//place'
+        return getHttpData(url,data,timeout=self.timeout)
+    def getPlacesOnPage(self, docinfo=None, pn=None):
+        """Returns list of GIS places of page pn"""
         docpath = docinfo.get('textURLPath',None)
         if not docpath:
             return None
+        url = docinfo['url']
+        selfurl = self.absolute_url()
+        pn = pageinfo['current']
+        hrefList=[]
+        myList= ""
+        text=self.getServerData("xpath.xql", "document=%s&xpath=%s&pn=%s"%(docinfo['textURLPath'],xpath,pn))
+        dom = Parse(text)
+        result = dom.xpath("//result/resultPage/place")
+        places=[]
+        text=self.getServerData("xpath.xql", "document=%s&xpath=//place&pn=%s"%(docpath,pn))
+        dom = ET.fromstring(text)
+        result = dom.findall(".//resultPage/place")
         for l in result:
+            hrefNode= l.getAttributeNodeNS(None, u"id")
+            href= hrefNode.nodeValue
+            hrefList.append(href)
+            myList = ",".join(hrefList)
+        #logging.debug("getGisPlaces :%s"%(myList))
+        return myList
+    def getAllGisPlaces (self, docinfo=None, pageinfo=None):
+        """Show all Gis Places of whole Book """
+        xpath ='//echo:place'
+        docpath =docinfo['textURLPath']
+        url = docinfo['url']
+        selfurl =self.absolute_url()
+        pn =pageinfo['current']
+        hrefList=[]
+        myList=""
+        text=self.getServerData("xpath.xql", "document=%s&xpath=%s"%(docinfo['textURLPath'],xpath))
+        dom =Parse(text)
+        result = dom.xpath("//result/resultPage/place")
+        for l in result:
+            hrefNode = l.getAttributeNodeNS(None, u"id")
+            href= hrefNode.nodeValue
+            hrefList.append(href)
+            myList = ",".join(hrefList)
+            #logging.debug("getALLGisPlaces :%s"%(myList))
+        return myList
+            id = l.get("id")
+            name = l.text
+            place = {'id': id, 'name': name}
+            places.append(place)
+        return places
+    def processPageInfo(self, dom, docinfo, pageinfo):
+        """processes page info divs from dom and stores in docinfo and pageinfo"""
+        # assume first second level div is pageMeta
+        alldivs = dom.find("div")
+        if alldivs is None or alldivs.get('class', '') != 'pageMeta':
+            logging.error("processPageInfo: pageMeta div not found!")
+            return
+        for div in alldivs:
+            dc = div.get('class')
+            # pageNumberOrig
+            if dc == 'pageNumberOrig':
+                pageinfo['pageNumberOrig'] = div.text
+            # pageNumberOrigNorm
+            elif dc == 'pageNumberOrigNorm':
+                pageinfo['pageNumberOrigNorm'] = div.text
+            # pageHeaderTitle
+            elif dc == 'pageHeaderTitle':
+                pageinfo['pageHeaderTitle'] = div.text
+            # numFigureEntries
+            elif dc == 'countFigureEntries':
+                docinfo['numFigureEntries'] = getInt(div.text)
+            # numTocEntries
+            elif dc == 'countTocEntries':
+                # WTF: s1 = int(s)/30+1
+                docinfo['numTocEntries'] = getInt(div.text)
+            # numPlaces
+            elif dc == 'countPlaces':
+                docinfo['numPlaces'] = getInt(div.text)
+            # numTextPages
+            elif dc == 'countPages':
+                np = getInt(div.text)
+                if np > 0:
+                    docinfo['numTextPages'] = np
+                    if docinfo.get('numPages', 0) == 0:
+                        # seems to be text-only - update page count
+                        docinfo['numPages'] = np
+                        #pageinfo['end'] = min(pageinfo['end'], np)
+                        pageinfo['numgroups'] = int(np / pageinfo['groupsize'])
+                        if np % pageinfo['groupsize'] > 0:
+                            pageinfo['numgroups'] += 1
+        #logging.debug("processPageInfo: pageinfo=%s"%repr(pageinfo))
+        return
     def getTextPage(self, mode="text_dict", pn=1, docinfo=None, pageinfo=None):
+    def getTextPage(self, mode="text", pn=1, docinfo=None, pageinfo=None):
         """returns single page from fulltext"""
+        logging.debug("getTextPage mode=%s, pn=%s"%(mode,pn))
+        # check for cached text -- but ideally this shouldn't be called twice
+        if pageinfo.has_key('textPage'):
+            logging.debug("getTextPage: using cached text")
+            return pageinfo['textPage']
         docpath = docinfo['textURLPath']
+        path = docinfo['textURLPath']
+        url = docinfo.get('url',None)
+        name = docinfo.get('name',None)
+        pn =pageinfo['current']
+        #sn = pageinfo['sn']
+        s = pageinfo['s']
+        highlightElementPos =pageinfo ['highlightElementPos']
+        highlightElement = pageinfo ['highlightElement']
+        #optionToggle =pageinfo ['optionToggle']
+        highlightQuery = pageinfo['highlightQuery']
+        #mode = pageinfo ['viewMode']
+        tocMode = pageinfo['tocMode']
+        xpointer = pageinfo['xpointer']
+        characterNormalization=pageinfo['characterNormalization']
+        tocPN = pageinfo['tocPN']
+        selfurl = self.absolute_url()
+        if mode == "text_dict":
+            textmode = "textPollux"
+        # just checking
+        if pageinfo['current'] != pn:
+            logging.warning("getTextPage: current!=pn!")
+        # stuff for constructing full urls
+        selfurl = docinfo['viewerUrl']
+        textParams = {'document': docpath,
+                      'pn': pn}
+        if 'characterNormalization' in pageinfo:
+            textParams['characterNormalization'] = pageinfo['characterNormalization']
+        if not mode:
+            # default is dict
+            mode = 'text'
+        modes = mode.split(',')
+        # check for multiple layers
+        if len(modes) > 1:
+            logging.debug("getTextPage: more than one mode=%s"%mode)
+        # search mode
+        if 'search' in modes:
+            # add highlighting
+            highlightQuery = pageinfo.get('highlightQuery', None)
+            if highlightQuery:
+                textParams['highlightQuery'] = highlightQuery
+                textParams['highlightElement'] = pageinfo.get('highlightElement', '')
+                textParams['highlightElementPos'] = pageinfo.get('highlightElementPos', '')
+            # ignore mode in the following
+            modes.remove('search')
+        # other modes don't combine
+        if 'dict' in modes:
+            # dict is called textPollux in the backend
+            textmode = 'textPollux'
+        elif len(modes) == 0:
+            # text is default mode
+            textmode = 'text'
         else:
+            textmode = mode
+        textParam = "document=%s&mode=%s&pn=%s&characterNormalization=%s&xpointer=%s&options=withIdentifier"%(docpath,textmode,pn,characterNormalization, xpointer)
+        if highlightQuery is not None:
+            #textParam +="&highlightQuery=%s&sn=%s"%(urllib.quote(highlightQuery),sn)
+            textParam +="&highlightQuery=%s&s=%s&highlightElement=%s&highlightElementPos=%s"%(urllib.quote(highlightQuery),s, highlightElement, highlightElementPos)
+        pagexml = self.getServerData("page-fragment.xql",textParam)
+        dom = Parse(pagexml)
+        #dom = NonvalidatingReader.parseStream(pagexml)
+        #original Pages
+        pagedivs = dom.xpath("//div[@class='pageNumberOrig']")
+        """if pagedivs == dom.xpath("//div[@class='pageNumberOrig']"):
+            if len(pagedivs)>0:
+                docinfo['pageNumberOrig']= getTextFromNode(pagedivs[0])
+                logging.debug("ORIGINAL PAGE: %s"%(docinfo['pageNumberOrig']))
+        #original Pages Norm
+        pagedivs = dom.xpath("//div[@class='pageNumberOrigNorm']")
+        if pagedivs == dom.xpath("//div[@class='pageNumberOrigNorm']"):
+            if len(pagedivs)>0:
+                docinfo['pageNumberOrigNorm']= getTextFromNode(pagedivs[0])
+                logging.debug("ORIGINAL PAGE NORM: %s"%(docinfo['pageNumberOrigNorm']))
+        """
+        #figureEntries
+        pagedivs = dom.xpath("//div[@class='countFigureEntries']")
+        if pagedivs == dom.xpath("//div[@class='countFigureEntries']"):
+            if len(pagedivs)>0:
+                docinfo['countFigureEntries'] = getTextFromNode(pagedivs[0])
+                s = getTextFromNode(pagedivs[0])
+                if s=='0':
+                    try:
+                        docinfo['countFigureEntries'] = int(s)
+                    except:
+                        docinfo['countFigureEntries'] = 0
+                else:
+                    s1 = int(s)/30+1
+                    try:
+                        docinfo['countFigureEntries'] = int(s1)
+                    except:
+                        docinfo['countFigureEntries'] = 0
+        #allPlaces
+        pagedivs = dom.xpath("//div[@class='countPlaces']")
+        if pagedivs == dom.xpath("//div[@class='countPlaces']"):
+            if len(pagedivs)>0:
+                docinfo['countPlaces']= getTextFromNode(pagedivs[0])
+                s = getTextFromNode(pagedivs[0])
+                try:
+                    docinfo['countPlaces'] = int(s)
+                except:
+                    docinfo['countPlaces'] = 0
+        #tocEntries
+        pagedivs = dom.xpath("//div[@class='countTocEntries']")
+        if pagedivs == dom.xpath("//div[@class='countTocEntries']"):
+            if len(pagedivs)>0:
+                docinfo['countTocEntries'] = int(getTextFromNode(pagedivs[0]))
+                s = getTextFromNode(pagedivs[0])
+                if s=='0':
+                    try:
+                        docinfo['countTocEntries'] = int(s)
+                    except:
+                        docinfo['countTocEntries'] = 0
+                else:
+                    s1 = int(s)/30+1
+                    try:
+                        docinfo['countTocEntries'] = int(s1)
+                    except:
+                        docinfo['countTocEntries'] = 0
+        #numTextPages
+        pagedivs = dom.xpath("//div[@class='countPages']")
+        if pagedivs == dom.xpath("//div[@class='countPages']"):
+            if len(pagedivs)>0:
+                docinfo['numPages'] = getTextFromNode(pagedivs[0])
+                s = getTextFromNode(pagedivs[0])
+                try:
+                    docinfo['numPages'] = int(s)
+                    #logging.debug("PAGE NUMBER: %s"%(s))
+                    np = docinfo['numPages']
+                    pageinfo['end'] = min(pageinfo['end'], np)
+                    pageinfo['numgroups'] = int(np / pageinfo['groupsize'])
+                    if np % pageinfo['groupsize'] > 0:
+                        pageinfo['numgroups'] += 1
+                except:
+                    docinfo['numPages'] = 0
+        else:
+         #no full text -- init to 0
+            docinfo['pageNumberOrig'] = 0
+            docinfo['countFigureEntries'] = 0
+            docinfo['countPlaces'] = 0
+            docinfo['countTocEntries'] = 0
+            docinfo['numPages'] = 0
+            docinfo['pageNumberOrigNorm'] = 0
+        #return docinfo
+            # just take first mode
+            textmode = modes[0]
+        textParams['mode'] = textmode
+        # fetch the page
+        pagexml = self.getServerData("page-fragment.xql",urllib.urlencode(textParams))
+        dom = ET.fromstring(pagexml)
+        # extract additional info
+        self.processPageInfo(dom, docinfo, pageinfo)
+        # page content is in <div class="pageContent">
+        pagediv = None
+        # ElementTree 1.2 in Python 2.6 can't do div[@class='pageContent']
+        # so we look at the second level divs
+        alldivs = dom.findall("div")
+        for div in alldivs:
+            dc = div.get('class')
+            # page content div
+            if dc == 'pageContent':
+                pagediv = div
+                break
         # plain text mode
+        if mode == "text":
+            # first div contains text
+            pagedivs = dom.xpath("/div")
+            if len(pagedivs) > 0:
+                pagenode = pagedivs[0]
+                links = pagenode.xpath("//a")
+        if textmode == "text":
+            # get full url assuming documentViewer is parent
+            selfurl = self.getLink()
+            if pagediv is not None:
+                links = pagediv.findall(".//a")
                 for l in links:
+                    hrefNode = l.getAttributeNodeNS(None, u"href")
+                    if hrefNode:
+                        href= hrefNode.nodeValue
+                        if href.startswith('#note-'):
+                            hrefNode.nodeValue = href.replace('#note-',"?url=%s&viewMode=text&tocMode=%s&tocPN=%s&pn=%s#note-"%(url,tocMode,tocPN,pn))
+                        #if href.startswith():
+                return serializeNode(pagenode)
+        if mode == "xml":
+              # first div contains text
+              pagedivs = dom.xpath("/div")
+              if len(pagedivs) > 0:
+                  pagenode = pagedivs[0]
+                  return serializeNode(pagenode)
+        if mode == "gis":
+              # first div contains text
+              pagedivs = dom.xpath("/div")
+              if len(pagedivs) > 0:
+                  pagenode = pagedivs[0]
+                  links =pagenode.xpath("//a")
+                  for l in links:
+                      hrefNode =l.getAttributeNodeNS(None, u"href")
+                      if hrefNode:
+                          href=hrefNode.nodeValue
+                          if href.startswith('http://mappit.mpiwg-berlin.mpg.de'):
+                              hrefNode.nodeValue =href.replace('db/REST/db/chgis/mpdl','db/RESTdb/db/mpdl/%s'%name)
+                              l.setAttributeNS(None, 'target', '_blank')
+                  return serializeNode(pagenode)
+                    href = l.get('href')
+                    if href and href.startswith('#note-'):
+                        href = href.replace('#note-',"%s#note-"%selfurl)
+                        l.set('href', href)
+                return serialize(pagediv)
+        # text-with-links mode
+        elif textmode == "textPollux":
+            if pagediv is not None:
+                viewerurl = docinfo['viewerUrl']
+                selfurl = self.getLink()
+                # check all a-tags
+                links = pagediv.findall(".//a")
+                for l in links:
+                    href = l.get('href')
+        if mode == "pureXml":
+              # first div contains text
+              pagedivs = dom.xpath("/div")
+              if len(pagedivs) > 0:
+                  pagenode = pagedivs[0]
+                  return serializeNode(pagenode)
+        # text-with-links mode
+        if mode == "text_dict":
+            # first div contains text
+            #mode = pageinfo ['viewMode']
+            pagedivs = dom.xpath("/div")
+            if len(pagedivs) > 0:
+                pagenode = pagedivs[0]
+                # check all a-tags
+                links = pagenode.xpath("//a")
+                for l in links:
+                    hrefNode = l.getAttributeNodeNS(None, u"href")
+                    if hrefNode:
+                    if href:
                         # is link with href
+                        href = hrefNode.nodeValue
+                        if href.startswith('http://mpdl-text.mpiwg-berlin.mpg.de/mpdl/interface/lt/wordInfo.xql'):
+                            # is pollux link
+                            selfurl = self.absolute_url()
+                            # change href
+                            hrefNode.nodeValue = href.replace('http://mpdl-text.mpiwg-berlin.mpg.de/mpdl/interface/lt/wordInfo.xql','%s/head_main_voc'%selfurl)
+                            # add target
+                            l.setAttributeNS(None, 'target', '_blank')
+                            #l.setAttributeNS(None, 'onclick',"popupWin = window.open(this.href, 'InfoWindow', 'menubar=no, location,width=500,height=600,top=180, left=700, toolbar=no, scrollbars=1'); return false;")
+                            #l.setAttributeNS(None, "ondblclick", "popupWin.focus();")
+                            #window.open("this.href, 'InfoWindow', 'menubar=no, location,width=500,height=600,top=180, left=700, toolbar=yes, scrollbars=1'"); return false;")
+                        linkurl = urlparse.urlparse(href)
+                        #logging.debug("getTextPage: linkurl=%s"%repr(linkurl))
+                        if linkurl.path.endswith('GetDictionaryEntries'):
+                            #TODO: replace wordInfo page
+                            # is dictionary link - change href (keeping parameters)
+                            #l.set('href', href.replace('http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/interface/lt/wordInfo.xql','%s/template/viewer_wordinfo'%viewerurl))
+                            # add target to open new page
+                            l.set('target', '_blank')
+                        if href.startswith('http://mpdl-text.mpiwg-berlin.mpg.de/mpdl/lt/lemma.xql'):
+                            selfurl = self.absolute_url()
+                            hrefNode.nodeValue = href.replace('http://mpdl-text.mpiwg-berlin.mpg.de/mpdl/lt/lemma.xql','%s/head_main_lemma'%selfurl)
+                            l.setAttributeNS(None, 'target', '_blank')
+                            l.setAttributeNS(None, 'onclick',"popupWin = window.open(this.href, 'InfoWindow', 'menubar=no, location,width=300,height=400,top=180, left=700, toolbar=no, scrollbars=1'); return false;")
+                            l.setAttributeNS(None, 'ondblclick', 'popupWin.focus();')
+                        # TODO: is this needed?
+#                        if href.startswith('http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lemma.xql'):
+#                            selfurl = self.absolute_url()
+#                            l.set('href', href.replace('http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lemma.xql','%s/head_main_lemma'%selfurl))
+#                            l.set('target', '_blank')
+#                            l.set('onclick',"popupWin = window.open(this.href, 'InfoWindow', 'menubar=no, location,width=500,height=600,top=180, left=700, toolbar=no, scrollbars=1'); return false;")
+#                            l.set('ondblclick', 'popupWin.focus();')
                         if href.startswith('#note-'):
+                            hrefNode.nodeValue = href.replace('#note-',"?url=%s&viewMode=text_dict&tocMode=%s&tocPN=%s&pn=%s#note-"%(url,tocMode,tocPN,pn))
+                            # note link
+                            l.set('href', href.replace('#note-',"%s#note-"%selfurl))
+                return serializeNode(pagenode)
+        return "no text here"
+    def getOrigPages(self, docinfo=None, pageinfo=None):
+                return serialize(pagediv)
+        # xml mode
+        elif textmode == "xml":
+            if pagediv is not None:
+                return serialize(pagediv)
+        # pureXml mode
+        elif textmode == "pureXml":
+            if pagediv is not None:
+                return serialize(pagediv)
+        # gis mode
+        elif textmode == "gis":
+            if pagediv is not None:
+                # check all a-tags
+                links = pagediv.findall(".//a")
+                # add our URL as backlink
+                selfurl = self.getLink()
+                doc = base64.b64encode(selfurl)
+                for l in links:
+                    href = l.get('href')
+                    if href:
+                        if href.startswith('http://mappit.mpiwg-berlin.mpg.de'):
+                            l.set('href', re.sub(r'doc=[\w+/=]+', 'doc=%s'%doc, href))
+                            l.set('target', '_blank')
+                return serialize(pagediv)
+        return None
+    def getSearchResults(self, mode, query=None, pageinfo=None, docinfo=None):
+        """loads list of search results and stores XML in docinfo"""
+        logging.debug("getSearchResults mode=%s query=%s"%(mode, query))
+        if mode == "none":
+            return docinfo
+        cachedQuery = docinfo.get('cachedQuery', None)
+        if cachedQuery is not None:
+            # cached search result
+            if cachedQuery == '%s_%s'%(mode,query):
+                # same query
+                return docinfo
+            else:
+                # different query
+                del docinfo['resultSize']
+                del docinfo['resultXML']
+        # cache query
+        docinfo['cachedQuery'] = '%s_%s'%(mode,query)
+        # fetch full results
         docpath = docinfo['textURLPath']
+        pn =pageinfo['current']
+        selfurl = self.absolute_url()
+        pagexml = self.getServerData("page-fragment.xql","document=%s&pn=%s"%(docpath, pn))
+        dom = Parse(pagexml)
+        pagedivs = dom.xpath("//div[@class='pageNumberOrig']")
+        if pagedivs == dom.xpath("//div[@class='pageNumberOrig']"):
+            if len(pagedivs)>0:
+                docinfo['pageNumberOrig']= getTextFromNode(pagedivs[0])
+                return docinfo['pageNumberOrig']
+    def getOrigPagesNorm(self, docinfo=None, pageinfo=None):
+        docpath = docinfo['textURLPath']
+        pn =pageinfo['current']
+        selfurl = self.absolute_url()
+        pagexml = self.getServerData("page-fragment.xql","document=%s&pn=%s"%(docpath, pn))
+        dom = Parse(pagexml)
+        pagedivs = dom.xpath("//div[@class='pageNumberOrigNorm']")
+        if pagedivs == dom.xpath("//div[@class='pageNumberOrigNorm']"):
+            if len(pagedivs)>0:
+                docinfo['pageNumberOrigNorm']= getTextFromNode(pagedivs[0])
+                return docinfo['pageNumberOrigNorm']
+    def getTranslate(self, word=None, language=None, display=None):
+        """translate into another languages"""
+        data = self.getServerData("lt/wordInfo.xql","language="+str(language)+"&word="+urllib.quote(word)+"&display="+urllib.quote(display)+"&output=html")
+        #pagexml=self.template.fulltextclient.eval("/mpdl/interface/lt/lex.xql","document=&language="+str(language)+"&query="+url_quote(str(query)))
+        return data
+    def getLemma(self, lemma=None, language=None):
+        """simular words lemma """
+        data = self.getServerData("lt/lemma.xql","language="+str(language)+"&lemma="+urllib.quote(lemma)+"&output=html")
+        return data
+    def getLemmaQuery(self, query=None, language=None):
+        """simular words lemma """
+        data = self.getServerData("lt/lemma.xql","language="+str(language)+"&query="+urllib.quote(query)+"&output=html")
+        return data
+    def getLex(self, query=None, language=None):
+        #simular words lemma
+        data = self.getServerData("lt/lex.xql","document=&language="+str(language)+"&query="+urllib.quote(query))
+        return data
+    def getQuery (self,  docinfo=None, pageinfo=None, query=None, queryType=None, pn=1):
+         #number of
+         docpath = docinfo['textURLPath']
+         pagesize = pageinfo['queryPageSize']
+         pn = pageinfo['searchPN']
+         query =pageinfo['query']
+         queryType =pageinfo['queryType']
+         tocSearch = 0
+         tocDiv = None
+         pagexml = self.getServerData("doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath, 'text', queryType, urllib.quote(query), pagesize, pn))
+         pagedom = Parse(pagexml)
+         numdivs = pagedom.xpath("//div[@class='queryResultHits']")
+         tocSearch = int(getTextFromNode(numdivs[0]))
+         tc=int((tocSearch/10)+1)
+         return tc
+        params = {'document': docpath,
+                  'mode': 'text',
+                  'queryType': mode,
+                  'query': query,
+                  'queryResultPageSize': 1000,
+                  'queryResultPN': 1,
+                  'characterNormalization': pageinfo.get('characterNormalization', 'reg')}
+        pagexml = self.getServerData("doc-query.xql",urllib.urlencode(params))
+        #pagexml = self.getServerData("doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&s=%s&viewMode=%s&characterNormalization=%s&highlightElementPos=%s&highlightElement=%s&highlightQuery=%s"%(docpath, 'text', queryType, urllib.quote(query), pagesize, pn, s, viewMode,characterNormalization, highlightElementPos, highlightElement, urllib.quote(highlightQuery)))
+        dom = ET.fromstring(pagexml)
+        # page content is in <div class="queryResultPage">
+        pagediv = None
+        # ElementTree 1.2 in Python 2.6 can't do div[@class='queryResultPage']
+        alldivs = dom.findall("div")
+        for div in alldivs:
+            dc = div.get('class')
+            # page content div
+            if dc == 'queryResultPage':
+                pagediv = div
+            elif dc == 'queryResultHits':
+                docinfo['resultSize'] = getInt(div.text)
+        if pagediv is not None:
+            # store XML in docinfo
+            docinfo['resultXML'] = ET.tostring(pagediv, 'UTF-8')
+        return docinfo
+    def getResultsPage(self, mode="text", query=None, pn=None, start=None, size=None, pageinfo=None, docinfo=None):
+        """returns single page from the table of contents"""
+        logging.debug("getResultsPage mode=%s, pn=%s"%(mode,pn))
+        # check for cached result
+        if not 'resultXML' in docinfo:
+            self.getSearchResults(mode=mode, query=query, pageinfo=pageinfo, docinfo=docinfo)
+        resultxml = docinfo.get('resultXML', None)
+        if not resultxml:
+            logging.error("getResultPage: unable to find resultXML")
+            return "Error: no result!"
+        if size is None:
+            size = pageinfo.get('resultPageSize', 10)
+        if start is None:
+            start = (pn - 1) * size
+        fullresult = ET.fromstring(resultxml)
+        if fullresult is not None:
+            # paginate
+            first = start-1
+            len = size
+            del fullresult[:first]
+            del fullresult[len:]
+            tocdivs = fullresult
+            # check all a-tags
+            links = tocdivs.findall(".//a")
+            for l in links:
+                href = l.get('href')
+                if href:
+                    # assume all links go to pages
+                    linkUrl = urlparse.urlparse(href)
+                    linkParams = urlparse.parse_qs(linkUrl.query)
+                    # take some parameters
+                    params = {'pn': linkParams['pn'],
+                              'highlightQuery': linkParams.get('highlightQuery',''),
+                              'highlightElement': linkParams.get('highlightElement',''),
+                              'highlightElementPos': linkParams.get('highlightElementPos','')
+                              }
+                    url = self.getLink(params=params)
+                    l.set('href', url)
+            return serialize(tocdivs)
+        return "ERROR: no results!"
     def getToc(self, mode="text", docinfo=None):
+        """loads table of contents and stores in docinfo"""
+        """loads table of contents and stores XML in docinfo"""
+        logging.debug("getToc mode=%s"%mode)
         if mode == "none":
+            return docinfo
+            return docinfo
         if 'tocSize_%s'%mode in docinfo:
             # cached toc
 …
         tocSize = 0
         tocDiv = None
+        # fetch full toc
         pagexml = self.getServerData("doc-query.xql","document=%s&queryType=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath,queryType, pagesize, pn))
+        # post-processing downloaded xml
+        pagedom = Parse(pagexml)
+        # get number of entries
+        numdivs = pagedom.xpath("//div[@class='queryResultHits']")
+        if len(numdivs) > 0:
+            tocSize = int(getTextFromNode(numdivs[0]))
+        docinfo['tocSize_%s'%mode] = tocSize
+        dom = ET.fromstring(pagexml)
+        # page content is in <div class="queryResultPage">
+        pagediv = None
+        # ElementTree 1.2 in Python 2.6 can't do div[@class='queryResultPage']
+        alldivs = dom.findall("div")
+        for div in alldivs:
+            dc = div.get('class')
+            # page content div
+            if dc == 'queryResultPage':
+                pagediv = div
+            elif dc == 'queryResultHits':
+                docinfo['tocSize_%s'%mode] = getInt(div.text)
+        if pagediv is not None:
+            # store XML in docinfo
+            docinfo['tocXML_%s'%mode] = ET.tostring(pagediv, 'UTF-8')
         return docinfo
     def getTocPage(self, mode="text", pn=1, pageinfo=None, docinfo=None):
+    def getTocPage(self, mode="text", pn=None, start=None, size=None, pageinfo=None, docinfo=None):
         """returns single page from the table of contents"""
         # TODO: this should use the cached TOC
+        logging.debug("getTocPage mode=%s, pn=%s"%(mode,pn))
         if mode == "text":
             queryType = "toc"
         else:
             queryType = mode
+        docpath = docinfo['textURLPath']
+        path = docinfo['textURLPath']
+        pagesize = pageinfo['tocPageSize']
+        pn = pageinfo['tocPN']
+        url = docinfo['url']
+        selfurl = self.absolute_url()
+        viewMode=  pageinfo['viewMode']
+        characterNormalization = pageinfo ['characterNormalization']
+        #optionToggle =pageinfo ['optionToggle']
+        tocMode = pageinfo['tocMode']
+        tocPN = pageinfo['tocPN']
+        data = self.getServerData("doc-query.xql","document=%s&queryType=%s&queryResultPageSize=%s&queryResultPN=%s&characterNormalization=regPlusNorm"%(docpath,queryType, pagesize, pn))
+        page = data.replace('page-fragment.xql?document=%s'%str(path),'%s?url=%s&viewMode=%s&tocMode=%s&tocPN=%s'%(selfurl,url, viewMode, tocMode, tocPN))
+        text = page.replace('mode=image','mode=texttool')
+        return text
+        # check for cached TOC
+        if not docinfo.has_key('tocXML_%s'%mode):
+            self.getToc(mode=mode, docinfo=docinfo)
+        tocxml = docinfo.get('tocXML_%s'%mode, None)
+        if not tocxml:
+            logging.error("getTocPage: unable to find tocXML")
+            return "Error: no table of contents!"
+        if size is None:
+            size = pageinfo.get('tocPageSize', 30)
+        if start is None:
+            start = (pn - 1) * size
+        fulltoc = ET.fromstring(tocxml)
+        if fulltoc is not None:
+            # paginate
+            first = (start - 1) * 2
+            len = size * 2
+            del fulltoc[:first]
+            del fulltoc[len:]
+            tocdivs = fulltoc
+            # check all a-tags
+            links = tocdivs.findall(".//a")
+            for l in links:
+                href = l.get('href')
+                if href:
+                    # take pn from href
+                    m = re.match(r'page-fragment\.xql.*pn=(\d+)', href)
+                    if m is not None:
+                        # and create new url (assuming parent is documentViewer)
+                        url = self.getLink('pn', m.group(1))
+                        l.set('href', url)
+                    else:
+                        logging.warning("getTocPage: Problem with link=%s"%href)
+            # fix two-divs-per-row with containing div
+            newtoc = ET.Element('div', {'class':'queryResultPage'})
+            for (d1,d2) in zip(tocdivs[::2],tocdivs[1::2]):
+                e = ET.Element('div',{'class':'tocline'})
+                e.append(d1)
+                e.append(d2)
+                newtoc.append(e)
+            return serialize(newtoc)
+        return "ERROR: no table of contents!"
     def manage_changeMpdlXmlTextServer(self,title="",serverUrl="http://mpdl-text.mpiwg-berlin.mpg.de/mpdl/interface/",timeout=40,RESPONSE=None):
-    #def manage_changeMpdlXmlTextServer(self,title="",serverUrl="http://mpdl-text.mpiwg-berlin.mpg.de:30030/mpdl/interface/",timeout=40,RESPONSE=None):
         """change settings"""
         self.title=title
 …
     if RESPONSE is not None:
         RESPONSE.redirect('manage_main')

documentViewer.py

-                      r452
+                      r513
 from OFS.Folder import Folder
 from Products.PageTemplates.ZopePageTemplate import ZopePageTemplate
+from Products.PageTemplates.PageTemplateFile import PageTemplateFile
+from Products.PageTemplates.PageTemplateFile import PageTemplateFile
+from App.ImageFile import ImageFile
 from AccessControl import ClassSecurityInfo
 from AccessControl import getSecurityManager
 from Globals import package_home
+from Products.zogiLib.zogiLib import browserCheck
+from Ft.Xml import EMPTY_NAMESPACE, Parse
+import Ft.Xml.Domlette
+import os.path
+import xml.etree.ElementTree as ET
+import os
 import sys
 import urllib
-import urllib2
 import logging
 import math
 import urlparse
-import cStringIO
 import re
 import string
+def logger(txt,method,txt2):
+    """logging"""
+    logging.info(txt+ txt2)
+def getInt(number, default=0):
+    """returns always an int (0 in case of problems)"""
+    try:
+        return int(number)
+    except:
+        return int(default)
+def getTextFromNode(nodename):
+    """get the cdata content of a node"""
+    if nodename is None:
+        return ""
+    nodelist=nodename.childNodes
+    rc = ""
+    for node in nodelist:
+        if node.nodeType == node.TEXT_NODE:
+           rc = rc + node.data
+    return rc
+from SrvTxtUtils import getInt, getText, getHttpData, refreshingImageFileIndexHtml
 def serializeNode(node, encoding="utf-8"):
     """returns a string containing node as XML"""
+    stream = cStringIO.StringIO()
+    #logging.debug("BUF: %s"%(stream))
+    Ft.Xml.Domlette.Print(node, stream=stream, encoding=encoding)
+    s = stream.getvalue()
+    #logging.debug("BUF: %s"%(s))
+    stream.close()
+    s = ET.tostring(node)
+    # 4Suite:
+    #    stream = cStringIO.StringIO()
+    #    Ft.Xml.Domlette.Print(node, stream=stream, encoding=encoding)
+    #    s = stream.getvalue()
+    #    stream.close()
     return s
 …
     return bt
+def getParentDir(path):
+    """returns pathname shortened by one"""
+    return '/'.join(path.split('/')[0:-1])
+def getHttpData(url, data=None, num_tries=3, timeout=10):
+    """returns result from url+data HTTP request"""
+    # we do GET (by appending data to url)
+    if isinstance(data, str) or isinstance(data, unicode):
+        # if data is string then append
+        url = "%s?%s"%(url,data)
+    elif isinstance(data, dict) or isinstance(data, list) or isinstance(data, tuple):
+        # urlencode
+        url = "%s?%s"%(url,urllib.urlencode(data))
+    response = None
+    errmsg = None
+    for cnt in range(num_tries):
+        try:
+            logging.debug("getHttpData(#%s %ss) url=%s"%(cnt+1,timeout,url))
+            if sys.version_info < (2, 6):
+                # set timeout on socket -- ugly :-(
+                import socket
+                socket.setdefaulttimeout(float(timeout))
+                response = urllib2.urlopen(url)
+            else:
+                response = urllib2.urlopen(url,timeout=float(timeout))
+            # check result?
+            break
+        except urllib2.HTTPError, e:
+            logging.error("getHttpData: HTTP error(%s): %s"%(e.code,e))
+            errmsg = str(e)
+            # stop trying
+            break
+        except urllib2.URLError, e:
+            logging.error("getHttpData: URLLIB error(%s): %s"%(e.reason,e))
+            errmsg = str(e)
+            # stop trying
+            #break
+    if response is not None:
+        data = response.read()
+        response.close()
+        return data
+    raise IOError("ERROR fetching HTTP data from %s: %s"%(url,errmsg))
+    #return None
+def getParentPath(path, cnt=1):
+    """returns pathname shortened by cnt"""
+    # make sure path doesn't end with /
+    path = path.rstrip('/')
+    # split by /, shorten, and reassemble
+    return '/'.join(path.split('/')[0:-cnt])
 ##
 …
     security=ClassSecurityInfo()
     manage_options=Folder.manage_options+(
         {'label':'main config','action':'changeDocumentViewerForm'},
+        {'label':'Configuration','action':'changeDocumentViewerForm'},
+        )
+    metadataService = None
+    """MetaDataFolder instance"""
     # templates and forms
+    viewer_main = PageTemplateFile('zpt/viewer_main', globals())
+    viewer_text = PageTemplateFile('zpt/viewer_text', globals())
+    viewer_xml = PageTemplateFile('zpt/viewer_xml', globals())
+    viewer_images = PageTemplateFile('zpt/viewer_images', globals())
+    viewer_index = PageTemplateFile('zpt/viewer_index', globals())
     toc_thumbs = PageTemplateFile('zpt/toc_thumbs', globals())
     toc_text = PageTemplateFile('zpt/toc_text', globals())
     toc_figures = PageTemplateFile('zpt/toc_figures', globals())
+    page_main_images = PageTemplateFile('zpt/page_main_images', globals())
+    page_main_double = PageTemplateFile('zpt/page_main_double', globals())
+    page_main_text = PageTemplateFile('zpt/page_main_text', globals())
+    page_main_text_dict = PageTemplateFile('zpt/page_main_text_dict', globals())
+    page_main_gis =PageTemplateFile ('zpt/page_main_gis', globals())
+    page_main_xml = PageTemplateFile('zpt/page_main_xml', globals())
+    page_main_pureXml = PageTemplateFile('zpt/page_main_pureXml', globals())
+    head_main = PageTemplateFile('zpt/head_main', globals())
+    docuviewer_css = PageTemplateFile('css/docuviewer.css', globals())
+    toc_none = PageTemplateFile('zpt/toc_none', globals())
+    common_template = PageTemplateFile('zpt/common_template', globals())
+    search_template = PageTemplateFile('zpt/search_template', globals())
     info_xml = PageTemplateFile('zpt/info_xml', globals())
+    thumbs_main_rss = PageTemplateFile('zpt/thumbs_main_rss', globals())
+    security.declareProtected('View management screens','changeDocumentViewerForm')
+    changeDocumentViewerForm = PageTemplateFile('zpt/changeDocumentViewer', globals())
+    docuviewer_css = ImageFile('css/docuviewer.css',globals())
+    # make ImageFile better for development
+    docuviewer_css.index_html = refreshingImageFileIndexHtml
+    jquery_js = ImageFile('js/jquery.js',globals())
     def __init__(self,id,imageScalerUrl=None,textServerName=None,title="",digilibBaseUrl=None,thumbcols=2,thumbrows=5,authgroups="mpiwg"):
 …
         templateFolder = Folder('template')
         #self['template'] = templateFolder # Zope-2.12 style
         self._setObject('template',templateFolder) # old style
+        self['template'] = templateFolder # Zope-2.12 style
+        #self._setObject('template',templateFolder) # old style
         try:
             import MpdlXmlTextServer
             textServer = MpdlXmlTextServer.MpdlXmlTextServer(id='fulltextclient',serverName=textServerName)
             #templateFolder['fulltextclient'] = xmlRpcClient
             templateFolder._setObject('fulltextclient',textServer)
+            templateFolder['fulltextclient'] = textServer
+            #templateFolder._setObject('fulltextclient',textServer)
         except Exception, e:
             logging.error("Unable to create MpdlXmlTextServer for fulltextclient: "+str(e))
         try:
             from Products.zogiLib.zogiLib import zogiLib
             zogilib = zogiLib(id="zogilib", title="zogilib for docuviewer", dlServerURL=imageScalerUrl, layout="book")
             #templateFolder['zogilib'] = zogilib
             templateFolder._setObject('zogilib',zogilib)
+            templateFolder['zogilib'] = zogilib
+            #templateFolder._setObject('zogilib',zogilib)
         except Exception, e:
             logging.error("Unable to create zogiLib for zogilib: "+str(e))
+        try:
+            # assume MetaDataFolder instance is called metadata
+            self.metadataService = getattr(self, 'metadata')
+        except Exception, e:
+            logging.error("Unable to find MetaDataFolder 'metadata': "+str(e))
+        if digilibBaseUrl is not None:
+            self.digilibBaseUrl = digilibBaseUrl
     # proxy text server methods to fulltextclient
     def getTextPage(self, **args):
         """get page"""
+        """returns full text content of page"""
         return self.template.fulltextclient.getTextPage(**args)
     def getOrigPages(self, **args):
         """get page"""
         return self.template.fulltextclient.getOrigPages(**args)
     def getOrigPagesNorm(self, **args):
         """get page"""
         return self.template.fulltextclient.getOrigPagesNorm(**args)
     def getQuery(self, **args):
         """get query in search"""
         return self.template.fulltextclient.getQuery(**args)
     def getSearch(self, **args):
         """get search"""
         return self.template.fulltextclient.getSearch(**args)
     def getGisPlaces(self, **args):
         """get gis places"""
         return self.template.fulltextclient.getGisPlaces(**args)
+    def getSearchResults(self, **args):
+        """loads list of search results and stores XML in docinfo"""
+        return self.template.fulltextclient.getSearchResults(**args)
+    def getResultsPage(self, **args):
+        """returns one page of the search results"""
+        return self.template.fulltextclient.getResultsPage(**args)
+    def getToc(self, **args):
+        """loads table of contents and stores XML in docinfo"""
+        return self.template.fulltextclient.getToc(**args)
+    def getTocPage(self, **args):
+        """returns one page of the table of contents"""
+        return self.template.fulltextclient.getTocPage(**args)
+    def getPlacesOnPage(self, **args):
+        """get list of gis places on one page"""
+        return self.template.fulltextclient.getPlacesOnPage(**args)
+    def getAllGisPlaces(self, **args):
+        """get all gis places """
+        return self.template.fulltextclient.getAllGisPlaces(**args)
+    def getTranslate(self, **args):
+        """get translate"""
+        return self.template.fulltextclient.getTranslate(**args)
+    def getLemma(self, **args):
+        """get lemma"""
+        return self.template.fulltextclient.getLemma(**args)
+    def getLemmaQuery(self, **args):
+        """get query"""
+        return self.template.fulltextclient.getLemmaQuery(**args)
+    def getLex(self, **args):
+        """get lex"""
+        return self.template.fulltextclient.getLex(**args)
+    def getToc(self, **args):
+        """get toc"""
+        return self.template.fulltextclient.getToc(**args)
+    def getTocPage(self, **args):
+        """get tocpage"""
+        return self.template.fulltextclient.getTocPage(**args)
+    #WTF?
+    thumbs_main_rss = PageTemplateFile('zpt/thumbs_main_rss', globals())
     security.declareProtected('View','thumbs_rss')
     def thumbs_rss(self,mode,url,viewMode="auto",start=None,pn=1):
 …
         '''
         logging.debug("HHHHHHHHHHHHHH:load the rss")
         logger("documentViewer (index)", logging.INFO, "mode: %s url:%s start:%s pn:%s"%(mode,url,start,pn))
+        logging.debug("documentViewer (index) mode: %s url:%s start:%s pn:%s"%(mode,url,start,pn))
         if not hasattr(self, 'template'):
 …
         return pt(docinfo=docinfo,pageinfo=pageinfo,viewMode=viewMode)
     security.declareProtected('View','index_html')
+    def index_html(self,url,mode="texttool",viewMode="auto",tocMode="thumbs",start=None,pn=1,mk=None):
+        '''
+        view it
+    def index_html(self,url,mode="texttool",viewMode="auto",viewLayer=None,tocMode="thumbs",start=1,pn=1):
+        """
+        view page
+        @param url: url which contains display information
         @param mode: defines how to access the document behind url
         @param url: url which contains display information
         @param viewMode: if images display images, if text display text, default is auto (text,images or auto)
+        @param viewMode: 'images': display images, 'text': display text, 'xml': display xml, default is 'auto'
+        @param viewLayer: sub-type of viewMode, e.g. 'dict' for viewMode='text'
         @param tocMode: type of 'table of contents' for navigation (thumbs, text, figures, none)
+        @param characterNormalization type of text display (reg, norm, none)
+        @param querySearch: type of different search modes (fulltext, fulltextMorph, xpath, xquery, ftIndex, ftIndexMorph, fulltextMorphLemma)
+        '''
+        logging.debug("documentViewer (index) mode: %s url:%s start:%s pn:%s"%(mode,url,start,pn))
+        """
+        logging.debug("documentViewer(index_html) mode=%s url=%s viewMode=%s viewLayer=%s start=%s pn=%s"%(mode,url,viewMode,viewLayer,start,pn))
         if not hasattr(self, 'template'):
 …
         if tocMode != "thumbs":
             # get table of contents
+            docinfo = self.getToc(mode=tocMode, docinfo=docinfo)
+        if viewMode=="auto": # automodus gewaehlt
+            if docinfo.has_key('textURL') or docinfo.get('textURLPath',None): #texturl gesetzt und textViewer konfiguriert
+                viewMode="text_dict"
+            self.getToc(mode=tocMode, docinfo=docinfo)
+        # auto viewMode: text if there is a text else images
+        if viewMode=="auto":
+            if docinfo.get('textURL', None) or docinfo.get('textURLPath', None):
+                viewMode = "text"
+                if viewLayer is None:
+                    viewLayer = "dict"
             else:
                 viewMode="images"
+                viewMode = "images"
+        pageinfo = self.getPageinfo(start=start,current=pn, docinfo=docinfo,viewMode=viewMode,tocMode=tocMode)
+        if (docinfo.get('textURLPath',None)):
+            page = self.getTextPage(docinfo=docinfo, pageinfo=pageinfo)
+            pageinfo['textPage'] = page
+        tt = getattr(self, 'template')
+        pt = getattr(tt, 'viewer_main')
+        return pt(docinfo=docinfo,pageinfo=pageinfo,viewMode=viewMode,mk=self.generateMarks(mk))
+        elif viewMode == "text_dict":
+            # legacy fix
+            viewMode = "text"
+            viewLayer = "dict"
+        pageinfo = self.getPageinfo(start=start, current=pn, docinfo=docinfo, viewMode=viewMode, viewLayer=viewLayer, tocMode=tocMode)
+        # get template /template/viewer_$viewMode
+        pt = getattr(self.template, 'viewer_%s'%viewMode, None)
+        if pt is None:
+            logging.error("No template for viewMode=%s!"%viewMode)
+            # TODO: error page?
+            return "No template for viewMode=%s!"%viewMode
+        # and execute with parameters
+        return pt(docinfo=docinfo, pageinfo=pageinfo)
+    #WTF?
     def generateMarks(self,mk):
         ret=""
 …
         url = self.template.zogilib.getDLBaseUrl()
         return url
+    def getScalerUrl(self, fn=None, pn=None, dw=100, dh=100, docinfo=None):
+        """returns URL to digilib Scaler with params"""
+        url = None
+        if docinfo is not None:
+            url = docinfo.get('imageURL', None)
+        if url is None:
+            url = "%s/servlet/Scaler?"%self.digilibBaseUrl
+            if fn is None and docinfo is not None:
+                fn = docinfo.get('imagePath','')
+            url += "fn=%s"%fn
+        if pn:
+            url += "&pn=%s"%pn
+        url += "&dw=%s&dh=%s"%(dw,dh)
+        return url
     def getDocumentViewerURL(self):
 …
     def getStyle(self, idx, selected, style=""):
         """returns a string with the given style and append 'sel' if path == selected."""
+        """returns a string with the given style and append 'sel' if idx == selected."""
         #logger("documentViewer (getstyle)", logging.INFO, "idx: %s selected: %s style: %s"%(idx,selected,style))
         if idx == selected:
 …
             return style
+    def getLink(self, param=None, val=None, params=None, baseUrl=None, paramSep='&'):
+        """returns URL to documentviewer with parameter param set to val or from dict params"""
+    def getParams(self, param=None, val=None, params=None, duplicates=None):
+        """returns dict with URL parameters.
+        Takes URL parameters and additionally param=val or dict params.
+        Deletes key if value is None."""
         # copy existing request params
         urlParams=self.REQUEST.form.copy()
+        newParams=self.REQUEST.form.copy()
         # change single param
         if param is not None:
             if val is None:
                 if urlParams.has_key(param):
                     del urlParams[param]
+                if newParams.has_key(param):
+                    del newParams[param]
             else:
                 urlParams[param] = str(val)
+                newParams[param] = str(val)
         # change more params
         if params is not None:
+            for k in params.keys():
+                v = params[k]
+            for (k, v) in params.items():
                 if v is None:
                     # val=None removes param
                     if urlParams.has_key(k):
                         del urlParams[k]
+                    if newParams.has_key(k):
+                        del newParams[k]
                 else:
+                    urlParams[k] = v
+        # FIXME: does this belong here?
+        if urlParams.get("mode", None) == "filepath": #wenn beim erst Aufruf filepath gesetzt wurde aendere das nun zu imagepath
+                urlParams["mode"] = "imagepath"
+                urlParams["url"] = getParentDir(urlParams["url"])
+                    newParams[k] = v
+        if duplicates:
+            # eliminate lists (coming from duplicate keys)
+            for (k,v) in newParams.items():
+                if isinstance(v, list):
+                    if duplicates == 'comma':
+                        # make comma-separated list of non-empty entries
+                        newParams[k] = ','.join([t for t in v if t])
+                    elif duplicates == 'first':
+                        # take first non-empty entry
+                        newParams[k] = [t for t in v if t][0]
+        return newParams
+    def getLink(self, param=None, val=None, params=None, baseUrl=None, paramSep='&', duplicates='comma'):
+        """returns URL to documentviewer with parameter param set to val or from dict params"""
+        urlParams = self.getParams(param=param, val=val, params=params, duplicates=duplicates)
         # quote values and assemble into query string (not escaping '/')
+        ps = paramSep.join(["%s=%s"%(k,urllib.quote_plus(v,'/')) for (k, v) in urlParams.items()])
+        #ps = urllib.urlencode(urlParams)
+        ps = paramSep.join(["%s=%s"%(k,urllib.quote_plus(unicode(v),'/')) for (k, v) in urlParams.items()])
         if baseUrl is None:
             baseUrl = self.REQUEST['URL1']
+            baseUrl = self.getDocumentViewerURL()
         url = "%s?%s"%(baseUrl, ps)
         return url
+    def getLinkAmp(self, param=None, val=None, params=None, baseUrl=None):
+    def getLinkAmp(self, param=None, val=None, params=None, baseUrl=None, duplicates='comma'):
         """link to documentviewer with parameter param set to val"""
+        return self.getLink(param, val, params, baseUrl, '&amp;')
+        return self.getLink(param=param, val=val, params=params, baseUrl=baseUrl, paramSep='&amp;', duplicates=duplicates)
     def getInfo_xml(self,url,mode):
         """returns info about the document as XML"""
         if not self.digilibBaseUrl:
             self.digilibBaseUrl = self.findDigilibUrl() or "http://nausikaa.mpiwg-berlin.mpg.de/digitallibrary"
 …
         return pt(docinfo=docinfo)
-    def getOptionToggle(self, newState=None, optionName='text_options_open', initialState=True):
-        """returns new option state"""
-        if not self.REQUEST.SESSION.has_key(optionName):
-            # not in session -- initial
-            opt = {'lastState': newState, 'state': initialState}
-        else:
-            opt = self.REQUEST.SESSION.get(optionName)
-            if opt['lastState'] != newState:
-                # state in session has changed -- toggle
-                opt['state'] = not opt['state']
-                opt['lastState'] = newState
-        self.REQUEST.SESSION[optionName] = opt
-        return opt['state']
     def isAccessible(self, docinfo):
         """returns if access to the resource is granted"""
         access = docinfo.get('accessType', None)
         logging.debug("documentViewer (accessOK) access type %s"%access)
         if access is not None and access == 'free':
+        if access == 'free':
             logging.debug("documentViewer (accessOK) access is free")
             return True
         elif access is None or access in self.authgroups:
             # only local access -- only logged in users
 …
         return False
+    def getDocinfo(self, mode, url):
+        """returns docinfo depending on mode"""
+        logging.debug("getDocinfo: mode=%s, url=%s"%(mode,url))
+        # look for cached docinfo in session
+        if self.REQUEST.SESSION.has_key('docinfo'):
+            docinfo = self.REQUEST.SESSION['docinfo']
+            # check if its still current
+            if docinfo is not None and docinfo.get('mode', None) == mode and docinfo.get('url', None) == url:
+                logging.debug("getDocinfo: docinfo in session. keys=%s"%docinfo.keys())
+                return docinfo
+        # new docinfo
+        docinfo = {'mode': mode, 'url': url}
+        # add self url
+        docinfo['viewerUrl'] = self.getDocumentViewerURL()
+        docinfo['digilibBaseUrl'] = self.digilibBaseUrl
+        # get index.meta DOM
+        docUrl = None
+        metaDom = None
+        if mode=="texttool":
+            # url points to document dir or index.meta
+            metaDom = self.metadataService.getDomFromPathOrUrl(url)
+            docUrl = url.replace('/index.meta', '')
+            if metaDom is None:
+                raise IOError("Unable to find index.meta for mode=texttool!")
+        elif mode=="imagepath":
+            # url points to folder with images, index.meta optional
+            # asssume index.meta in parent dir
+            docUrl = getParentPath(url)
+            metaDom = self.metadataService.getDomFromPathOrUrl(docUrl)
+        elif mode=="filepath":
+            # url points to image file, index.meta optional
+            # asssume index.meta is two path segments up
+            docUrl = getParentPath(url, 2)
+            metaDom = self.metadataService.getDomFromPathOrUrl(docUrl)
+        else:
+            logging.error("documentViewer (getdocinfo) unknown mode: %s!"%mode)
+            raise ValueError("Unknown mode %s! Has to be one of 'texttool','imagepath','filepath'."%(mode))
+        docinfo['documentUrl'] = docUrl
+        # process index.meta contents
+        if metaDom is not None and metaDom.tag == 'resource':
+            # document directory name and path
+            resource = self.metadataService.getResourceData(dom=metaDom)
+            if resource:
+                docinfo = self.getDocinfoFromResource(docinfo, resource)
+            # texttool info
+            texttool = self.metadataService.getTexttoolData(dom=metaDom)
+            if texttool:
+                docinfo = self.getDocinfoFromTexttool(docinfo, texttool)
+            # bib info
+            bib = self.metadataService.getBibData(dom=metaDom)
+            if bib:
+                docinfo = self.getDocinfoFromBib(docinfo, bib)
+            else:
+                # no bib - try info.xml
+                docinfo = self.getDocinfoFromPresentationInfoXml(docinfo)
+    def getDirinfoFromDigilib(self,path,docinfo=None,cut=0):
+        """gibt param von dlInfo aus"""
+        if docinfo is None:
+            docinfo = {}
+        for x in range(cut):
+                path=getParentDir(path)
+            # auth info
+            access = self.metadataService.getAccessData(dom=metaDom)
+            if access:
+                docinfo = self.getDocinfoFromAccess(docinfo, access)
+            # attribution info
+            attribution = self.metadataService.getAttributionData(dom=metaDom)
+            if attribution:
+                logging.debug("getDocinfo: attribution=%s"%repr(attribution))
+                docinfo['attribution'] = attribution
+                #docinfo = self.getDocinfoFromAccess(docinfo, access)
+            # copyright info
+            copyright = self.metadataService.getCopyrightData(dom=metaDom)
+            if copyright:
+                logging.debug("getDocinfo: copyright=%s"%repr(copyright))
+                docinfo['copyright'] = copyright
+                #docinfo = self.getDocinfoFromAccess(docinfo, access)
+        # image path
+        if mode != 'texttool':
+            # override image path from texttool with url
+            docinfo['imagePath'] = url.replace('/mpiwg/online/', '', 1)
+        # number of images from digilib
+        if docinfo.get('imagePath', None):
+            docinfo['imageURL'] = self.digilibBaseUrl + "/servlet/Scaler?fn=" + docinfo['imagePath']
+            docinfo = self.getDocinfoFromDigilib(docinfo, docinfo['imagePath'])
+        logging.debug("documentViewer (getdocinfo) docinfo: keys=%s"%docinfo.keys())
+        #logging.debug("documentViewer (getdocinfo) docinfo: %s"%docinfo)
+        # store in session
+        self.REQUEST.SESSION['docinfo'] = docinfo
+        return docinfo
+    def getDocinfoFromResource(self, docinfo, resource):
+        """reads contents of resource element into docinfo"""
+        docName = resource.get('name', None)
+        docinfo['documentName'] = docName
+        docPath = resource.get('archive-path', None)
+        if docPath:
+            # clean up document path
+            if docPath[0] != '/':
+                docPath = '/' + docPath
+            if docName and (not docPath.endswith(docName)):
+                docPath += "/" + docName
+        else:
+            # use docUrl as docPath
+            docUrl = docinfo['documentURL']
+            if not docUrl.startswith('http:'):
+                docPath = docUrl
+        if docPath:
+            # fix URLs starting with /mpiwg/online
+            docPath = docPath.replace('/mpiwg/online', '', 1)
+        docinfo['documentPath'] = docPath
+        return docinfo
+    def getDocinfoFromTexttool(self, docinfo, texttool):
+        """reads contents of texttool element into docinfo"""
+        # image dir
+        imageDir = texttool.get('image', None)
+        docPath = docinfo.get('documentPath', None)
+        if imageDir and docPath:
+            #print "image: ", imageDir, " archivepath: ", archivePath
+            imageDir = os.path.join(docPath, imageDir)
+            imageDir = imageDir.replace('/mpiwg/online', '', 1)
+            docinfo['imagePath'] = imageDir
+        # old style text URL
+        textUrl = texttool.get('text', None)
+        if textUrl and docPath:
+            if urlparse.urlparse(textUrl)[0] == "": #keine url
+                textUrl = os.path.join(docPath, textUrl)
+            docinfo['textURL'] = textUrl
+        # new style text-url-path
+        textUrl = texttool.get('text-url-path', None)
+        if textUrl:
+            docinfo['textURLPath'] = textUrl
+        # page flow
+        docinfo['pageFlow'] = texttool.get('page-flow', 'ltr')
+        # odd pages are left
+        docinfo['oddPage'] = texttool.get('odd-scan-position', 'left')
+        # number of title page (0: not defined)
+        docinfo['titlePage'] = texttool.get('title-scan-no', 0)
+        # old presentation stuff
+        presentation = texttool.get('presentation', None)
+        if presentation and docPath:
+            if presentation.startswith('http:'):
+                docinfo['presentationUrl'] = presentation
+            else:
+                docinfo['presentationUrl'] = os.path.join(docPath, presentation)
+        return docinfo
+    def getDocinfoFromBib(self, docinfo, bib):
+        """reads contents of bib element into docinfo"""
+        logging.debug("getDocinfoFromBib bib=%s"%repr(bib))
+        # put all raw bib fields in dict "bib"
+        docinfo['bib'] = bib
+        bibtype = bib.get('@type', None)
+        docinfo['bibType'] = bibtype
+        # also store DC metadata for convenience
+        dc = self.metadataService.getDCMappedData(bib)
+        docinfo['creator'] = dc.get('creator',None)
+        docinfo['title'] = dc.get('title',None)
+        docinfo['date'] = dc.get('date',None)
+        return docinfo
+    def getDocinfoFromAccess(self, docinfo, acc):
+        """reads contents of access element into docinfo"""
+        #TODO: also read resource type
+        logging.debug("getDocinfoFromAccess acc=%s"%repr(acc))
+        try:
+            acctype = acc['@attr']['type']
+            if acctype:
+                access=acctype
+                if access in ['group', 'institution']:
+                    access = acc['name'].lower()
+                docinfo['accessType'] = access
+        except:
+            pass
+        return docinfo
+    def getDocinfoFromDigilib(self, docinfo, path):
         infoUrl=self.digilibBaseUrl+"/dirInfo-xml.jsp?mo=dir&fn="+path
+        logging.debug("documentViewer (getparamfromdigilib) dirInfo from %s"%(infoUrl))
+        # fetch data
         txt = getHttpData(infoUrl)
         if txt is None:
             raise IOError("Unable to get dir-info from %s"%(infoUrl))
+        dom = Parse(txt)
         sizes=dom.xpath("//dir/size")
         logging.debug("documentViewer (getparamfromdigilib) dirInfo:size"%sizes)
         if sizes:
             docinfo['numPages'] = int(getTextFromNode(sizes[0]))
+        if not txt:
+            logging.error("Unable to get dir-info from %s"%(infoUrl))
+            return docinfo
+        dom = ET.fromstring(txt)
+        size = getText(dom.find("size"))
+        logging.debug("getDocinfoFromDigilib: size=%s"%size)
+        if size:
+            docinfo['numPages'] = int(size)
         else:
             docinfo['numPages'] = 0
         # TODO: produce and keep list of image names and numbers
         return docinfo
+    def getIndexMetaPath(self,url):
+        """gib nur den Pfad zurueck"""
+        regexp = re.compile(r".*(experimental|permanent)/(.*)")
+        regpath = regexp.match(url)
+        if (regpath==None):
+            return ""
+        logging.debug("(getDomFromIndexMeta): URLXAXA: %s"%regpath.group(2))
+        return ("/mpiwg/online/"+regpath.group(1)+"/"+regpath.group(2))
+    def getIndexMetaUrl(self,url):
+        """returns utr  of index.meta document at url"""
+        metaUrl = None
+        if url.startswith("http://"):
+            # real URL
+            metaUrl = url
+        else:
+            # online path
+            server=self.digilibBaseUrl+"/servlet/Texter?fn="
+            metaUrl=server+url.replace("/mpiwg/online","")
+            if not metaUrl.endswith("index.meta"):
+                metaUrl += "/index.meta"
+        return metaUrl
+    def getDomFromIndexMeta(self, url):
+        """get dom from index meta"""
+        dom = None
+        metaUrl = self.getIndexMetaUrl(url)
+        logging.debug("(getDomFromIndexMeta): METAURL: %s"%metaUrl)
+        txt=getHttpData(metaUrl)
+        if txt is None:
+            raise IOError("Unable to read index meta from %s"%(url))
+        dom = Parse(txt)
+        return dom
+    def getPresentationInfoXML(self, url):
+        """returns dom of info.xml document at url"""
+    def getDocinfoFromPresentationInfoXml(self,docinfo):
+        """gets DC-like bibliographical information from the presentation entry in texttools"""
+        url = docinfo.get('presentationUrl', None)
+        if not url:
+            logging.error("getDocinfoFromPresentation: no URL!")
+            return docinfo
         dom = None
         metaUrl = None
 …
         else:
             # online path
             server=self.digilibBaseUrl+"/servlet/Texter?fn="
             metaUrl=server+url.replace("/mpiwg/online","")
+            metaUrl=server+url
         txt=getHttpData(metaUrl)
         if txt is None:
+            raise IOError("Unable to read infoXMLfrom %s"%(url))
+        dom = Parse(txt)
+        return dom
+            logging.error("Unable to read info.xml from %s"%(url))
+            return docinfo
+        dom = ET.fromstring(txt)
+        docinfo['creator']=getText(dom.find(".//author"))
+        docinfo['title']=getText(dom.find(".//title"))
+        docinfo['date']=getText(dom.find(".//date"))
+        return docinfo
+    def getPageinfo(self, current=None, start=None, rows=None, cols=None, docinfo=None, viewMode=None, viewLayer=None, tocMode=None):
+        """returns pageinfo with the given parameters"""
+        logging.debug("getPageInfo(current=%s, start=%s, rows=%s, cols=%s, viewMode=%s, viewLayer=%s, tocMode=%s)"%(current,start,rows,cols,viewMode,viewLayer,tocMode))
+        pageinfo = {}
+        pageinfo['viewMode'] = viewMode
+        # split viewLayer if necessary
+        if isinstance(viewLayer,basestring):
+            viewLayer = viewLayer.split(',')
+        if isinstance(viewLayer, list):
+            logging.debug("getPageinfo: viewLayer is list:%s"%viewLayer)
+            # save (unique) list in viewLayers
+            seen = set()
+            viewLayers = [l for l in viewLayer if l and l not in seen and not seen.add(l)]
+            pageinfo['viewLayers'] = viewLayers
+            # stringify viewLayer
+            viewLayer = ','.join(viewLayers)
+        else:
+            #create list
+            pageinfo['viewLayers'] = [viewLayer]
+    def getAuthinfoFromIndexMeta(self,path,docinfo=None,dom=None,cut=0):
+        """gets authorization info from the index.meta file at path or given by dom"""
+        logging.debug("documentViewer (getauthinfofromindexmeta) path: %s"%(path))
+        access = None
+        if docinfo is None:
+            docinfo = {}
+        if dom is None:
+            for x in range(cut):
+                path=getParentDir(path)
+            dom = self.getDomFromIndexMeta(path)
+        acctype = dom.xpath("//access-conditions/access/@type")
+        if acctype and (len(acctype)>0):
+            access=acctype[0].value
+            if access in ['group', 'institution']:
+                access = getTextFromNode(dom.xpath("//access-conditions/access/name")[0]).lower()
+        docinfo['accessType'] = access
+        return docinfo
+    def getBibinfoFromIndexMeta(self,path,docinfo=None,dom=None,cut=0):
+        """gets bibliographical info from the index.meta file at path or given by dom"""
+        #logging.debug("documentViewer (getbibinfofromindexmeta) path: %s"%(path))
+        if docinfo is None:
+            docinfo = {}
+        if dom is None:
+            for x in range(cut):
+                path=getParentDir(path)
+            dom = self.getDomFromIndexMeta(path)
+        docinfo['indexMetaPath']=self.getIndexMetaPath(path);
+        #logging.debug("documentViewer (getbibinfofromindexmeta cutted) path: %s"%(path))
+        # put in all raw bib fields as dict "bib"
+        bib = dom.xpath("//bib/*")
+        if bib and len(bib)>0:
+            bibinfo = {}
+            for e in bib:
+                bibinfo[e.localName] = getTextFromNode(e)
+            docinfo['bib'] = bibinfo
+        # extract some fields (author, title, year) according to their mapping
+        metaData=self.metadata.main.meta.bib
+        bibtype=dom.xpath("//bib/@type")
+        if bibtype and (len(bibtype)>0):
+            bibtype=bibtype[0].value
+        else:
+            bibtype="generic"
+        bibtype=bibtype.replace("-"," ") # wrong typesiin index meta "-" instead of " " (not wrong! ROC)
+        docinfo['bib_type'] = bibtype
+        bibmap=metaData.generateMappingForType(bibtype)
+        #logging.debug("documentViewer (getbibinfofromindexmeta) bibmap:"+repr(bibmap))
+        #logging.debug("documentViewer (getbibinfofromindexmeta) bibtype:"+repr(bibtype))
+        # if there is no mapping bibmap is empty (mapping sometimes has empty fields)
+        if len(bibmap) > 0 and len(bibmap['author'][0]) > 0:
+            try:
+                docinfo['author']=getTextFromNode(dom.xpath("//bib/%s"%bibmap['author'][0])[0])
+            except: pass
+            try:
+                docinfo['title']=getTextFromNode(dom.xpath("//bib/%s"%bibmap['title'][0])[0])
+            except: pass
+            try:
+                docinfo['year']=getTextFromNode(dom.xpath("//bib/%s"%bibmap['year'][0])[0])
+            except: pass
+            #logging.debug("documentViewer (getbibinfofromindexmeta) using mapping for %s"%bibtype)
+            try:
+                docinfo['lang']=getTextFromNode(dom.xpath("//bib/lang")[0])
+            except:
+                docinfo['lang']=''
+            try:
+                docinfo['city']=getTextFromNode(dom.xpath("//bib/city")[0])
+            except:
+                docinfo['city']=''
+            try:
+                docinfo['number_of_pages']=getTextFromNode(dom.xpath("//bib/number_of_pages")[0])
+            except:
+                docinfo['number_of_pages']=''
+            try:
+                docinfo['series_volume']=getTextFromNode(dom.xpath("//bib/series_volume")[0])
+            except:
+                docinfo['series_volume']=''
+            try:
+                docinfo['number_of_volumes']=getTextFromNode(dom.xpath("//bib/number_of_volumes")[0])
+            except:
+                docinfo['number_of_volumes']=''
+            try:
+                docinfo['translator']=getTextFromNode(dom.xpath("//bib/translator")[0])
+            except:
+                docinfo['translator']=''
+            try:
+                docinfo['edition']=getTextFromNode(dom.xpath("//bib/edition")[0])
+            except:
+                docinfo['edition']=''
+            try:
+                docinfo['series_author']=getTextFromNode(dom.xpath("//bib/series_author")[0])
+            except:
+                docinfo['series_author']=''
+            try:
+                docinfo['publisher']=getTextFromNode(dom.xpath("//bib/publisher")[0])
+            except:
+                docinfo['publisher']=''
+            try:
+                docinfo['series_title']=getTextFromNode(dom.xpath("//bib/series_title")[0])
+            except:
+                docinfo['series_title']=''
+            try:
+                docinfo['isbn_issn']=getTextFromNode(dom.xpath("//bib/isbn_issn")[0])
+            except:
+                docinfo['isbn_issn']=''
+        #logging.debug("I NEED BIBTEX %s"%docinfo)
+        return docinfo
+    def getNameFromIndexMeta(self,path,docinfo=None,dom=None,cut=0):
+        """gets name info from the index.meta file at path or given by dom"""
+        if docinfo is None:
+            docinfo = {}
+        if dom is None:
+            for x in range(cut):
+                path=getParentDir(path)
+            dom = self.getDomFromIndexMeta(path)
+        docinfo['name']=getTextFromNode(dom.xpath("/resource/name")[0])
+        logging.debug("documentViewer docinfo[name] %s"%docinfo['name'])
+        return docinfo
+    def getDocinfoFromTextTool(self, url, dom=None, docinfo=None):
+        """parse texttool tag in index meta"""
+        logging.debug("documentViewer (getdocinfofromtexttool) url: %s" % (url))
+        if docinfo is None:
+           docinfo = {}
+        if docinfo.get('lang', None) is None:
+            docinfo['lang'] = '' # default keine Sprache gesetzt
+        if dom is None:
+            dom = self.getDomFromIndexMeta(url)
+        archivePath = None
+        archiveName = None
+        archiveNames = dom.xpath("//resource/name")
+        if archiveNames and (len(archiveNames) > 0):
+            archiveName = getTextFromNode(archiveNames[0])
+        else:
+            logging.warning("documentViewer (getdocinfofromtexttool) resource/name missing in: %s" % (url))
+        archivePaths = dom.xpath("//resource/archive-path")
+        if archivePaths and (len(archivePaths) > 0):
+            archivePath = getTextFromNode(archivePaths[0])
+            # clean up archive path
+            if archivePath[0] != '/':
+                archivePath = '/' + archivePath
+            if archiveName and (not archivePath.endswith(archiveName)):
+                archivePath += "/" + archiveName
+        else:
+            # try to get archive-path from url
+            logging.warning("documentViewer (getdocinfofromtexttool) resource/archive-path missing in: %s" % (url))
+            if (not url.startswith('http')):
+                archivePath = url.replace('index.meta', '')
+        if archivePath is None:
+            # we balk without archive-path
+            raise IOError("Missing archive-path (for text-tool) in %s" % (url))
+        imageDirs = dom.xpath("//texttool/image")
+        if imageDirs and (len(imageDirs) > 0):
+            imageDir = getTextFromNode(imageDirs[0])
+        else:
+            # we balk with no image tag / not necessary anymore because textmode is now standard
+            #raise IOError("No text-tool info in %s"%(url))
+            imageDir = ""
+            #xquery="//pb"
+            docinfo['imagePath'] = "" # keine Bilder
+            docinfo['imageURL'] = ""
+        if imageDir and archivePath:
+            #print "image: ", imageDir, " archivepath: ", archivePath
+            imageDir = os.path.join(archivePath, imageDir)
+            imageDir = imageDir.replace("/mpiwg/online", '')
+            docinfo = self.getDirinfoFromDigilib(imageDir, docinfo=docinfo)
+            docinfo['imagePath'] = imageDir
+            docinfo['imageURL'] = self.digilibBaseUrl + "/servlet/Scaler?fn=" + imageDir
+        viewerUrls = dom.xpath("//texttool/digiliburlprefix")
+        if viewerUrls and (len(viewerUrls) > 0):
+            viewerUrl = getTextFromNode(viewerUrls[0])
+            docinfo['viewerURL'] = viewerUrl
+        # old style text URL
+        textUrls = dom.xpath("//texttool/text")
+        if textUrls and (len(textUrls) > 0):
+            textUrl = getTextFromNode(textUrls[0])
+            if urlparse.urlparse(textUrl)[0] == "": #keine url
+                textUrl = os.path.join(archivePath, textUrl)
+            # fix URLs starting with /mpiwg/online
+            if textUrl.startswith("/mpiwg/online"):
+                textUrl = textUrl.replace("/mpiwg/online", '', 1)
+            docinfo['textURL'] = textUrl
+            #TODO: hack-DW for annalen
+            if (textUrl is not None) and (textUrl.startswith("/permanent/einstein/annalen")):
+                textUrl=textUrl.replace("/permanent/einstein/annalen/","/diverse/de/")
+                splitted=textUrl.split("/fulltext")
+                textUrl=splitted[0]+".xml"
+                textUrlkurz = string.split(textUrl, ".")[0]
+                docinfo['textURLPathkurz'] = textUrlkurz
+                docinfo['textURLPath'] = textUrl
+                logging.debug("hack")
+                logging.debug(textUrl)
+        # new style text-url-path
+        textUrls = dom.xpath("//texttool/text-url-path")
+        if textUrls and (len(textUrls) > 0):
+            textUrl = getTextFromNode(textUrls[0])
+            docinfo['textURLPath'] = textUrl
+            textUrlkurz = string.split(textUrl, ".")[0]
+            docinfo['textURLPathkurz'] = textUrlkurz
+            #if not docinfo['imagePath']:
+                # text-only, no page images
+                #docinfo = self.getNumTextPages(docinfo)
+        presentationUrls = dom.xpath("//texttool/presentation")
+        docinfo = self.getBibinfoFromIndexMeta(url, docinfo=docinfo, dom=dom)   # get info von bib tag
+        #docinfo = self.getDownloadfromDocinfoToBibtex(url, docinfo=docinfo, dom=dom)
+        docinfo = self.getNameFromIndexMeta(url, docinfo=docinfo, dom=dom)
+        if presentationUrls and (len(presentationUrls) > 0): # ueberschreibe diese durch presentation informationen
+             # presentation url ergiebt sich ersetzen von index.meta in der url der fuer die Metadaten
+             # durch den relativen Pfad auf die presentation infos
+            presentationPath = getTextFromNode(presentationUrls[0])
+            if url.endswith("index.meta"):
+                presentationUrl = url.replace('index.meta', presentationPath)
+            else:
+                presentationUrl = url + "/" + presentationPath
+            docinfo = self.getBibinfoFromTextToolPresentation(presentationUrl, docinfo=docinfo, dom=dom)
+        docinfo = self.getAuthinfoFromIndexMeta(url, docinfo=docinfo, dom=dom)   # get access info
+        return docinfo
+    def getBibinfoFromTextToolPresentation(self,url,docinfo=None,dom=None):
+        """gets the bibliographical information from the preseantion entry in texttools
+        """
+        dom=self.getPresentationInfoXML(url)
+        try:
+            docinfo['author']=getTextFromNode(dom.xpath("//author")[0])
+        except:
+            pass
+        try:
+            docinfo['title']=getTextFromNode(dom.xpath("//title")[0])
+        except:
+            pass
+        try:
+            docinfo['year']=getTextFromNode(dom.xpath("//date")[0])
+        except:
+            pass
+        return docinfo
+    def getDocinfoFromImagePath(self,path,docinfo=None,cut=0):
+        """path ist the path to the images it assumes that the index.meta file is one level higher."""
+        logging.debug("documentViewer (getdocinfofromimagepath) path: %s"%(path))
+        if docinfo is None:
+            docinfo = {}
+        path=path.replace("/mpiwg/online","")
+        docinfo['imagePath'] = path
+        docinfo=self.getDirinfoFromDigilib(path,docinfo=docinfo,cut=cut)
+        pathorig=path
+        for x in range(cut):
+                path=getParentDir(path)
+        logging.debug("documentViewer (getdocinfofromimagepath) PATH:"+path)
+        imageUrl=self.digilibBaseUrl+"/servlet/Scaler?fn="+path
+        docinfo['imageURL'] = imageUrl
+        #path ist the path to the images it assumes that the index.meta file is one level higher.
+        docinfo = self.getBibinfoFromIndexMeta(pathorig,docinfo=docinfo,cut=cut+1)
+        #docinfo = self.getDownloadfromDocinfoToBibtex(pathorig,docinfo=docinfo,cut=cut+1)
+        docinfo = self.getAuthinfoFromIndexMeta(pathorig,docinfo=docinfo,cut=cut+1)
+        return docinfo
+    def getDocinfo(self, mode, url):
+        """returns docinfo depending on mode"""
+        logging.debug("documentViewer (getdocinfo) mode: %s, url: %s"%(mode,url))
+        # look for cached docinfo in session
+        if self.REQUEST.SESSION.has_key('docinfo'):
+            docinfo = self.REQUEST.SESSION['docinfo']
+            # check if its still current
+            if docinfo is not None and docinfo.get('mode') == mode and docinfo.get('url') == url:
+                logging.debug("documentViewer (getdocinfo) docinfo in session: %s"%docinfo)
+                return docinfo
+        # new docinfo
+        docinfo = {'mode': mode, 'url': url}
+        if mode=="texttool": #index.meta with texttool information
+            docinfo = self.getDocinfoFromTextTool(url, docinfo=docinfo)
+        elif mode=="imagepath":
+            docinfo = self.getDocinfoFromImagePath(url, docinfo=docinfo)
+        elif mode=="filepath":
+            docinfo = self.getDocinfoFromImagePath(url, docinfo=docinfo,cut=1)
+        else:
+            logging.error("documentViewer (getdocinfo) unknown mode: %s!"%mode)
+            raise ValueError("Unknown mode %s! Has to be one of 'texttool','imagepath','filepath'."%(mode))
+        # FIXME: fake texturlpath
+        if not docinfo.has_key('textURLPath'):
+            docinfo['textURLPath'] = None
+        logging.debug("documentViewer (getdocinfo) docinfo: %s"%docinfo)
+        #logging.debug("documentViewer (getdocinfo) docinfo: %s"%)
+        self.REQUEST.SESSION['docinfo'] = docinfo
+        return docinfo
+    def getPageinfo(self, current, start=None, rows=None, cols=None, docinfo=None, viewMode=None, tocMode=None):
+        """returns pageinfo with the given parameters"""
+        pageinfo = {}
+        pageinfo['viewLayer'] = viewLayer
+        pageinfo['tocMode'] = tocMode
         current = getInt(current)
         pageinfo['current'] = current
+        pageinfo['pn'] = current
         rows = int(rows or self.thumbrows)
         pageinfo['rows'] = rows
 …
         grpsize = cols * rows
         pageinfo['groupsize'] = grpsize
+        # is start is empty use one around current
         start = getInt(start, default=(math.ceil(float(current)/float(grpsize))*grpsize-(grpsize-1)))
         # int(current / grpsize) * grpsize +1))
         pageinfo['start'] = start
+        pageinfo['end'] = start + grpsize
+        if (docinfo is not None) and ('numPages' in docinfo):
+            np = int(docinfo['numPages'])
+            pageinfo['end'] = min(pageinfo['end'], np)
+            pageinfo['numgroups'] = int(np / grpsize)
+            if np % grpsize > 0:
+                pageinfo['numgroups'] += 1
+        pageinfo['viewMode'] = viewMode
+        pageinfo['tocMode'] = tocMode
+        # get number of pages
+        np = int(docinfo.get('numPages', 0))
+        if np == 0:
+            # numPages unknown - maybe we can get it from text page
+            if docinfo.get('textURLPath', None):
+                # cache text page as well
+                pageinfo['textPage'] = self.getTextPage(mode=viewLayer, pn=current, docinfo=docinfo, pageinfo=pageinfo)
+                np = int(docinfo.get('numPages', 0))
+        # cache table of contents
+        pageinfo['tocPageSize'] = getInt(self.REQUEST.get('tocPageSize', 30))
+        pageinfo['numgroups'] = int(np / grpsize)
+        if np % grpsize > 0:
+            pageinfo['numgroups'] += 1
+        pageFlowLtr = docinfo.get('pageFlow', 'ltr') != 'rtl'
+        oddScanLeft = docinfo.get('oddPage', 'left') != 'right'
+        # add zeroth page for two columns
+        pageZero = (cols == 2 and (pageFlowLtr != oddScanLeft))
+        pageinfo['pageZero'] = pageZero
+        pageinfo['pageBatch'] = self.getPageBatch(start=start, rows=rows, cols=cols, pageFlowLtr=pageFlowLtr, pageZero=pageZero, minIdx=1, maxIdx=np)
         pageinfo['characterNormalization'] = self.REQUEST.get('characterNormalization','reg')
+        #pageinfo['optionToggle'] = self.REQUEST.get('optionToggle','1')
+        pageinfo['query'] = self.REQUEST.get('query','')
+        pageinfo['queryType'] = self.REQUEST.get('queryType','')
+        pageinfo['querySearch'] =self.REQUEST.get('querySearch', 'fulltext')
+        pageinfo['textPN'] = self.REQUEST.get('textPN','1')
+        pageinfo['highlightQuery'] = self.REQUEST.get('highlightQuery','')
+        pageinfo ['highlightElementPos'] = self.REQUEST.get('highlightElementPos','')
+        pageinfo ['highlightElement'] = self.REQUEST.get('highlightElement','')
+        pageinfo ['xpointer'] = self.REQUEST.get('xpointer','')
+        pageinfo['tocPageSize'] = self.REQUEST.get('tocPageSize', '30')
+        pageinfo['queryPageSize'] =self.REQUEST.get('queryPageSize', '10')
+        pageinfo['tocPN'] = self.REQUEST.get('tocPN', '1')
+        toc = int (pageinfo['tocPN'])
+        pageinfo['textPages'] =int (toc)
+        if 'tocSize_%s'%tocMode in docinfo:
+            tocSize = int(docinfo['tocSize_%s'%tocMode])
+            tocPageSize = int(pageinfo['tocPageSize'])
+            # cached toc
+            if tocSize%tocPageSize>0:
+                tocPages=tocSize/tocPageSize+1
+        # cache search results
+        pageinfo['resultPageSize'] = getInt(self.REQUEST.get('resultPageSize', 10))
+        query = self.REQUEST.get('query',None)
+        pageinfo['query'] = query
+        if query:
+            queryType = self.REQUEST.get('queryType', 'fulltextMorph')
+            pageinfo['queryType'] = queryType
+            pageinfo['resultStart'] = getInt(self.REQUEST.get('resultStart', '1'))
+            self.getSearchResults(mode=queryType, query=query, pageinfo=pageinfo, docinfo=docinfo)
+            # highlighting
+            highlightQuery = self.REQUEST.get('highlightQuery', None)
+            if highlightQuery:
+                pageinfo['highlightQuery'] = highlightQuery
+                pageinfo['highlightElement'] = self.REQUEST.get('highlightElement', '')
+                pageinfo['highlightElementPos'] = self.REQUEST.get('highlightElementPos', '')
+        return pageinfo
+    def getPageBatch(self, start=1, rows=10, cols=2, pageFlowLtr=True, pageZero=False, minIdx=1, maxIdx=0):
+        """returns dict with array of page informations for one screenfull of thumbnails"""
+        batch = {}
+        grpsize = rows * cols
+        if maxIdx == 0:
+            maxIdx = start + grpsize
+        nb = int(math.ceil(maxIdx / float(grpsize)))
+        # list of all batch start and end points
+        batches = []
+        if pageZero:
+            ofs = 0
+        else:
+            ofs = 1
+        for i in range(nb):
+            s = i * grpsize + ofs
+            e = min((i + 1) * grpsize + ofs - 1, maxIdx)
+            batches.append({'start':s, 'end':e})
+        batch['batches'] = batches
+        pages = []
+        if pageZero and start == 1:
+            # correct beginning
+            idx = 0
+        else:
+            idx = start
+        for r in range(rows):
+            row = []
+            for c in range(cols):
+                if idx < minIdx or idx > maxIdx:
+                    page = {'idx':None}
+                else:
+                    page = {'idx':idx}
+                idx += 1
+                if pageFlowLtr:
+                    row.append(page)
+                else:
+                    row.insert(0, page)
+            pages.append(row)
+        if start > 1:
+            batch['prevStart'] = max(start - grpsize, 1)
+        else:
+            batch['prevStart'] = None
+        if start + grpsize < maxIdx:
+            batch['nextStart'] = start + grpsize
+        else:
+            batch['nextStart'] = None
+        batch['pages'] = pages
+        return batch
+    def getBatch(self, start=1, size=10, end=0, data=None, fullData=True):
+        """returns dict with information for one screenfull of data."""
+        batch = {}
+        if end == 0:
+            end = start + size
+        nb = int(math.ceil(end / float(size)))
+        # list of all batch start and end points
+        batches = []
+        for i in range(nb):
+            s = i * size + 1
+            e = min((i + 1) * size, end)
+            batches.append({'start':s, 'end':e})
+        batch['batches'] = batches
+        # list of elements in this batch
+        this = []
+        j = 0
+        for i in range(start, min(start+size, end)):
+            if data:
+                if fullData:
+                    d = data[i]
+                else:
+                    d = data[j]
+                    j += 1
             else:
+                tocPages=tocSize/tocPageSize
+            pageinfo['tocPN'] = min (tocPages,toc)
+        pageinfo['searchPN'] =self.REQUEST.get('searchPN','1')
+        #pageinfo['sn'] =self.REQUEST.get('sn','')
+        pageinfo['s'] =self.REQUEST.get('s','')
+        return pageinfo
+def changeDocumentViewer(self,title="",digilibBaseUrl=None,thumbrows=2,thumbcols=5,authgroups='mpiwg',RESPONSE=None):
+                d = i+1
+            this.append(d)
+        batch['this'] = this
+        if start > 1:
+            batch['prevStart'] = max(start - size, 1)
+        else:
+            batch['prevStart'] = None
+        if start + size < end:
+            batch['nextStart'] = start + size
+        else:
+            batch['nextStart'] = None
+        return batch
+    security.declareProtected('View management screens','changeDocumentViewerForm')
+    changeDocumentViewerForm = PageTemplateFile('zpt/changeDocumentViewer', globals())
+    def changeDocumentViewer(self,title="",digilibBaseUrl=None,thumbrows=2,thumbcols=5,authgroups='mpiwg',RESPONSE=None):
         """init document viewer"""
         self.title=title
 …
         self.thumbcols = thumbcols
         self.authgroups = [s.strip().lower() for s in authgroups.split(',')]
+        try:
+            # assume MetaDataFolder instance is called metadata
+            self.metadataService = getattr(self, 'metadata')
+        except Exception, e:
+            logging.error("Unable to find MetaDataFolder 'metadata': "+str(e))
         if RESPONSE is not None:
             RESPONSE.redirect('manage_main')
 …
     if RESPONSE is not None:
         RESPONSE.redirect('manage_main')
-## DocumentViewerTemplate class
-class DocumentViewerTemplate(ZopePageTemplate):
-    """Template for document viewer"""
-    meta_type="DocumentViewer Template"
-def manage_addDocumentViewerTemplateForm(self):
-    """Form for adding"""
-    pt=PageTemplateFile('zpt/addDocumentViewerTemplate', globals()).__of__(self)
-    return pt()
-def manage_addDocumentViewerTemplate(self, id='viewer_main', title=None, text=None,
-                           REQUEST=None, submit=None):
-    "Add a Page Template with optional file content."
-    self._setObject(id, DocumentViewerTemplate(id))
-    ob = getattr(self, id)
-    txt=file(os.path.join(package_home(globals()),'zpt/viewer_main.zpt'),'r').read()
-    logging.info("txt %s:"%txt)
-    ob.pt_edit(txt,"text/html")
-    if title:
-        ob.pt_setTitle(title)
-    try:
-        u = self.DestinationURL()
-    except AttributeError:
-        u = REQUEST['URL1']
-    u = "%s/%s" % (u, urllib.quote(id))
-    REQUEST.RESPONSE.redirect(u+'/manage_main')
-    return ''

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 513:67095296c95a in documentViewer

Legend:

MpdlXmlTextServer.py

documentViewer.py

Download in other formats: