Context Navigation

← Previous Change
Next Change →

Changeset 516:7d7b639d7be7 in documentViewer for MpdlXmlTextServer.py

Timestamp:

Mar 5, 2012, 5:04:49 PM (12 years ago)

Author:

casties

Branch:

default

Message:

add methods to use doc-info.xql.
read list of page numbers from doc-info.xql.
add original page numbers to thumbs.

File:

: 1 edited

MpdlXmlTextServer.py (modified) (2 diffs)

Legend:

: Unmodified
: Added
: Removed

MpdlXmlTextServer.py

-                      r513
+                      r516
         return places
+    def getTextInfo(self, docinfo=None):
+        """reads document info, including page concordance, from text server"""
+        logging.debug("getDocInfo")
+        docpath = docinfo.get('textURLPath', None)
+        if docpath is None:
+            logging.error("getTextInfo: no textURLPath!")
+            return docinfo
+        # we need to set a result set size
+        pagesize = 10000
+        pn = 1
+        # fetch docinfo
+        pagexml = self.getServerData("doc-info.xql","document=%s&pageSize=%s&pn=%s"%(docpath,pagesize,pn))
+        dom = ET.fromstring(pagexml)
+        # all info in tag <document>
+        doc = dom.find("document")
+        if doc is None:
+            logging.error("getTextInfo: unable to find document-tag!")
+        else:
+            # go through all child elements
+            for tag in doc:
+                name = tag.tag
+                # numTextPages
+                if name == 'countPages':
+                    np = getInt(tag.text)
+                    if np > 0:
+                        docinfo['numTextPages'] = np
+                # numFigureEntries
+                elif name == 'countFigureEntries':
+                    docinfo['numFigureEntries'] = getInt(tag.text)
+                # numTocEntries
+                elif name == 'countTocEntries':
+                    # WTF: s1 = int(s)/30+1
+                    docinfo['numTocEntries'] = getInt(tag.text)
+                # numPlaces
+                elif name == 'countPlaces':
+                    docinfo['numPlaces'] = getInt(tag.text)
+                # pageNumbers
+                elif name == 'pageNumbers':
+                    # contains tags with page numbers
+                    # <pn><n>4</n><no>4</no><non/></pn>
+                    # n=scan number, no=original page no, non=normalized original page no
+                    # pageNumbers is a dict indexed by scan number
+                    pages = {}
+                    for pn in tag:
+                        page = {}
+                        n = 0
+                        for p in pn:
+                            if p.tag == 'n':
+                                n = getInt(p.text)
+                                page['n'] = n
+                            elif p.tag == 'no':
+                                page['no'] = p.text
+                            elif p.tag == 'non':
+                                page['non'] = p.text
+                        if n > 0:
+                            pages[n] = page
+                    docinfo['pageNumbers'] = pages
+                    logging.debug("got pageNumbers=%s"%repr(pages))
+        return docinfo
     def processPageInfo(self, dom, docinfo, pageinfo):
 …
         """returns single page from the table of contents"""
         logging.debug("getResultsPage mode=%s, pn=%s"%(mode,pn))
+        # check for cached result
+        if not 'resultXML' in docinfo:
+            self.getSearchResults(mode=mode, query=query, pageinfo=pageinfo, docinfo=docinfo)
+        # get (cached) result
+        self.getSearchResults(mode=mode, query=query, pageinfo=pageinfo, docinfo=docinfo)
         resultxml = docinfo.get('resultXML', None)

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 516:7d7b639d7be7 in documentViewer for MpdlXmlTextServer.py

Legend:

MpdlXmlTextServer.py

Download in other formats: