Context Navigation

← Previous Change
Next Change →

Changeset 565:1b483194901c in documentViewer for MpiwgXmlTextServer.py

Timestamp:

Oct 9, 2012, 5:01:18 PM (12 years ago)

Author:

casties

Branch:

default

Message:

more new MpiwgXmlTextServer?.

File:

: 1 edited

MpiwgXmlTextServer.py (modified) (11 diffs)

Legend:

: Unmodified
: Added
: Removed

MpiwgXmlTextServer.py

-                      r564
+                      r565
     def getTextInfo(self, mode='', docinfo=None):
+    def getTextInfo(self, mode=None, docinfo=None):
         """reads document info, including page concordance, from text server"""
         logging.debug("getTextInfo mode=%s"%mode)
+        if mode not in ['toc', 'figures', '']:
+            mode = ''
+        field = ''
+        if mode in ['pages', 'toc', 'figures']:
+            # translate mode to field param
+            field = '&field=%s'%mode
+        else:
+            mode = None
         # check cached info
         if mode:
 …
         else:
             # no toc-request
+            # cached but no toc-request?
             if 'numTextPages' in docinfo:
                 return docinfo
 …
         # fetch docinfo
         pagexml = self.getServerData("query/GetDocInfo","docId=%s&field=%s"%(docpath,mode))
+        pagexml = self.getServerData("query/GetDocInfo","docId=%s%s"%(docpath,field))
         dom = ET.fromstring(pagexml)
         # all info in tag <document>
         doc = dom.find("doc")
+        # all info in tag <doc>
+        doc = dom
         if doc is None:
             logging.error("getTextInfo: unable to find document-tag!")
         else:
+            # result is in list-tag
+            l = doc.find('list')
+            if l is not None:
+                lt = l.get('type')
+                # pageNumbers
+                if lt == 'pages':
+                    # contains tags with page numbers
+                    # <item n="14" o="2" o-norm="2" file="0014"/>
+                    # n=scan number, o=original page no, on=normalized original page no
+                    # pageNumbers is a dict indexed by scan number
+                    pages = {}
+                    for i in l:
+                        page = {}
+                        pn = getInt(i.get('n'))
+                        page['pn'] = pn
+                        no = getInt(i.get('o'))
+                        page['no'] = no
+                        non = getInt(i.get('o-norm'))
+                        page['non'] = non
+                        if pn > 0:
+                            pages[pn] = page
+            if mode is None:
+                # get general info from system-tag
+                cp = doc.find('system/countPages')
+                if cp is not None:
+                    docinfo['numTextPages'] = getInt(cp.text)
+            else:
+                # result is in list-tag
+                l = doc.find('list')
+                if l is not None:
+                    lt = l.get('type')
+                    # pageNumbers
+                    if lt == 'pages':
+                        # contains tags with page numbers
+                        # <item n="14" o="2" o-norm="2" file="0014"/>
+                        # n=scan number, o=original page no, on=normalized original page no
+                        # pageNumbers is a dict indexed by scan number
+                        pages = {}
+                        for i in l:
+                            page = {}
+                            pn = getInt(i.get('n'))
+                            page['pn'] = pn
+                            no = getInt(i.get('o'))
+                            page['no'] = no
+                            non = getInt(i.get('o-norm'))
+                            page['non'] = non
+                            if pn > 0:
+                                pages[pn] = page
+                        docinfo['pageNumbers'] = pages
+                        logging.debug("got pageNumbers=%s"%repr(pages))
+                    # toc
+                    elif name == 'toc':
+                        # contains tags with table of contents/figures
+                        # <toc-entry><page>13</page><level>3</level><content>Chapter I</content><level-string>1.</level-string><real-level>1</real-level></toc-entry>
+                        tocs = []
+                        for te in tag:
+                            toc = {}
+                            for t in te:
+                                if t.tag == 'page':
+                                    toc['pn'] = getInt(t.text)
+                                elif t.tag == 'level':
+                                    toc['level'] = t.text
+                                elif t.tag == 'content':
+                                    toc['content'] = t.text
+                                elif t.tag == 'level-string':
+                                    toc['level-string'] = t.text
+                                elif t.tag == 'real-level':
+                                    toc['real-level'] = t.text
+                            tocs.append(toc)
+                    docinfo['numTextPages'] = len(pages)
+                    docinfo['pageNumbers'] = pages
+                    logging.debug("got pageNumbers=%s"%repr(pages))
+                # toc
+                elif name == 'toc':
+                    # contains tags with table of contents/figures
+                    # <toc-entry><page>13</page><level>3</level><content>Chapter I</content><level-string>1.</level-string><real-level>1</real-level></toc-entry>
+                    tocs = []
+                    for te in tag:
+                        toc = {}
+                        for t in te:
+                            if t.tag == 'page':
+                                toc['pn'] = getInt(t.text)
+                            elif t.tag == 'level':
+                                toc['level'] = t.text
+                            elif t.tag == 'content':
+                                toc['content'] = t.text
+                            elif t.tag == 'level-string':
+                                toc['level-string'] = t.text
+                            elif t.tag == 'real-level':
+                                toc['real-level'] = t.text
+                        tocs.append(toc)
+                    # save as full_toc/full_figures
+                    docinfo['full_%s'%mode] = tocs
+                        # save as full_toc/full_figures
+                        docinfo['full_%s'%mode] = tocs
         return docinfo
 …
         textParams = {'docId': docpath,
                       'page': pn}
         if 'characterNormalization' in pageinfo:
+            textParams['normalization'] = pageinfo['characterNormalization']
+            cn = pageinfo['characterNormalization']
+            # TODO: change values in form
+            if cn == 'regPlusNorm':
+                cn = 'norm'
+            textParams['normalization'] = cn
         if not mode:
 …
         # fetch the page
         pagexml = self.getServerData("query/GetPage",urllib.urlencode(textParams))
+        dom = ET.fromstring(pagexml)
+        # extract additional info
+        #self.processPageInfo(dom, docinfo, pageinfo)
+        # page content is in <div class="pageContent">
+        try:
+            dom = ET.fromstring(pagexml)
+        except Exception, e:
+            logging.error("Error parsing page: %s"%e)
+            return None
         pagediv = None
         body = dom.find('.//body')
 …
             return None
+        # currently there's lots of divs...
+        textspan = body.find('span/span')
+        divs = textspan.findall('div')
+        logging.debug("textdivs: %s"%repr(divs))
+        pagediv = divs[0]
+        logging.debug("pagediv: %s"%serialize(pagediv))
+        # the text is in div@class=text
+        pagediv = body.find(".//div[@class='text']")
+        logging.debug("pagediv: %s"%repr(pagediv))
         # plain text mode
         if textmode == "text":
-            # get full url assuming documentViewer is parent
-            selfurl = self.getLink()
             if pagediv is not None:
+                # handle pb-tag
+                self._extractPbTag(pagediv, pageinfo)
+                # get full url assuming documentViewer is parent
+                selfurl = self.getLink()
                 if punditMode:
                     pagediv = self.addPunditAttributes(pagediv, pageinfo, docinfo)
+                    self._addPunditAttributes(pagediv, pageinfo, docinfo)
                 # fix empty div tags
+                divs = pagediv.findall('.//div')
+                for d in divs:
+                    if len(d) == 0 and not d.text:
+                        # make empty divs non-empty
+                        d.text = ' '
+                self._fixEmptyDivs(pagediv)
                 # check all a-tags
                 links = pagediv.findall('.//a')
                 for l in links:
                     href = l.get('href')
+                    # handle notes FIXME!
                     if href and href.startswith('#note-'):
                         href = href.replace('#note-',"%s#note-"%selfurl)
                         l.set('href', href)
                 return serialize(pagediv)
 …
         elif textmode == "dict":
             if pagediv is not None:
+                # handle pb-div
+                self._extractPbTag(pagediv, pageinfo)
                 viewerurl = docinfo['viewerUrl']
                 selfurl = self.getLink()
 …
                 # fix empty div tags
+                divs = pagediv.findall('.//div')
+                for d in divs:
+                    if len(d) == 0 and not d.text:
+                        # make empty divs non-empty
+                        d.text = ' '
+                self._fixEmptyDivs(pagediv)
                 # check all a-tags
                 links = pagediv.findall(".//a")
                 for l in links:
                     href = l.get('href')
                     if href:
                         # is link with href
 …
             if pagediv is not None:
                 # fix empty div tags
+                divs = pagediv.findall('.//div')
+                for d in divs:
+                    if len(d) == 0 and not d.text:
+                        # make empty divs non-empty
+                        d.text = ' '
+                self._fixEmptyDivs(pagediv)
                 # check all a-tags
                 links = pagediv.findall(".//a")
 …
         return None
+    def _extractPbTag(self, pagediv, pageinfo):
+        """extracts information from pb-tag and removes it from pagediv"""
+        pbdiv = pagediv.find(".//span[@class='pb']")
+        if pbdiv is None:
+            logging.warning("getTextPage: no pb-span!")
+            return pagediv
+        # extract running head
+        rh = pbdiv.find(".//span[@class='rhead']")
+        if rh is not None:
+            pageinfo['pageHeaderTitle'] = getText(rh)
+        # remove pb-div from parent
+        ppdiv = pagediv.find(".//span[@class='pb']/..")
+        ppdiv.remove(pbdiv)
+        return pagediv
     def addPunditAttributes(self, pagediv, pageinfo, docinfo):
+    def _addPunditAttributes(self, pagediv, pageinfo, docinfo):
         """add about attributes for pundit annotation tool"""
         textid = docinfo.get('DRI', "fn=%s"%docinfo.get('documentPath', '???'))
 …
         return pagediv
+    def _fixEmptyDivs(self, pagediv):
+        """fixes empty div-tags by inserting a space"""
+        divs = pagediv.findall('.//div')
+        for d in divs:
+            if len(d) == 0 and not d.text:
+                # make empty divs non-empty
+                d.text = ' '
+        return pagediv
     def getSearchResults(self, mode, query=None, pageinfo=None, docinfo=None):

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 565:1b483194901c in documentViewer for MpiwgXmlTextServer.py

Legend:

MpiwgXmlTextServer.py

Download in other formats: