Context Navigation

← Previous Change
Next Change →

Changeset 458:48b135b089c8 in documentViewer for MpdlXmlTextServer.py

Timestamp:

Jul 19, 2011, 6:46:35 PM (13 years ago)

Author:

casties

Branch:

elementtree

Message:

more renovation

File:

: 1 edited

MpdlXmlTextServer.py (modified) (5 diffs)

Legend:

: Unmodified
: Added
: Removed

MpdlXmlTextServer.py

-                      r456
+                      r458
 import logging
 import urllib
+import documentViewer
+#from documentViewer import getTextFromNode, serializeNode
+def intOr0(s, default=0):
+    """convert s to int or return default"""
+    try:
+        return int(s)
+    except:
+        return default
+def getText(node):
+    """get the cdata content of a node"""
+    if node is None:
+        return ""
+    # ET:
+    text = node.text or ""
+    for e in node:
+        text += gettext(e)
+        if e.tail:
+            text += e.tail
+    return text
+from SrvTxtUtils import getInt, getText, getHttpData
 def serialize(node):
 …
     def __init__(self,id,title="",serverUrl="http://mpdl-text.mpiwg-berlin.mpg.de/mpdl/interface/", serverName=None, timeout=40):
         """constructor"""
         self.id=id
 …
     def getHttpData(self, url, data=None):
         """returns result from url+data HTTP request"""
         return documentViewer.getHttpData(url,data,timeout=self.timeout)
+        return getHttpData(url,data,timeout=self.timeout)
     def getServerData(self, method, data=None):
         """returns result from text server for method+data"""
         url = self.serverUrl+method
         return documentViewer.getHttpData(url,data,timeout=self.timeout)
+        return getHttpData(url,data,timeout=self.timeout)
     # WTF: what does this really do? can it be integrated in getPage?
 …
             # pageNumberOrigNorm
             elif dc == 'countFigureEntries':
                 docinfo['countFigureEntries'] = intOr0(div.text)
+                docinfo['countFigureEntries'] = getInt(div.text)
             # pageNumberOrigNorm
             elif dc == 'countTocEntries':
                 # WTF: s1 = int(s)/30+1
                 docinfo['countTocEntries'] = intOr0(div.text)
+                docinfo['countTocEntries'] = getInt(div.text)
             # numTextPages
             elif dc == 'countPages':
                 np = intOr0(div.text)
+                np = getInt(div.text)
                 if np > 0:
                     docinfo['numTextPages'] = np
 …
             elif dc == 'queryResultHits':
                 docinfo['tocSize_%s'%mode] = intOr0(div.text)
+                docinfo['tocSize_%s'%mode] = getInt(div.text)
         if pagediv:
-#            # split xml in chunks
-#            tocs = []
-#            tocdivs = pagediv.findall('div')
-#            for p in zip(tocdivs[::2], tocdivs[1::2]):
-#                toc = serialize(p[0])
-#                toc += serialize(p[1])
-#                tocs.append(toc)
-#                logging.debug("pair: %s"%(toc))
             # store XML in docinfo
             docinfo['tocXML_%s'%mode] = ET.tostring(pagediv, 'UTF-8')

Note: See TracChangeset for help on using the changeset viewer.

Context Navigation

Changeset 458:48b135b089c8 in documentViewer for MpdlXmlTextServer.py

Legend:

MpdlXmlTextServer.py

Download in other formats: