Mercurial > hg > documentViewer

--- a/MpdlXmlTextServer.py	Thu Aug 04 18:13:13 2011 +0200
+++ b/MpdlXmlTextServer.py	Fri Aug 05 11:24:42 2011 +0200
@@ -228,6 +228,11 @@
         """processes page info divs from dom and stores in docinfo and pageinfo"""
         # assume first second level div is pageMeta
         alldivs = dom.find("div")
+
+        if alldivs is None or alldivs.get('class', '') != 'pageMeta':
+            logging.error("processPageInfo: pageMeta div not found!")
+            return
+
         for div in alldivs:
             dc = div.get('class')

@@ -264,7 +269,8 @@
                         pageinfo['numgroups'] = int(np / pageinfo['groupsize'])
                         if np % pageinfo['groupsize'] > 0:
                             pageinfo['numgroups'] += 1
-
+
+        #logging.debug("processPageInfo: pageinfo=%s"%repr(pageinfo))
         return


@@ -291,8 +297,8 @@
         characterNormalization = pageinfo.get('characterNormalization', None)
         selfurl = docinfo['viewerUrl']

-        if mode == "dict":
-            # text_dict is called textPollux in the backend
+        if mode == "dict" or mode == "text_dict":
+            # dict is called textPollux in the backend
             textmode = "textPollux"
         elif not mode:
             # default is text
@@ -323,7 +329,7 @@

         # plain text mode
         if mode == "text":
-            if pagediv:
+            if pagediv is not None:
                 links = pagediv.findall(".//a")
                 for l in links:
                     href = l.get('href')
@@ -335,7 +341,7 @@

         # text-with-links mode
         elif mode == "text_dict":
-            if pagediv:
+            if pagediv is not None:
                 # check all a-tags
                 links = pagediv.findall(".//a")
                 for l in links:
@@ -365,18 +371,18 @@

         # xml mode
         elif mode == "xml":
-            if pagediv:
+            if pagediv is not None:
                 return serialize(pagediv)

         # pureXml mode
         elif mode == "pureXml":
-            if pagediv:
+            if pagediv is not None:
                 return serialize(pagediv)

         # gis mode
         elif mode == "gis":
             name = docinfo['name']
-            if pagediv:
+            if pagediv is not None:
                 # check all a-tags
                 links = pagediv.findall(".//a")
                 for l in links:
--- a/documentViewer.py	Thu Aug 04 18:13:13 2011 +0200
+++ b/documentViewer.py	Fri Aug 05 11:24:42 2011 +0200
@@ -461,7 +461,7 @@

         docinfo['documentUrl'] = docUrl
         # process index.meta contents
-        if metaDom is not None:
+        if metaDom is not None and metaDom.tag == 'resource':
             # document directory name and path
             resource = self.metadataService.getResourceData(dom=metaDom)
             if resource: