--- documentViewer/MpdlXmlTextServer.py	2011/07/29 18:36:04	1.238.2.5
+++ documentViewer/MpdlXmlTextServer.py	2011/08/05 13:31:27	1.238.2.9
@@ -1,4 +1,3 @@
-
 from OFS.SimpleItem import SimpleItem
 from Products.PageTemplates.PageTemplateFile import PageTemplateFile 
 
@@ -227,32 +226,36 @@ class MpdlXmlTextServer(SimpleItem):
           
     def processPageInfo(self, dom, docinfo, pageinfo):
         """processes page info divs from dom and stores in docinfo and pageinfo"""
-        # process all toplevel divs
-        alldivs = dom.findall(".//div")
-        pagediv = None
+        # assume first second level div is pageMeta
+        alldivs = dom.find("div")
+        
+        if alldivs is None or alldivs.get('class', '') != 'pageMeta':
+            logging.error("processPageInfo: pageMeta div not found!")
+            return
+        
         for div in alldivs:
             dc = div.get('class')
             
-            # page content div
-            if dc == 'pageContent':
-                pagediv = div
-            
             # pageNumberOrig  
-            elif dc == 'pageNumberOrig':
+            if dc == 'pageNumberOrig':
                 pageinfo['pageNumberOrig'] = div.text
                 
             # pageNumberOrigNorm
             elif dc == 'pageNumberOrigNorm':
                 pageinfo['pageNumberOrigNorm'] = div.text
                 
-            # pageNumberOrigNorm
+            # pageHeaderTitle
+            elif dc == 'pageHeaderTitle':
+                pageinfo['pageHeaderTitle'] = div.text
+                
+            # numFigureEntries
             elif dc == 'countFigureEntries':
-                docinfo['countFigureEntries'] = getInt(div.text)
+                docinfo['numFigureEntries'] = getInt(div.text)
                 
-            # pageNumberOrigNorm
+            # numTocEntries
             elif dc == 'countTocEntries':
                 # WTF: s1 = int(s)/30+1
-                docinfo['countTocEntries'] = getInt(div.text)
+                docinfo['numTocEntries'] = getInt(div.text)
                 
             # numTextPages
             elif dc == 'countPages':
@@ -266,11 +269,12 @@ class MpdlXmlTextServer(SimpleItem):
                         pageinfo['numgroups'] = int(np / pageinfo['groupsize'])
                         if np % pageinfo['groupsize'] > 0:
                             pageinfo['numgroups'] += 1
-                            
+        
+        #logging.debug("processPageInfo: pageinfo=%s"%repr(pageinfo))
         return
          
            
-    def getTextPage(self, mode="text_dict", pn=1, docinfo=None, pageinfo=None):
+    def getTextPage(self, mode="text", pn=1, docinfo=None, pageinfo=None):
         """returns single page from fulltext"""
         logging.debug("getTextPage mode=%s, pn=%s"%(mode,pn))
         # check for cached text -- but this shouldn't be called twice
@@ -293,9 +297,12 @@ class MpdlXmlTextServer(SimpleItem):
         characterNormalization = pageinfo.get('characterNormalization', None)
         selfurl = docinfo['viewerUrl']   
         
-        if mode == "text_dict":
-            # text_dict is called textPollux in the backend
+        if mode == "dict" or mode == "text_dict":
+            # dict is called textPollux in the backend
             textmode = "textPollux"
+        elif not mode:
+            # default is text
+            textmode = "text"
         else:
             textmode = mode
         
@@ -311,7 +318,8 @@ class MpdlXmlTextServer(SimpleItem):
         # page content is in <div class="pageContent">
         pagediv = None
         # ElementTree 1.2 in Python 2.6 can't do div[@class='pageContent']
-        alldivs = dom.findall(".//div")
+        # so we look at the second level divs
+        alldivs = dom.findall("div")
         for div in alldivs:
             dc = div.get('class')
             # page content div
@@ -321,7 +329,7 @@ class MpdlXmlTextServer(SimpleItem):
         
         # plain text mode
         if mode == "text":
-            if pagediv:
+            if pagediv is not None:
                 links = pagediv.findall(".//a")
                 for l in links:
                     href = l.get('href')
@@ -333,7 +341,7 @@ class MpdlXmlTextServer(SimpleItem):
             
         # text-with-links mode
         elif mode == "text_dict":
-            if pagediv:
+            if pagediv is not None:
                 # check all a-tags
                 links = pagediv.findall(".//a")
                 for l in links:
@@ -363,18 +371,18 @@ class MpdlXmlTextServer(SimpleItem):
             
         # xml mode
         elif mode == "xml":
-            if pagediv:
+            if pagediv is not None:
                 return serialize(pagediv)
             
         # pureXml mode
         elif mode == "pureXml":
-            if pagediv:
+            if pagediv is not None:
                 return serialize(pagediv)
                   
         # gis mode
         elif mode == "gis":
             name = docinfo['name']
-            if pagediv:
+            if pagediv is not None:
                 # check all a-tags
                 links = pagediv.findall(".//a")
                 for l in links: