Context Navigation

source: documentViewer/MpdlXmlTextServer.py @ 482:7ca8ac7db06e

elementtree

Last change on this file since 482:7ca8ac7db06e was 482:7ca8ac7db06e, checked in by casties, 13 years ago
more new template stuff. more batching methods in documentViewer.
File size: 24.1 KB

Line
1	from OFS.SimpleItem import SimpleItem
2	from Products.PageTemplates.PageTemplateFile import PageTemplateFile
3
4	from Ft.Xml import EMPTY_NAMESPACE, Parse
5	from Ft.Xml.Domlette import NonvalidatingReader
6	import Ft.Xml.Domlette
7	import cStringIO
8
9	import xml.etree.ElementTree as ET
10
11	import re
12	import logging
13	import urllib
14
15	from SrvTxtUtils import getInt, getText, getHttpData
16
17	def serialize(node):
18	"""returns a string containing an XML snippet of node"""
19	s = ET.tostring(node, 'UTF-8')
20	# snip off XML declaration
21	if s.startswith('<?xml'):
22	i = s.find('?>')
23	return s[i+3:]
24
25	return s
26
27
28	def getTextFromNode(node):
29	"""get the cdata content of a node"""
30	if node is None:
31	return ""
32
33	# 4Suite:
34	nodelist=node.childNodes
35	text = ""
36	for n in nodelist:
37	if n.nodeType == node.TEXT_NODE:
38	text = text + n.data
39
40	return text
41
42	def serializeNode(node, encoding="utf-8"):
43	"""returns a string containing node as XML"""
44	#s = ET.tostring(node)
45
46	# 4Suite:
47	stream = cStringIO.StringIO()
48	Ft.Xml.Domlette.Print(node, stream=stream, encoding=encoding)
49	s = stream.getvalue()
50	stream.close()
51
52	return s
53
54
55	class MpdlXmlTextServer(SimpleItem):
56	"""TextServer implementation for MPDL-XML eXist server"""
57	meta_type="MPDL-XML TextServer"
58
59	manage_options=(
60	{'label':'Config','action':'manage_changeMpdlXmlTextServerForm'},
61	)+SimpleItem.manage_options
62
63	manage_changeMpdlXmlTextServerForm = PageTemplateFile("zpt/manage_changeMpdlXmlTextServer", globals())
64
65	def __init__(self,id,title="",serverUrl="http://mpdl-text.mpiwg-berlin.mpg.de/mpdl/interface/", serverName=None, timeout=40):
66	"""constructor"""
67	self.id=id
68	self.title=title
69	self.timeout = timeout
70	if serverName is None:
71	self.serverUrl = serverUrl
72	else:
73	self.serverUrl = "http://%s/mpdl/interface/"%serverName
74
75	def getHttpData(self, url, data=None):
76	"""returns result from url+data HTTP request"""
77	return getHttpData(url,data,timeout=self.timeout)
78
79	def getServerData(self, method, data=None):
80	"""returns result from text server for method+data"""
81	url = self.serverUrl+method
82	return getHttpData(url,data,timeout=self.timeout)
83
84	# WTF: what does this really do? can it be integrated in getPage?
85	def getSearch(self, pageinfo=None, docinfo=None):
86	"""get search list"""
87	logging.debug("getSearch()")
88	docpath = docinfo['textURLPath']
89	url = docinfo['url']
90	pagesize = pageinfo['queryPageSize']
91	pn = pageinfo.get('searchPN',1)
92	sn = pageinfo.get('sn',None) #TODO: is this s now?
93	highlightQuery = pageinfo['highlightQuery']
94	query =pageinfo['query']
95	queryType =pageinfo['queryType']
96	viewMode= pageinfo['viewMode']
97	tocMode = pageinfo['tocMode']
98	characterNormalization = pageinfo['characterNormalization']
99	#optionToggle = pageinfo['optionToggle']
100	tocPN = pageinfo['tocPN']
101	selfurl = self.absolute_url()
102	data = self.getServerData("doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&sn=%s&viewMode=%s&characterNormalization=%s&highlightQuery=%s"%(docpath, 'text', queryType, urllib.quote(query), pagesize, pn, sn, viewMode,characterNormalization, urllib.quote(highlightQuery)))
103	pagexml = data.replace('?document=%s'%str(docpath),'?url=%s'%url)
104	pagedom = Parse(pagexml)
105
106	"""
107	pagedivs = pagedom.xpath("//div[@class='queryResultHits']")
108	if (pagedivs == pagedom.xpath("//div[@class='queryResultHits']")):
109	if len(pagedivs)>0:
110	docinfo['queryResultHits'] = int(getTextFromNode(pagedivs[0]))
111	s = getTextFromNode(pagedivs[0])
112	s1 = int(s)/10+1
113	try:
114	docinfo['queryResultHits'] = int(s1)
115	logging.debug("SEARCH ENTRIES: %s"%(s1))
116	except:
117	docinfo['queryResultHits'] = 0
118	"""
119	if (queryType=="fulltext")or(queryType=="xpath")or(queryType=="xquery")or(queryType=="fulltextMorphLemma"):
120	pagedivs = pagedom.xpath("//div[@class='queryResultPage']")
121	if len(pagedivs)>0:
122	pagenode=pagedivs[0]
123	links=pagenode.xpath("//a")
124	for l in links:
125	hrefNode = l.getAttributeNodeNS(None, u"href")
126	if hrefNode:
127	href = hrefNode.nodeValue
128	if href.startswith('page-fragment.xql'):
129	selfurl = self.absolute_url()
130	pagexml=href.replace('mode=text','mode=texttool&viewMode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&tocMode=%s&searchPN=%s&tocPN=%s&characterNormalization=%s'%(viewMode,queryType,urllib.quote(query),pagesize,pn,tocMode,pn,tocPN, characterNormalization))
131	hrefNode.nodeValue = pagexml.replace('page-fragment.xql','%s'%selfurl)
132	#logging.debug("PUREXML :%s"%(serializeNode(pagenode)))
133	return serializeNode(pagenode)
134	if (queryType=="fulltextMorph"):
135	pagedivs = pagedom.xpath("//div[@class='queryResult']")
136	if len(pagedivs)>0:
137	pagenode=pagedivs[0]
138	links=pagenode.xpath("//a")
139	for l in links:
140	hrefNode = l.getAttributeNodeNS(None, u"href")
141	if hrefNode:
142	href = hrefNode.nodeValue
143	if href.startswith('page-fragment.xql'):
144	selfurl = self.absolute_url()
145	pagexml=href.replace('mode=text','mode=texttool&viewMode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&tocMode=%s&searchPN=%s&tocPN=%s&characterNormalization=%s'%(viewMode,queryType,urllib.quote(query),pagesize,pn,tocMode,pn,tocPN,characterNormalization))
146	hrefNode.nodeValue = pagexml.replace('page-fragment.xql','%s'%selfurl)
147	if href.startswith('../lt/lemma.xql'):
148	hrefNode.nodeValue = href.replace('../lt/lemma.xql','%s/template/head_main_query'%(selfurl))
149	l.setAttributeNS(None, 'target', '_blank')
150	l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=400, scrollbars=1'); return false;")
151	l.setAttributeNS(None, 'onDblclick', 'popupWin.focus();')
152	pagedivs = pagedom.xpath("//div[@class='queryResultMorphExpansion']")
153	return serializeNode(pagenode)
154	if (queryType=="ftIndex")or(queryType=="ftIndexMorph"):
155	pagedivs= pagedom.xpath("//div[@class='queryResultPage']")
156	if len(pagedivs)>0:
157	pagenode=pagedivs[0]
158	links=pagenode.xpath("//a")
159	for l in links:
160	hrefNode = l.getAttributeNodeNS(None, u"href")
161	if hrefNode:
162	href = hrefNode.nodeValue
163	hrefNode.nodeValue=href.replace('mode=text','mode=texttool&viewMode=%s&tocMode=%s&tocPN=%s&pn=%s&characterNormalization=%s'%(viewMode,tocMode,tocPN,pn,characterNormalization))
164	if href.startswith('../lt/lex.xql'):
165	hrefNode.nodeValue = href.replace('../lt/lex.xql','%s/template/head_main_lex'%selfurl)
166	l.setAttributeNS(None, 'target', '_blank')
167	l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=400, scrollbars=1'); return false;")
168	l.setAttributeNS(None, 'onDblclick', 'popupWin.focus();')
169	if href.startswith('../lt/lemma.xql'):
170	hrefNode.nodeValue = href.replace('../lt/lemma.xql','%s/template/head_main_lemma'%(selfurl))
171	l.setAttributeNS(None, 'target', '_blank')
172	l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=400, scrollbars=1'); return false;")
173	l.setAttributeNS(None, 'onDblclick', 'popupWin.focus();')
174	return serializeNode(pagenode)
175	return "no text here"
176
177	def getGisPlaces(self, docinfo=None, pageinfo=None):
178	""" Show all Gis Places of whole Page"""
179	xpath='//place'
180	docpath = docinfo.get('textURLPath',None)
181	if not docpath:
182	return None
183
184	pn = pageinfo['current']
185	hrefList=[]
186	myList= ""
187	text=self.getServerData("xpath.xql", "document=%s&xpath=%s&pn=%s"%(docinfo['textURLPath'],xpath,pn))
188	dom = ET.fromstring(text)
189	result = dom.findall(".//result/resultPage/place")
190	for l in result:
191	href = l.get("id")
192	hrefList.append(href)
193	# WTF: what does this do?
194	myList = ",".join(hrefList)
195	#logging.debug("getGisPlaces :%s"%(myList))
196	return myList
197
198	def getAllGisPlaces (self, docinfo=None, pageinfo=None):
199	"""Show all Gis Places of whole Book """
200	xpath ='//echo:place'
201	hrefList=[]
202	myList=""
203	text=self.getServerData("xpath.xql", "document=%s&xpath=%s"%(docinfo['textURLPath'],xpath))
204	dom = ET.fromstring(text)
205	result = dom.findall(".//result/resultPage/place")
206
207	for l in result:
208	href = l.get("id")
209	hrefList.append(href)
210	# WTF: what does this do?
211	myList = ",".join(hrefList)
212	#logging.debug("getALLGisPlaces :%s"%(myList))
213	return myList
214
215	def processPageInfo(self, dom, docinfo, pageinfo):
216	"""processes page info divs from dom and stores in docinfo and pageinfo"""
217	# assume first second level div is pageMeta
218	alldivs = dom.find("div")
219
220	if alldivs is None or alldivs.get('class', '') != 'pageMeta':
221	logging.error("processPageInfo: pageMeta div not found!")
222	return
223
224	for div in alldivs:
225	dc = div.get('class')
226
227	# pageNumberOrig
228	if dc == 'pageNumberOrig':
229	pageinfo['pageNumberOrig'] = div.text
230
231	# pageNumberOrigNorm
232	elif dc == 'pageNumberOrigNorm':
233	pageinfo['pageNumberOrigNorm'] = div.text
234
235	# pageHeaderTitle
236	elif dc == 'pageHeaderTitle':
237	pageinfo['pageHeaderTitle'] = div.text
238
239	# numFigureEntries
240	elif dc == 'countFigureEntries':
241	docinfo['numFigureEntries'] = getInt(div.text)
242
243	# numTocEntries
244	elif dc == 'countTocEntries':
245	# WTF: s1 = int(s)/30+1
246	docinfo['numTocEntries'] = getInt(div.text)
247
248	# numPlaces
249	elif dc == 'countPlaces':
250	docinfo['numPlaces'] = getInt(div.text)
251
252	# numTextPages
253	elif dc == 'countPages':
254	np = getInt(div.text)
255	if np > 0:
256	docinfo['numTextPages'] = np
257	if docinfo.get('numPages', 0) == 0:
258	# seems to be text-only - update page count
259	docinfo['numPages'] = np
260	#pageinfo['end'] = min(pageinfo['end'], np)
261	pageinfo['numgroups'] = int(np / pageinfo['groupsize'])
262	if np % pageinfo['groupsize'] > 0:
263	pageinfo['numgroups'] += 1
264
265	#logging.debug("processPageInfo: pageinfo=%s"%repr(pageinfo))
266	return
267
268
269	def getTextPage(self, mode="text", pn=1, docinfo=None, pageinfo=None):
270	"""returns single page from fulltext"""
271	logging.debug("getTextPage mode=%s, pn=%s"%(mode,pn))
272	# check for cached text -- but ideally this shouldn't be called twice
273	if pageinfo.has_key('textPage'):
274	logging.debug("getTextPage: using cached text")
275	return pageinfo['textPage']
276
277	docpath = docinfo['textURLPath']
278	# just checking
279	if pageinfo['current'] != pn:
280	logging.warning("getTextPage: current!=pn!")
281
282	# stuff for constructing full urls
283	url = docinfo['url']
284	urlmode = docinfo['mode']
285	sn = pageinfo.get('sn', None)
286	highlightQuery = pageinfo.get('highlightQuery', None)
287	tocMode = pageinfo.get('tocMode', None)
288	tocPN = pageinfo.get('tocPN',None)
289	characterNormalization = pageinfo.get('characterNormalization', None)
290
291	selfurl = docinfo['viewerUrl']
292
293	if mode == "dict" or mode == "text_dict":
294	# dict is called textPollux in the backend
295	textmode = "textPollux"
296	elif not mode:
297	# default is text
298	mode = "text"
299	textmode = "text"
300	else:
301	textmode = mode
302
303	textParam = "document=%s&mode=%s&pn=%s&characterNormalization=%s"%(docpath,textmode,pn,characterNormalization)
304	if highlightQuery:
305	textParam +="&highlightQuery=%s&sn=%s"%(urllib.quote(highlightQuery),sn)
306
307	# fetch the page
308	pagexml = self.getServerData("page-fragment.xql",textParam)
309	dom = ET.fromstring(pagexml)
310	# extract additional info
311	self.processPageInfo(dom, docinfo, pageinfo)
312	# page content is in <div class="pageContent">
313	pagediv = None
314	# ElementTree 1.2 in Python 2.6 can't do div[@class='pageContent']
315	# so we look at the second level divs
316	alldivs = dom.findall("div")
317	for div in alldivs:
318	dc = div.get('class')
319	# page content div
320	if dc == 'pageContent':
321	pagediv = div
322	break
323
324	# plain text mode
325	if mode == "text":
326	# get full url assuming documentViewer is parent
327	selfurl = self.getLink()
328	if pagediv is not None:
329	links = pagediv.findall(".//a")
330	for l in links:
331	href = l.get('href')
332	if href and href.startswith('#note-'):
333	href = href.replace('#note-',"%s#note-"%selfurl)
334	l.set('href', href)
335
336	return serialize(pagediv)
337
338	# text-with-links mode
339	elif mode == "dict":
340	if pagediv is not None:
341	viewerurl = docinfo['viewerUrl']
342	selfurl = self.getLink()
343	# check all a-tags
344	links = pagediv.findall(".//a")
345	for l in links:
346	href = l.get('href')
347
348	if href:
349	# is link with href
350	if href.startswith('http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/interface/lt/wordInfo.xql'):
351	# is dictionary link - change href (keeping parameters)
352	l.set('href', href.replace('http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/interface/lt/wordInfo.xql','%s/template/viewer_wordinfo'%viewerurl))
353	# add target to open new page
354	l.set('target', '_blank')
355
356	# TODO: is this needed?
357	if href.startswith('http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lemma.xql'):
358	selfurl = self.absolute_url()
359	l.set('href', href.replace('http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/lt/lemma.xql','%s/head_main_lemma'%selfurl))
360	l.set('target', '_blank')
361	l.set('onclick',"popupWin = window.open(this.href, 'InfoWindow', 'menubar=no, location,width=500,height=600,top=180, left=700, toolbar=no, scrollbars=1'); return false;")
362	l.set('ondblclick', 'popupWin.focus();')
363
364	if href.startswith('#note-'):
365	# note link
366	l.set('href', href.replace('#note-',"%s#note-"%selfurl))
367
368	return serialize(pagediv)
369
370	# xml mode
371	elif mode == "xml":
372	if pagediv is not None:
373	return serialize(pagediv)
374
375	# pureXml mode
376	elif mode == "pureXml":
377	if pagediv is not None:
378	return serialize(pagediv)
379
380	# gis mode
381	elif mode == "gis":
382	name = docinfo['name']
383	if pagediv is not None:
384	# check all a-tags
385	links = pagediv.findall(".//a")
386	for l in links:
387	href = l.get('href')
388	if href:
389	if href.startswith('http://chinagis.mpiwg-berlin.mpg.de'):
390	l.set('href', href.replace('chinagis_REST/REST/db/chgis/mpdl','chinagis/REST/db/mpdl/%s'%name))
391	l.set('target', '_blank')
392
393	return serialize(pagediv)
394
395	return "no text here"
396
397	# TODO: should be getWordInfo
398	def getWordInfo(self, word='', language='', display=''):
399	"""show information (like dictionaries) about word"""
400	data = self.getServerData("lt/wordInfo.xql","language=%s&word=%s&display=%s&output=html"%(language,urllib.quote(word),urllib.quote(display)))
401	return data
402
403	# WTF: what does this do?
404	def getLemma(self, lemma=None, language=None):
405	"""simular words lemma """
406	data = self.getServerData("lt/lemma.xql","language="+str(language)+"&lemma="+urllib.quote(lemma)+"&output=html")
407	return data
408
409	# WTF: what does this do?
410	def getLemmaQuery(self, query=None, language=None):
411	"""simular words lemma """
412	data = self.getServerData("lt/lemma.xql","language="+str(language)+"&query="+urllib.quote(query)+"&output=html")
413	return data
414
415	# WTF: what does this do?
416	def getLex(self, query=None, language=None):
417	#simular words lemma
418	data = self.getServerData("lt/lex.xql","document=&language="+str(language)+"&query="+urllib.quote(query))
419	return data
420
421	# WTF: what does this do?
422	def getQuery (self, docinfo=None, pageinfo=None, query=None, queryType=None, pn=1):
423	#number of
424	docpath = docinfo['textURLPath']
425	pagesize = pageinfo['queryPageSize']
426	pn = pageinfo['searchPN']
427	query =pageinfo['query']
428	queryType =pageinfo['queryType']
429	tocSearch = 0
430	tocDiv = None
431
432	pagexml = self.getServerData("doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath, 'text', queryType, urllib.quote(query), pagesize, pn))
433	pagedom = Parse(pagexml)
434	numdivs = pagedom.xpath("//div[@class='queryResultHits']")
435	tocSearch = int(getTextFromNode(numdivs[0]))
436	tc=int((tocSearch/10)+1)
437	return tc
438
439	def getToc(self, mode="text", docinfo=None):
440	"""loads table of contents and stores XML in docinfo"""
441	logging.debug("getToc mode=%s"%mode)
442	if mode == "none":
443	return docinfo
444
445	if 'tocSize_%s'%mode in docinfo:
446	# cached toc
447	return docinfo
448
449	docpath = docinfo['textURLPath']
450	# we need to set a result set size
451	pagesize = 1000
452	pn = 1
453	if mode == "text":
454	queryType = "toc"
455	else:
456	queryType = mode
457	# number of entries in toc
458	tocSize = 0
459	tocDiv = None
460	# fetch full toc
461	pagexml = self.getServerData("doc-query.xql","document=%s&queryType=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath,queryType, pagesize, pn))
462	dom = ET.fromstring(pagexml)
463	# page content is in <div class="queryResultPage">
464	pagediv = None
465	# ElementTree 1.2 in Python 2.6 can't do div[@class='queryResultPage']
466	alldivs = dom.findall("div")
467	for div in alldivs:
468	dc = div.get('class')
469	# page content div
470	if dc == 'queryResultPage':
471	pagediv = div
472
473	elif dc == 'queryResultHits':
474	docinfo['tocSize_%s'%mode] = getInt(div.text)
475
476	if pagediv:
477	# store XML in docinfo
478	docinfo['tocXML_%s'%mode] = ET.tostring(pagediv, 'UTF-8')
479
480	return docinfo
481
482	def getTocPage(self, mode="text", pn=None, start=None, size=None, pageinfo=None, docinfo=None):
483	"""returns single page from the table of contents"""
484	logging.debug("getTocPage mode=%s, pn=%s"%(mode,pn))
485	if mode == "text":
486	queryType = "toc"
487	else:
488	queryType = mode
489
490	# check for cached TOC
491	if not docinfo.has_key('tocXML_%s'%mode):
492	self.getToc(mode=mode, docinfo=docinfo)
493
494	tocxml = docinfo.get('tocXML_%s'%mode, None)
495	if not tocxml:
496	logging.error("getTocPage: unable to find tocXML")
497	return "Error: no table of contents!"
498
499	if size is None:
500	size = pageinfo.get('tocPageSize', 30)
501
502	if start is None:
503	start = (pn - 1) * size
504
505	fulltoc = ET.fromstring(tocxml)
506
507	if fulltoc:
508	# paginate
509	first = (start - 1) * 2
510	len = size * 2
511	del fulltoc[:first]
512	del fulltoc[len:]
513	tocdivs = fulltoc
514
515	# check all a-tags
516	links = tocdivs.findall(".//a")
517	for l in links:
518	href = l.get('href')
519	if href:
520	# take pn from href
521	m = re.match(r'page-fragment\.xql.*pn=(\d+)', href)
522	if m is not None:
523	# and create new url (assuming parent is documentViewer)
524	url = self.getLink('pn', m.group(1))
525	l.set('href', url)
526	else:
527	logging.warning("getTocPage: Problem with link=%s"%href)
528
529	# fix two-divs-per-row with containing div
530	newtoc = ET.Element('div', {'class':'queryResultPage'})
531	for (d1,d2) in zip(tocdivs[::2],tocdivs[1::2]):
532	e = ET.Element('div',{'class':'tocline'})
533	e.append(d1)
534	e.append(d2)
535	newtoc.append(e)
536
537	return serialize(newtoc)
538
539	return "ERROR: no table of contents!"
540
541
542	def manage_changeMpdlXmlTextServer(self,title="",serverUrl="http://mpdl-text.mpiwg-berlin.mpg.de/mpdl/interface/",timeout=40,RESPONSE=None):
543	"""change settings"""
544	self.title=title
545	self.timeout = timeout
546	self.serverUrl = serverUrl
547	if RESPONSE is not None:
548	RESPONSE.redirect('manage_main')
549
550	# management methods
551	def manage_addMpdlXmlTextServerForm(self):
552	"""Form for adding"""
553	pt = PageTemplateFile("zpt/manage_addMpdlXmlTextServer", globals()).__of__(self)
554	return pt()
555
556	def manage_addMpdlXmlTextServer(self,id,title="",serverUrl="http://mpdl-text.mpiwg-berlin.mpg.de/mpdl/interface/",timeout=40,RESPONSE=None):
557	#def manage_addMpdlXmlTextServer(self,id,title="",serverUrl="http://mpdl-text.mpiwg-berlin.mpg.de:30030/mpdl/interface/",timeout=40,RESPONSE=None):
558	"""add zogiimage"""
559	newObj = MpdlXmlTextServer(id,title,serverUrl,timeout)
560	self.Destination()._setObject(id, newObj)
561	if RESPONSE is not None:
562	RESPONSE.redirect('manage_main')
563
564

Note: See TracBrowser for help on using the repository browser.

Download in other formats: