Context Navigation

source: documentViewer/MpdlXmlTextServer.py @ 426:a935129e169f

Last change on this file since 426:a935129e169f was 426:a935129e169f, checked in by abukhman, 13 years ago
* empty log message *
File size: 23.4 KB

Line
1
2	from OFS.SimpleItem import SimpleItem
3	from Products.PageTemplates.PageTemplateFile import PageTemplateFile
4	from Ft.Xml import EMPTY_NAMESPACE, Parse
5
6	import sys
7	import logging
8	import urllib
9	import documentViewer
10	from documentViewer import getTextFromNode, serializeNode
11
12	class MpdlXmlTextServer(SimpleItem):
13	"""TextServer implementation for MPDL-XML eXist server"""
14	meta_type="MPDL-XML TextServer"
15
16	manage_options=(
17	{'label':'Config','action':'manage_changeMpdlXmlTextServerForm'},
18	)+SimpleItem.manage_options
19
20	manage_changeMpdlXmlTextServerForm = PageTemplateFile("zpt/manage_changeMpdlXmlTextServer", globals())
21
22	def __init__(self,id,title="",serverUrl="http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/interface/", serverName=None, timeout=40):
23	"""constructor"""
24	self.id=id
25	self.title=title
26	self.timeout = timeout
27	if serverName is None:
28	self.serverUrl = serverUrl
29	else:
30	self.serverUrl = "http://%s/mpdl/interface/"%serverName
31
32	def getHttpData(self, url, data=None):
33	"""returns result from url+data HTTP request"""
34	return documentViewer.getHttpData(url,data,timeout=self.timeout)
35
36	def getServerData(self, method, data=None):
37	"""returns result from text server for method+data"""
38	url = self.serverUrl+method
39	return documentViewer.getHttpData(url,data,timeout=self.timeout)
40
41	def getSearch(self, pageinfo=None, docinfo=None, lemma=None):
42	"""get search list"""
43	docpath = docinfo['textURLPath']
44	url = docinfo['url']
45	pagesize = pageinfo['queryPageSize']
46	pn = pageinfo.get('searchPN',1)
47	sn = pageinfo['sn']
48	highlightQuery = pageinfo['highlightQuery']
49	query =pageinfo['query']
50	queryType =pageinfo['queryType']
51	viewMode= pageinfo['viewMode']
52	tocMode = pageinfo['tocMode']
53	characterNormalization = pageinfo['characterNormalization']
54	optionToggle = pageinfo['optionToggle']
55	tocPN = pageinfo['tocPN']
56	selfurl = self.absolute_url()
57
58	data = self.getServerData("doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&sn=%s&viewMode=%s&characterNormalization=%s&optionToggle=%s&highlightQuery=%s"%(docpath, 'text', queryType, urllib.quote(query), pagesize, pn, sn, viewMode,characterNormalization,optionToggle ,urllib.quote(highlightQuery)))
59
60	pagexml = data.replace('?document=%s'%str(docpath),'?url=%s'%url)
61	pagedom = Parse(pagexml)
62
63	"""
64	pagedivs = pagedom.xpath("//div[@class='queryResultHits']")
65	if (pagedivs == pagedom.xpath("//div[@class='queryResultHits']")):
66	if len(pagedivs)>0:
67	docinfo['queryResultHits'] = int(getTextFromNode(pagedivs[0]))
68	s = getTextFromNode(pagedivs[0])
69	s1 = int(s)/10+1
70	try:
71	docinfo['queryResultHits'] = int(s1)
72	logging.debug("SEARCH ENTRIES: %s"%(s1))
73	except:
74	docinfo['queryResultHits'] = 0
75	"""
76	if (queryType=="fulltext")or(queryType=="xpath")or(queryType=="xquery")or(queryType=="fulltextMorphLemma"):
77	pagedivs = pagedom.xpath("//div[@class='queryResultPage']")
78	if len(pagedivs)>0:
79	pagenode=pagedivs[0]
80	links=pagenode.xpath("//a")
81	for l in links:
82	hrefNode = l.getAttributeNodeNS(None, u"href")
83	if hrefNode:
84	href = hrefNode.nodeValue
85	if href.startswith('page-fragment.xql'):
86	selfurl = self.absolute_url()
87	pagexml=href.replace('mode=text','mode=texttool&viewMode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&tocMode=%s&searchPN=%s&tocPN=%s&optionToggle=%s&characterNormalization=%s'%(viewMode,queryType,urllib.quote(query),pagesize,pn,tocMode,pn,tocPN,optionToggle,characterNormalization))
88	hrefNode.nodeValue = pagexml.replace('page-fragment.xql','%s'%selfurl)
89	return serializeNode(pagenode)
90	if (queryType=="fulltextMorph"):
91	pagedivs = pagedom.xpath("//div[@class='queryResult']")
92	if len(pagedivs)>0:
93	pagenode=pagedivs[0]
94	links=pagenode.xpath("//a")
95	for l in links:
96	hrefNode = l.getAttributeNodeNS(None, u"href")
97	if hrefNode:
98	href = hrefNode.nodeValue
99	if href.startswith('page-fragment.xql'):
100	selfurl = self.absolute_url()
101	pagexml=href.replace('mode=text','mode=texttool&viewMode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s&tocMode=%s&searchPN=%s&tocPN=%s&optionToggle=%s&characterNormalization=%s'%(viewMode,queryType,urllib.quote(query),pagesize,pn,tocMode,pn,tocPN,optionToggle,characterNormalization))
102	hrefNode.nodeValue = pagexml.replace('page-fragment.xql','%s'%selfurl)
103	if href.startswith('../lt/lemma.xql'):
104	hrefNode.nodeValue = href.replace('../lt/lemma.xql','%s/template/head_main_lemma_New'%(selfurl))
105	l.setAttributeNS(None, 'target', '_blank')
106	l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=400, scrollbars=1'); return false;")
107	l.setAttributeNS(None, 'onClick', 'popupWin.focus();')
108	pagedivs = pagedom.xpath("//div[@class='queryResultMorphExpansion']")
109	return serializeNode(pagenode)
110	if (queryType=="ftIndex")or(queryType=="ftIndexMorph"):
111	pagedivs= pagedom.xpath("//div[@class='queryResultPage']")
112	if len(pagedivs)>0:
113	pagenode=pagedivs[0]
114	links=pagenode.xpath("//a")
115	for l in links:
116	hrefNode = l.getAttributeNodeNS(None, u"href")
117	if hrefNode:
118	href = hrefNode.nodeValue
119	hrefNode.nodeValue=href.replace('mode=text','mode=texttool&viewMode=%s&tocMode=%s&tocPN=%s&pn=%s&optionToggle=%s&characterNormalization=%s'%(viewMode,tocMode,tocPN,pn,optionToggle,characterNormalization))
120	if href.startswith('../lt/lex.xql'):
121	hrefNode.nodeValue = href.replace('../lt/lex.xql','%s/template/head_main_voc'%selfurl)
122	l.setAttributeNS(None, 'target', '_blank')
123	l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=400, scrollbars=1'); return false;")
124	l.setAttributeNS(None, 'onClick', 'popupWin.focus();')
125	if href.startswith('../lt/lemma.xql'):
126	hrefNode.nodeValue = href.replace('../lt/lemma.xql','%s/template/head_main_lemma'%selfurl)
127	l.setAttributeNS(None, 'target', '_blank')
128	l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=400, scrollbars=1'); return false;")
129	l.setAttributeNS(None, 'onClick', 'popupWin.focus();')
130	return serializeNode(pagenode)
131	return "no text here"
132
133
134	def getGisPlaces(self, docinfo=None, pageinfo=None):
135	""" Show all Gis Places of whole Page"""
136	xpath='//place'
137	docpath = docinfo.get('textURLPath',None)
138	if not docpath:
139	return None
140
141	url = docinfo['url']
142	selfurl = self.absolute_url()
143	pn = pageinfo['current']
144	hrefList=[]
145	myList= ""
146	text=self.getServerData("xpath.xql", "document=%s&xpath=%s&pn=%s"%(docinfo['textURLPath'],xpath,pn))
147	dom = Parse(text)
148	result = dom.xpath("//result/resultPage/place")
149	for l in result:
150	hrefNode= l.getAttributeNodeNS(None, u"id")
151	href= hrefNode.nodeValue
152	hrefList.append(href)
153	myList = ",".join(hrefList)
154	logging.debug("getGisPlaces :%s"%(myList))
155	return myList
156
157	def getAllGisPlaces (self, docinfo=None, pageinfo=None):
158	"""Show all Gis Places of whole Book """
159	xpath ='//echo:place'
160	docpath =docinfo['textURLPath']
161	url = docinfo['url']
162	selfurl =self.absolute_url()
163	pn =pageinfo['current']
164	hrefList=[]
165	myList=""
166	text=self.getServerData("xpath.xql", "document=%s&xpath=%s"%(docinfo['textURLPath'],xpath))
167	dom =Parse(text)
168	result = dom.xpath("//result/resultPage/place")
169
170	for l in result:
171	hrefNode = l.getAttributeNodeNS(None, u"id")
172	href= hrefNode.nodeValue
173	hrefList.append(href)
174	myList = ",".join(hrefList)
175	logging.debug("getALLGisPlaces :%s"%(myList))
176	return myList
177
178
179	def getTextPage(self, docinfo=None, pageinfo=None):
180	"""returns single page from fulltext"""
181	docpath = docinfo['textURLPath']
182	path = docinfo['textURLPath']
183	url = docinfo.get('url',None)
184	name = docinfo.get('name',None)
185	pn =pageinfo['current']
186	viewMode= pageinfo['viewMode']
187	sn = pageinfo['sn']
188	highlightQuery = pageinfo['highlightQuery']
189	mode = pageinfo ['viewMode']
190	tocMode = pageinfo['tocMode']
191	characterNormalization=pageinfo['characterNormalization']
192	tocPN = pageinfo['tocPN']
193	selfurl = self.absolute_url()
194	if mode == "text_dict":
195	textmode = "textPollux"
196	else:
197	textmode = mode
198
199	textParam = "document=%s&mode=%s&pn=%s&characterNormalization=%s"%(docpath,textmode,pn,characterNormalization)
200	if highlightQuery is not None:
201	textParam +="&highlightQuery=%s&sn=%s"%(urllib.quote(highlightQuery),sn)
202
203	pagexml = self.getServerData("page-fragment.xql",textParam)
204	dom = Parse(pagexml)
205
206	#original Pages
207	pagedivs = dom.xpath("//div[@class='pageNumberOrig']")
208	if pagedivs == dom.xpath("//div[@class='pageNumberOrig']"):
209	if len(pagedivs)>0:
210	docinfo['pageNumberOrig']= getTextFromNode(pagedivs[0])
211	logging.debug("ORIGINAL PAGES: %s"%(docinfo['pageNumberOrig']))
212
213	#figureEntries
214	pagedivs = dom.xpath("//div[@class='countFigureEntries']")
215	if pagedivs == dom.xpath("//div[@class='countFigureEntries']"):
216	if len(pagedivs)>0:
217	docinfo['countFigureEntries'] = getTextFromNode(pagedivs[0])
218	s = getTextFromNode(pagedivs[0])
219	if s=='0':
220	try:
221	docinfo['countFigureEntries'] = int(s)
222	logging.debug("FIGURE ENTRIES: %s"%(s))
223	except:
224	docinfo['countFigureEntries'] = 0
225	else:
226	s1 = int(s)/30+1
227	try:
228	docinfo['countFigureEntries'] = int(s1)
229	logging.debug("FIGURE ENTRIES: %s"%(s1))
230	except:
231	docinfo['countFigureEntries'] = 0
232
233	#allPlaces
234	pagedivs = dom.xpath("//div[@class='countPlaces']")
235	if pagedivs == dom.xpath("//div[@class='countPlaces']"):
236	if len(pagedivs)>0:
237	docinfo['countPlaces']= getTextFromNode(pagedivs[0])
238	s = getTextFromNode(pagedivs[0])
239	try:
240	docinfo['countPlaces'] = int(s)
241	logging.debug("PLACES HERE: %s"%(s))
242	except:
243	docinfo['countPlaces'] = 0
244
245	#tocEntries
246	pagedivs = dom.xpath("//div[@class='countTocEntries']")
247	if pagedivs == dom.xpath("//div[@class='countTocEntries']"):
248	if len(pagedivs)>0:
249	docinfo['countTocEntries'] = int(getTextFromNode(pagedivs[0]))
250	s = getTextFromNode(pagedivs[0])
251	if s=='0':
252	try:
253	docinfo['countTocEntries'] = int(s)
254	logging.debug("TEXT ENTRIES: %s"%(s))
255	except:
256	docinfo['countTocEntries'] = 0
257	else:
258	s1 = int(s)/30+1
259	try:
260	docinfo['countTocEntries'] = int(s1)
261	logging.debug("TEXT ENTRIES: %s"%(s1))
262	except:
263	docinfo['countTocEntries'] = 0
264
265	#numTextPages
266	pagedivs = dom.xpath("//div[@class='countPages']")
267	if pagedivs == dom.xpath("//div[@class='countPages']"):
268	if len(pagedivs)>0:
269	docinfo['numPages'] = getTextFromNode(pagedivs[0])
270	s = getTextFromNode(pagedivs[0])
271
272	try:
273	docinfo['numPages'] = int(s)
274	logging.debug("PAGE NUMBER: %s"%(s))
275
276	np = docinfo['numPages']
277	pageinfo['end'] = min(pageinfo['end'], np)
278	pageinfo['numgroups'] = int(np / pageinfo['groupsize'])
279	if np % pageinfo['groupsize'] > 0:
280	pageinfo['numgroups'] += 1
281	except:
282	docinfo['numPages'] = 0
283
284	else:
285	#no full text -- init to 0
286	docinfo['pageNumberOrig'] = 0
287	docinfo['countFigureEntries'] = 0
288	docinfo['countPlaces'] = 0
289	docinfo['countTocEntries'] = 0
290	docinfo['numPages'] = 0
291	#return docinfo
292
293	# plain text mode
294	if mode == "text":
295	# first div contains text
296	pagedivs = dom.xpath("/div")
297	if len(pagedivs) > 0:
298	pagenode = pagedivs[0]
299	links = pagenode.xpath("//a")
300	for l in links:
301	hrefNode = l.getAttributeNodeNS(None, u"href")
302	if hrefNode:
303	href= hrefNode.nodeValue
304	if href.startswith('#note-'):
305	hrefNode.nodeValue = href.replace('#note-',"?url=%s&viewMode=%s&tocMode=%s&tocPN=%s&pn=%s#note-"%(url,viewMode,tocMode,tocPN,pn))
306	return serializeNode(pagenode)
307	if mode == "xml":
308	# first div contains text
309	pagedivs = dom.xpath("/div")
310	if len(pagedivs) > 0:
311	pagenode = pagedivs[0]
312	return serializeNode(pagenode)
313	if mode == "gis":
314	# first div contains text
315	pagedivs = dom.xpath("/div")
316	if len(pagedivs) > 0:
317	pagenode = pagedivs[0]
318	links =pagenode.xpath("//a")
319	for l in links:
320	hrefNode =l.getAttributeNodeNS(None, u"href")
321	if hrefNode:
322	href=hrefNode.nodeValue
323	if href.startswith('http://chinagis.mpiwg-berlin.mpg.de'):
324	hrefNode.nodeValue =href.replace('chinagis_REST/REST/db/chgis/mpdl','chinagis/REST/db/mpdl/%s'%name)
325	l.setAttributeNS(None, 'target', '_blank')
326	return serializeNode(pagenode)
327
328	if mode == "pureXml":
329	# first div contains text
330	pagedivs = dom.xpath("/div")
331	if len(pagedivs) > 0:
332	pagenode = pagedivs[0]
333	return serializeNode(pagenode)
334	# text-with-links mode
335	if mode == "text_dict":
336	# first div contains text
337	pagedivs = dom.xpath("/div")
338	if len(pagedivs) > 0:
339	pagenode = pagedivs[0]
340	# check all a-tags
341	links = pagenode.xpath("//a")
342	for l in links:
343	hrefNode = l.getAttributeNodeNS(None, u"href")
344	if hrefNode:
345	# is link with href
346	href = hrefNode.nodeValue
347	if href.startswith('lt/lex.xql'):
348	# is pollux link
349	selfurl = self.absolute_url()
350	# change href
351	hrefNode.nodeValue = href.replace('lt/lex.xql','%s/template/head_main_voc'%selfurl)
352	# add target
353	l.setAttributeNS(None, 'target', '_blank')
354	l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=700, scrollbars=1'); return false;")
355	l.setAttributeNS(None, 'onClick', 'popupWin.focus();')
356	if href.startswith('lt/lemma.xql'):
357	selfurl = self.absolute_url()
358	hrefNode.nodeValue = href.replace('lt/lemma.xql','%s/template/head_main_lemma'%selfurl)
359	l.setAttributeNS(None, 'target', '_blank')
360	l.setAttributeNS(None, 'onClick',"popupWin = window.open(this.href, 'contacts', 'location,width=500,height=600,top=180, left=700, scrollbars=1'); return false;")
361	l.setAttributeNS(None, 'onClick', 'popupWin.focus();')
362	if href.startswith('#note-'):
363	hrefNode.nodeValue = href.replace('#note-',"?url=%s&viewMode=%s&tocMode=%s&tocPN=%s&pn=%s#note-"%(url,viewMode,tocMode,tocPN,pn))
364	return serializeNode(pagenode)
365	return "no text here"
366
367	def getTranslate(self, query=None, language=None):
368	"""translate into another languages"""
369	data = self.getServerData("lt/lex.xql","document=&language="+str(language)+"&query="+urllib.quote(query))
370	#pagexml=self.template.fulltextclient.eval("/mpdl/interface/lt/lex.xql","document=&language="+str(language)+"&query="+url_quote(str(query)))
371	return data
372
373	def getLemma(self, lemma=None, language=None):
374	"""simular words lemma """
375	data = self.getServerData("lt/lemma.xql","document=&language="+str(language)+"&lemma="+urllib.quote(lemma))
376	#pagexml=self.template.fulltextclient.eval("/mpdl/interface/lt/lemma.xql","document=&language="+str(language)+"&lemma="+url_quote(str(lemma)))
377	return data
378
379	def getLemmaNew(self, query=None, language=None):
380	"""simular words lemma """
381	data = self.getServerData("lt/lemma.xql","document=&language="+str(language)+"&lemma="+urllib.quote(query))
382	#pagexml=self.template.fulltextclient.eval("/mpdl/interface/lt/lemma.xql","document=&language="+str(language)+"&lemma="+url_quote(str(query)))
383	return data
384
385	def getQuery (self, docinfo=None, pageinfo=None, query=None, queryType=None, pn=1, optionToggle=None):
386	#number of
387	docpath = docinfo['textURLPath']
388	pagesize = pageinfo['queryPageSize']
389	pn = pageinfo['searchPN']
390	query =pageinfo['query']
391	queryType =pageinfo['queryType']
392	tocSearch = 0
393	tocDiv = None
394
395	pagexml = self.getServerData("doc-query.xql","document=%s&mode=%s&queryType=%s&query=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath, 'text', queryType, urllib.quote(query), pagesize, pn))
396	pagedom = Parse(pagexml)
397	numdivs = pagedom.xpath("//div[@class='queryResultHits']")
398	tocSearch = int(getTextFromNode(numdivs[0]))
399	logging.debug("documentViewer (gettoc) tocSearch: %s"%(tocSearch))
400	tc=int((tocSearch/10)+1)
401	logging.debug("documentViewer (gettoc) tc: %s"%(tc))
402	return tc
403
404	def getToc(self, mode="text", docinfo=None):
405	"""loads table of contents and stores in docinfo"""
406	logging.debug("documentViewer (gettoc) mode: %s"%(mode))
407	if mode == "none":
408	return docinfo
409	if 'tocSize_%s'%mode in docinfo:
410	# cached toc
411	return docinfo
412
413	docpath = docinfo['textURLPath']
414	# we need to set a result set size
415	pagesize = 1000
416	pn = 1
417	if mode == "text":
418	queryType = "toc"
419	else:
420	queryType = mode
421	# number of entries in toc
422	tocSize = 0
423	tocDiv = None
424
425	pagexml = self.getServerData("doc-query.xql","document=%s&queryType=%s&queryResultPageSize=%s&queryResultPN=%s"%(docpath,queryType, pagesize, pn))
426
427	# post-processing downloaded xml
428	pagedom = Parse(pagexml)
429	# get number of entries
430	numdivs = pagedom.xpath("//div[@class='queryResultHits']")
431	if len(numdivs) > 0:
432	tocSize = int(getTextFromNode(numdivs[0]))
433	docinfo['tocSize_%s'%mode] = tocSize
434	return docinfo
435
436	def getTocPage(self, mode="text", pn=1, pageinfo=None, docinfo=None):
437	"""returns single page from the table of contents"""
438	# TODO: this should use the cached TOC
439	if mode == "text":
440	queryType = "toc"
441	else:
442	queryType = mode
443	docpath = docinfo['textURLPath']
444	path = docinfo['textURLPath']
445	pagesize = pageinfo['tocPageSize']
446	pn = pageinfo['tocPN']
447	url = docinfo['url']
448	selfurl = self.absolute_url()
449	viewMode= pageinfo['viewMode']
450	characterNormalization = pageinfo ['characterNormalization']
451	optionToggle =pageinfo ['optionToggle']
452	tocMode = pageinfo['tocMode']
453	tocPN = pageinfo['tocPN']
454
455	data = self.getServerData("doc-query.xql","document=%s&queryType=%s&queryResultPageSize=%s&queryResultPN=%s&characterNormalization=regPlusNorm&optionToggle=1"%(docpath,queryType, pagesize, pn))
456	page = data.replace('page-fragment.xql?document=%s'%str(path),'%s?url=%s&viewMode=%s&tocMode=%s&tocPN=%s&optionToggle=1'%(selfurl,url, viewMode, tocMode, tocPN))
457	text = page.replace('mode=image','mode=texttool')
458	#logging.debug("documentViewer (characterNormalization) characterNormalization: %s"%(characterNormalization))
459
460	return text
461
462	def manage_changeMpdlXmlTextServer(self,title="",serverUrl="http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/interface/",timeout=40,RESPONSE=None):
463	"""change settings"""
464	self.title=title
465	self.timeout = timeout
466	self.serverUrl = serverUrl
467	if RESPONSE is not None:
468	RESPONSE.redirect('manage_main')
469
470	# management methods
471	def manage_addMpdlXmlTextServerForm(self):
472	"""Form for adding"""
473	pt = PageTemplateFile("zpt/manage_addMpdlXmlTextServer", globals()).__of__(self)
474	return pt()
475
476	def manage_addMpdlXmlTextServer(self,id,title="",serverUrl="http://mpdl-proto.mpiwg-berlin.mpg.de/mpdl/interface/",timeout=40,RESPONSE=None):
477	"""add zogiimage"""
478	newObj = MpdlXmlTextServer(id,title,serverUrl,timeout)
479	self.Destination()._setObject(id, newObj)
480	if RESPONSE is not None:
481	RESPONSE.redirect('manage_main')
482
483
484

Note: See TracBrowser for help on using the repository browser.

Download in other formats: