Diff for /ECHO_content/ECHO_language.py between versions 1.2 and 1.11

version 1.2, 2004/11/27 22:38:44 version 1.11, 2007/01/09 17:01:01
Line 1 Line 1
 """Methoden fuer Language Technologies"""  """Methoden fuer Language Technologies"""
   
 def donatus(txt2):  from Products.PageTemplates.PageTemplateFile import PageTemplateFile
     import xmlrpclib  from Products.ECHO_content.analyseAndTag.analyseAndTag import DonatusFile
   from OFS.SimpleItem import SimpleItem
   from OFS.Folder import Folder
   import xml.parsers
   import os.path
   import urlparse,urllib
   from Globals import package_home
   
     server = xmlrpclib.ServerProxy("http://archimedes.fas.harvard.edu/cgi-bin/donatus-rpc")  class ECHO_language:
           """language methods"""
     txt=txt2.encode('utf-8')  
     bin=xmlrpclib.Binary(txt)  
   
           
           def tagLex(self,nr="1",id=None):
               """gerateword tags"""
   
     ret=server.donatus.analyze(bin)  
   
               df=DonatusFile(txt=self.getPage(_pn=nr,_id=id),baseUri=self.baseUri)
                   
     return ret['morphData'].data              return df.convertedXML()
               #return DonatusFile(txt=self.getPage(_pn=nr)).convertedXML()
   
   class Collection(SimpleItem):
            def getCollectionXML(self,RESPONSE=None):
                
                """get collection as xml"""
                return self.aq_parent.getCollectionXML(collection=self.getId(),RESPONSE=RESPONSE)
            
            def __init__(self,id):
                """initialise"""
                self.id=id
                self.entries=[]
                
            
            def getEntries(self):
                """get the entries"""
                entries=self.entries
                for entry in entries: #backward compatibility, cannot be removed a.s.a.p.
                    print entry
                    if entry.has_key('master') and (len(entry['master'])<3):
                        entry['master']=(entry['master'][0],entry['master'][1],'')
                    if entry.has_key('slave') and (len(entry['slave'])<3):
                        entry['slave']=(entry['slave'][0],entry['slave'][1],'')
                    
                return self.entries
            
            def deleteEntry(self,nr):
                """delete an entry"""
                del(self.entries[nr])
              
            def changeEntry(self,nr,slaveUrl,masterID):
                """change an entry, only slaveUrl"""
                tmp=self.entries[nr]
                tm=tmp['master']
                tmp['slave']=(slaveUrl,"","")
                tmp['master']=(tm[0],tm[1],masterID)
                entries=self.entries[0:]
                entries[nr]=tmp 
                self.entries=entries[0:]
                
            def appendEntry(self,fn,id,type,pagelink):
                """append an entry"""
                #check if last entry is complete
                createNew=False
   
 def donatusVariant2Lemma(morphData):               if len(self.entries)==0: #noch gar kein Eintrag
     """creates hash variant -> morphdata"""                   createNew=True
     ret={}  
     dom=xml.dom.minidom.parseString(morphData)  
     lemmas=dom.getElementsByTagName('lemma')  
     for lemma in lemmas:  
         variants=lemma.getElementsByTagName('variant')  
         for variant in variants:  
             atr=variant.getAttribute('form')  
             if ret.has_key(atr):  
                 ret[atr].append=lemma.getAttribute('form')  
             else:              else:
                 ret[atr]=[lemma.getAttribute('form')]                   entry=self.entries[-1]
                    if entry.get('master',None) and entry.get('slave',None):
                        createNew=True
                if createNew:
   
     return ret                   self.entries.append({})
                    entry=self.entries[-1]
                if type=="master":
                    entry['master']=(fn,id,pagelink)
                elif type=="slave":
                    entry['slave']=(fn,id,pagelink)
   
 class ECHO_language:               entries=self.entries[0:]
     """language methods"""               entries[-1]=entry 
                self.entries=entries[0:]
                
   class ECHO_linkCreator(Folder):
        """creator for links"""
        
        meta_type="ECHO_linkCreator"
        
   
                    
                        
        def getCollectionEntries(self,collection):
            col=getattr(self,collection,None)
            if not col:
                return []
          
            return col.getEntries()
           
     def donatusVariant2Lemma(self,nr='1'):       def getAllRefIDs(self,collection):
         """analyze by donatus"""           """return all refids"""
         return donatusVariant2Lemma(donatus(self.lemmatize(nr)))           ret=[]
            entries=self.getCollectionEntries(collection)
     def tagLex(self,nr="1"):           
         """generate Links"""           for entry in entries:
         global retLex               ret.append('_pagelink='+entry['master'][2])
         global toggle           return "&".join(ret)
        
         toggle=0               
         retLex=""       def getCollectionXML(self,collection=None,RESPONSE=None):
            """exports the collection as an XML file"""
         lemmatized=self.lemmatize(nr)[0:]           if not collection:
         #print "ho",repr(lemmatized)               return "<error>no collection: need parameter collection=COLLECTION_NAME</error>"
         variants=donatusVariant2Lemma(donatus(lemmatized))         
                    i=0
         def createTag(name,attrs):           ret=""
                         global toggle           ret+="""<?xml version="1.0" encoding="UTF-8"?>"""
                        ret+="""<linklist xmlns="http://www.mpiwg-berlin.mpg.de/namespace">"""
             if name=="w":           ret+="""<linklistname>%s</linklistname>"""%collection
                 toggle=1           ret+="""<masterurl ref="%s"/>"""%self.getUrls(collection)[0]
                 return ""           ret+="""<slaveurl ref="%s"/>"""%self.getUrls(collection)[1]
            
            for entry in self.getCollectionEntries(collection):
                ret+="""<link id="%s">"""%i
                i+=1
                
                if entry.has_key('master'):
                    ms=entry['master']
     
                
                    try:
                        if urlparse.urlparse(ms[0])[0]=="http": # url
                            ret+="""<source filename="%s"/>"""%urllib.quote(ms[0])
             else:              else:
                 tag="<"                           ret+="""<source filename="%s" refid="%s">"""%(ms[0],ms[1])
                 tag+=name                           splitted=ms[2].split("/")
                 for attr in attrs.keys():                           if (len(splitted)>3):
                     tag+=""" %s="%s" """%(attr,attrs[attr])                               ret+="""<pagelink refid="%s" selectionNodeIndex="%s"/>"""%(splitted[0],splitted[3])
                 tag+=">"   
             return tag                           ret+="""</source>"""
                                    except: #ohne pagelink&
         def createData(data):                       ret+="""<source filename="%s" refid="%s"/>"""%ms
             global toggle               if entry.has_key('slave'):
             astring="""<a href="http://141.14.236.86/cgi-bin/toc/dict?step=remotetable;word=%s;lang=de" target="_blank">%s</a> """                   ms=entry['slave']
             if toggle: # tag war ein w                   try:
                 toggle=0                      if urlparse.urlparse(ms[0])[0]=="http": # url
                 if variants.has_key(data):                          ret+="""<target filename="%s"/>"""%urllib.quote(ms[0])
                     return astring%(variants[data][0],data)  
                 else:                  else:
                     return astring%(data,data)                          ret+="""<target filename="%s" refid="%s">"""%(ms[0],ms[1])
                           splitted=ms[2].split("/")
                           if (len(splitted)>3):
                               ret+="""<pagelink refid="%s" selectionNodeIndex="%s"/>"""%(splitted[0],splitted[3])
                           ret+="""</target>"""
                    except: #ohne pagelink
                        ret+="""<target filename="%s" refid="%s"/>"""%ms
                     
                ret+="</link>"
            ret+="""</linklist>"""
            if RESPONSE:
                RESPONSE.setHeader("Content-Type","text/xml")
            return ret
        def index_html(self,collection=None):
            """show create links"""
            if not collection:
                return "no collection: need parameter collection=COLLECTION_NAME"
            
                 
            pt=PageTemplateFile(os.path.join(package_home(globals()),'zpt','ECHO_linkCreator_main')).__of__(self)
            
            col=getattr(self,collection,None)
            if not col:
                return []
          
            masterUrl=getattr(col,'masterUrl','')
            slaveUrl=getattr(col,'slaveUrl','')
            
            return pt(collection=collection,masterUrl=masterUrl,slaveUrl=slaveUrl)
        
        def addEntry(self,collection,fn,id,type,pagelink,fromurl=None,RESPONSE=None,REQUEST=None):
            """add an entry"""
           
            col=getattr(self, collection,None)
            if not col:
                self._setObject(collection,Collection(collection))
                col=getattr(self, collection)
            
            col.appendEntry(fn,id,type,pagelink)
            
            if fromurl and RESPONSE:
        
                RESPONSE.setHeader("Expires",(DateTime()-1).rfc822())
                RESPONSE.setHeader("Cache-Control", "no-cache")
                RESPONSE.redirect(fromurl)
      
   
        def changeEntry(self,collection,nr,slaveUrl,masterID,RESPONSE=None):
            """change an entry 8only slaveUrl at the moment"""
            col=getattr(self, collection,None)
            col.changeEntry(nr,slaveUrl,masterID)
   
            if RESPONSE:
                RESPONSE.redirect(self.absolute_url()+"?collection="+collection)
            
        def removeEntry(self,collection,nr,RESPONSE=None):
            """remove an entry"""
            col=getattr(self, collection,None)
            col.deleteEntry(nr)
            
            if RESPONSE:
                RESPONSE.redirect(self.absolute_url()+"?collection="+collection)
            
        def setUrls(self,collection,masterUrl,slaveUrl,RESPONSE=None):
            """set the urls for the document viewer"""
            col=getattr(self, collection,None)
            setattr(col,'masterUrl',masterUrl)
            setattr(col,'slaveUrl',slaveUrl)
            
            if RESPONSE:
                RESPONSE.redirect(self.absolute_url()+"?collection="+collection)
            
        def getUrls(self,collection,RESPONSE=None):
            """set the urls for the document viewer"""
            col=getattr(self, collection,None)
            x=getattr(col,'masterUrl')
            y=getattr(col,'slaveUrl')
            return x,y
            
   def manage_addECHO_linkCreatorForm(self,RESPONSE=None):
       """Form for adding"""
       manage_addECHO_linkCreator(self,RESPONSE)
   
   def manage_addECHO_linkCreator(self,RESPONSE=None):
       """Add an ECHO_main"""
       id='linkCreator'
       self._setObject(id,ECHO_linkCreator(id))
       
     
       if RESPONSE is not None:
           RESPONSE.redirect('manage_main')      
                                   
                                           
   
         # 3 handler functions  
         def start_element(name, attrs):  
             global retLex  
                           
             retLex+=createTag(name,attrs)  
         def end_element(name):  
             global retLex  
             if not name=="w":  
                 retLex+="</%s>"%(name.encode('utf-8'))  
                           
                           
         def char_data(data):  
             global retLex  
             if data:  
                 try:  
                     retLex+=createData(data)  
                 except:  
                     """no"""  
                                           
         p = xml.parsers.expat.ParserCreate()  
   
         p.StartElementHandler = start_element  
         p.EndElementHandler = end_element  
         p.CharacterDataHandler = char_data  
                   
         p.Parse(lemmatized.encode('utf-8'),1)  
         #print repr(lemmatized.encode('utf-8'))  
           
         return retLex  
           
                   
     def lemmatize(self,nr='1',lang="de"):  
         """lemmatize"""  
         global ret  
         ret=""  
                   
         def createTag(name,attrs):  
             tag="<"  
             tag+=name  
             for attr in attrs.keys():  
                 tag+=""" %s="%s" """%(attr,attrs[attr])  
             tag+=">"  
             return tag  
                   
         def insertW(str):  
             splitted=str.split()  
             wordlist=["<w>%s</w>"%split for split in splitted]  
             return string.join(wordlist,'\n')  
   
         # 3 handler functions  
         def start_element(name, attrs):  
             global ret  
             ret+=createTag(name,attrs)  
         def end_element(name):  
             global ret  
             ret+="</%s>"%(name.encode('utf-8'))  
               
         def char_data(data):  
             global ret  
             ret+=insertW(data)  
   
         p = xml.parsers.expat.ParserCreate()  
   
         p.StartElementHandler = start_element  
         p.EndElementHandler = end_element  
         p.CharacterDataHandler = char_data  
   
         p.Parse(self.getPage(nr), 1)  
         txt="""<wtag locator="xxx">  
         <section lang="%s"><s>%s</s></section>  
         </wtag>"""  
         ret=txt%(lang,ret)  
                   
         return ret  

Removed from v.1.2  
changed lines
  Added in v.1.11


FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>