cdli/cdli_files.py - diff

Return to cdli_files.py CVS log

Up to [Repository] / cdli

Diff for /cdli/cdli_files.py between versions 1.72 and 1.80.2.10

-version 1.72, 2007/03/22 19:56:22
+version 1.80.2.10, 2007/12/03 21:30:19
  Line 26  import logging
  import transaction
  import copy
  import codecs
+ import sys
+ import cdliSplitter
+ def unicodify(s):
+     """decode str (utf-8 or latin-1 representation) into unicode object"""
+     if not s:
+         return u""
+     if isinstance(s, str):
+         try:
+             return s.decode('utf-8')
+         except:
+             return s.decode('latin-1')
+     else:
+         return s
+ def utf8ify(s):
+     """encode unicode object or string into byte string in utf-8 representation.
+        assumes string objects to be utf-8"""
+     if not s:
+         return ""
+     if isinstance(s, str):
+         return s
+     else:
+         return s.encode('utf-8')
+ def formatAtfHtml(l):
+     """escape special ATF characters for HTML"""
+     if not l:
+         return ""
+     # replace &
+     l = l.replace('&','&amp;')
+     # replace angular brackets
+     l = l.replace('<','&lt;')
+     l = l.replace('>','&gt;')
+     return l
+ def formatAtfLineHtml(l, nolemma=True):
+     """format ATF line for HTML"""
+     if not l:
+         return ""
+     if nolemma:
+         # ignore lemma lines
+         if l.lstrip().startswith('#lem:'):
+             return ""
+     return formatAtfHtml(l)
+ def formatAtfFullLineNum(txt, nolemma=True):
+     """format full line numbers in ATF text"""
+     # surface codes
+     surfaces = {'@obverse':'obv',
+                 '@reverse':'rev',
+                 '@surface':'surface',
+                 '@edge':'edge',
+                 '@left':'left',
+                 '@right':'right',
+                 '@top':'top',
+                 '@bottom':'bottom',
+                 '@face':'face',
+                 '@seal':'seal'}
+     if not txt:
+         return ""
+     ret = []
+     surf = ""
+     col = ""
+     for line in txt.split("\n"):
+         line = unicodify(line)
+         if line and line[0] == '@':
+             # surface or column
+             words = line.split(' ')
+             if words[0] in surfaces:
+                 surf = line.replace(words[0],surfaces[words[0]]).strip()
+             elif words[0] == '@column':
+                 col = words[1]
+         elif line and line[0] in '123456789':
+             # ordinary line -> add line number
+             line = "%s:%s:%s"%(surf,col,line)
+         ret.append(line)
+     return '\n'.join(ret)
+ def generateXMLReturn(hash):
+     """erzeugt das xml file als returnwert fuer uploadATFRPC"""
+     ret="<return>"
+     ret+="<errors>"
+     for error in hash['errors']:
+         ret+="""<error atf="%s">%s</error>"""%error
+     ret+="</errors>"
+     ret+="<changes>"
+     for changed in hash['changed']:
+         ret+="""<change atf="%s">%s</change>"""%changed
+     ret+="</changes>"
+     ret+="<newPs>"
+     for new in hash['newPs']:
+         ret+="""<new atf="%s"/>"""%new
+     ret+="</newPs>"
+     ret+="</return>"
+     return ret
  def unique(s):
      """Return a list of the elements in s, but without duplicates.
- Line 196  class uploadATFfinallyThread(Thread):
+ Line 321  class uploadATFfinallyThread(Thread):
          self.result+="<h2>Start processing</h2>"
          #shall I only upload the changed files?
+         logging.info("uploadATFfinally procedure: %s"%procedure)
          if procedure=="uploadchanged":
              changed=[x[0] for x in SESSION.get('changed',[])]
              uploadFns=changed+SESSION.get('newPs',[])
- Line 341  class uploadATFThread(Thread):
+ Line 467  class uploadATFThread(Thread):
          ctx = self.getContext(app,serverport=self.serverport)
          logging.info("run intern")
          try:
+             logging.info("created: %s"%idTmp)
              ctx.temp_folder._setObject(idTmp,tmpStore(idTmp))
          except:
              logging.error("thread upload: %s %s"%sys.exc_info()[0:2])
- Line 355  class uploadATFThread(Thread):
+ Line 482  class uploadATFThread(Thread):
          conn.close()
+         return getattr(ctx.temp_folder,idTmp)
      def getResult(self):
          """method for accessing result"""
- Line 479  class CDLIBasketContainer(OrderedFolder)
+ Line 607  class CDLIBasketContainer(OrderedFolder)
      security=ClassSecurityInfo()
      meta_type="CDLIBasketContainer"
+     def getPNumbersOfBasket(self,basketName):
+         """get all pnumbers of a basket as a list, returns an empty list if basket not found
+         @param basketName: name of the basket
+         """
+         ret=[]
+         basketId=self.getBasketIdfromName(basketName)
+         if not basketId:
+             return []
+         ob=getattr(self,basketId).getContent()
+         ret=[x[0].split(".")[0] for x in ob]
+         return ret
+     security.declareProtected('manage','getBasketAsOneFile')
+     def getBasketAsOneFile(self,basketName,current="no"):
+         """returns all files of the basket combined in one file
+         @param basketName: Name of the basket
+         @param current: (optional) if current is set to "yes" then the most current version of
+                         all files are downloaded and not the versions of the files as stored in the basket
+         """
+         ret=""
+         basketId=self.getBasketIdfromName(basketName)
+         if not basketId:
+             return ""
+         ob=getattr(self,basketId).getLastVersion()
+         for object in ob.getContent():
+             if current=="no": #version as they are in the basket
+                             ret+=str(object[0].getData())+"\n"
+             elif current=="yes":
+                             #search current object
+                             logging.info("crrent: %s"%object[1].getId().split(".")[0])
+                             founds=self.CDLICatalog.search({'title':object[1].getId().split(".")[0]})
+                             if len(founds)>0:
+                                 ret+=str(founds[0].getObject().getLastVersion().getData())+"\n"
+         return ret
+     security.declareProtected('manage','upDateBaskets')
      def upDateBaskets(self):
          """update content in to objects"""
- Line 506  class CDLIBasketContainer(OrderedFolder)
+ Line 674  class CDLIBasketContainer(OrderedFolder)
          trash.manage_pasteObjects(cut)
      security.declareProtected('manage','manageBaskets')
-     def manageBaskets(self,submit,ids=None,basket1="",basket2="",REQUEST=None,RESPONSE=None):
+     def manageBaskets(self,submit,ids=None,basket1="",basket2="",joinBasket="",subtractBasket="",REQUEST=None,RESPONSE=None):
          """manage baskets, delete or copy"""
          if submit=="delete":
              self.deleteBaskets(ids)
          elif submit=="join":
-             flag,msg=self.joinBasket("joinedBasket", ids)
+             flag,msg=self.joinBasket(joinBasket, ids)
              logging.info("joining %s %s"%(flag,msg))
          elif submit=="subtract":
              logging.info("BBBb %s %s"%(basket1,basket2))
-             flag,msg=self.subtractBasket("subtractedBasket", basket1,basket2)
+             flag,msg=self.subtractBasket(subtractBasket, basket1,basket2)
              logging.info("subtract %s %s"%(flag,msg))
          if RESPONSE:
- Line 549  class CDLIBasketContainer(OrderedFolder)
+ Line 717  class CDLIBasketContainer(OrderedFolder)
          return pt(basketId=basketId,basketName=basketName)
-     security.declareProtected('View','index_html')
+     security.declareProtected('manage','index_html')
      def index_html(self):
          """stanadard ansicht"""
- Line 753  class CDLIBasketContainer(OrderedFolder)
+ Line 921  class CDLIBasketContainer(OrderedFolder)
          """get name of the actualuser"""
          return str(self.REQUEST['AUTHENTICATED_USER'])
+     security.declareProtected('manage','addBasket')
      def addBasket(self,newBasketName):
          """add a new basket"""
- Line 809  class CDLIBasket(Folder,CatalogAware):
+ Line 977  class CDLIBasket(Folder,CatalogAware):
      meta_type="CDLIBasket"
      default_catalog="CDLIBasketCatalog"
+     def searchInBasket(self,indexName,searchStr,regExp=False):
+         """searchInBasket"""
+         lst=self.searchInLineIndexDocs(indexName,searchStr,uniq=True,regExp=regExp) #TODO: fix this
+         ret={}
+         lv=self.getLastVersion()
+         for obj in lv.content.getContent():
+             id=obj[1].getId().split(".")[0]
+             if id in lst:
+                 ret[id]=self.showWordInFile(id,searchStr,lineList=self.getLinesFromIndex(indexName,searchStr,id,regExp=regExp),regExp=regExp,indexName=indexName)
+         pt=PageTemplateFile(os.path.join(package_home(globals()),'zpt','searchResultsInBasket')).__of__(self)
+         return pt(result=ret,indexName=indexName,regExp=regExp,word=searchStr)
+     def searchInBasket_v1(self,searchStr):
+         """search occurences of searchStr in files im basket"""
+         ret=[]
+         lv=self.getLastVersion()
+         logging.info("searching")
+         for obj in lv.content.getContent():
+             txt=obj[0].getData()
+             for x in txt.split("\n"):
+                 logging.info("search %s"%x)
+                 if re.match(searchStr,x):
+                     ret.append(x)
+         return "\n".join(ret)
      def getFile(self,obj):
          return obj[1]
- Line 1130  class CDLIBasketVersion(Implicit,Persist
+ Line 1334  class CDLIBasketVersion(Implicit,Persist
          self.REQUEST.RESPONSE.setHeader("Content-Length",length)
          self.REQUEST.RESPONSE.write(ret)
-     security.declareProtected('View','downloadObjectsAsOneFile')
+     security.declareProtected('manage','downloadObjectsAsOneFile')
      def downloadObjectsAsOneFile(self,lock=None,procedure=None,REQUEST=None,check="yes",current="no"):
          """download all selected files in one file"""
- Line 1202  class CDLIBasketVersion(Implicit,Persist
+ Line 1406  class CDLIBasketVersion(Implicit,Persist
                          ret+=str(object[0].getData())+"\n"
                      elif current=="yes":
                          #search current object
-                         founds=self.CDLICatalog.search({'title':object[0].getId()})
+                         founds=self.CDLICatalog.search({'title':object[1].getId().split(".")[0]})
                          if len(founds)>0:
                              ret+=str(founds[0].getObject().getLastVersion().getData())+"\n"
- Line 1248  class CDLIBasketVersion(Implicit,Persist
+ Line 1452  class CDLIBasketVersion(Implicit,Persist
      def __init__(self,id,user,comment="",basketContent=[]):
          """ init a basket version"""
          self.id=id
-         self.coment=comment
+         self.comment=comment
          self._setObject('content',BasketContent(basketContent))
          #self.basketContent=basketContent[0:]a
          self.user=user
- Line 1262  class CDLIBasketVersion(Implicit,Persist
+ Line 1466  class CDLIBasketVersion(Implicit,Persist
          """get Comment"""
          return self.comment
-     security.declareProtected('View','index_html')
+     security.declareProtected('manage','index_html')
      def index_html(self):
              """view the basket"""
- Line 1314  class CDLIFileObject(CatalogAware,extVer
+ Line 1518  class CDLIFileObject(CatalogAware,extVer
      security=ClassSecurityInfo()
+     security.declareProtected('manage','index_html')
-     security.declarePublic('makeThisVersionCurrent')
      def PrincipiaSearchSource(self):
             """Return cataloguable key for ourselves."""
- Line 1326  class CDLIFileObject(CatalogAware,extVer
+ Line 1529  class CDLIFileObject(CatalogAware,extVer
          pt=PageTemplateFile(os.path.join(package_home(globals()),'zpt','makeThisVersionCurrent.zpt')).__of__(self)
          return pt()
+     security.declarePublic('makeThisVersionCurrent')
      def makeThisVersionCurrent(self,comment,author,RESPONSE=None):
          """copy this version to current"""
          parent=self.aq_parent
          newversion=parent.manage_addCDLIFileObject('',comment,author)
          newversion.manage_upload(self.getData())
          if RESPONSE is not None:
              RESPONSE.redirect(self.aq_parent.absolute_url()+'/history')
          return True
-     security.declarePublic('view')
      def getFormattedData(self):
          """fromat text"""
          data=self.getData()
  #        return re.sub("\s\#lem"," #lem",data) #remove return vor #lem
          return re.sub("#lem","       #lem",data) #remove return vor #lem
+     security.declarePublic('view')
      def view(self):
          """view file"""
          pt=PageTemplateFile(os.path.join(package_home(globals()),'zpt','viewCDLIFile.zpt')).__of__(self)
- Line 1383  class CDLIFileObject(CatalogAware,extVer
+ Line 1584  class CDLIFileObject(CatalogAware,extVer
  manage_addCDLIFileObjectForm=DTMLFile('dtml/fileAdd', globals(),Kind='CDLIFileObject',kind='CDLIFileObject', version='1')
- def manage_addCDLIFileObject(self,id,vC='',author='', file='',title='',precondition='', content_type='',
+ def manage_addCDLIFileObject(self,id,vC='',author='', file='',title='',versionNumber=0,
+                              precondition='', content_type='',
                               from_tmp=False,REQUEST=None):
      """Add a new File object.
      Creates a new File object 'id' with the contents of 'file'"""
      id=str(id)
- Line 1399  def manage_addCDLIFileObject(self,id,vC=
+ Line 1600  def manage_addCDLIFileObject(self,id,vC=
      self=self.this()
      # First, we create the file without data:
-     self._setObject(id, CDLIFileObject(id,title,'',content_type, precondition))
+     self._setObject(id, CDLIFileObject(id,title,versionNumber=versionNumber,versionComment=vC,time=time.localtime(),author=author))
-     self._getOb(id).versionComment=str(vC)
+     fob = self._getOb(id)
-     self._getOb(id).time=time.localtime()
-     setattr(self._getOb(id),'author',author)
      # Now we "upload" the data.  By doing this in two steps, we
      # can use a database trick to make the upload more efficient.
      if file and not from_tmp:
-         self._getOb(id).manage_upload(file)
+         fob.manage_upload(file)
      elif file and from_tmp:
-         self._getOb(id).manage_upload_from_tmp(file)
+         fob.manage_file_upload(file) # manage_upload_from_tmp doesn't exist in ExtFile2
+     #    fob.manage_upload_from_tmp(file) # manage_upload_from_tmp doesn't exist in ExtFile2
      if content_type:
-         self._getOb(id).content_type=content_type
+         fob.content_type=content_type
+     logging.debug("manage_add: lastversion=%s"%self.getData())
+     logging.debug("reindex1: %s in %s"%(repr(self),repr(self.default_catalog)))
      self.reindex_object()
-     self._getOb(id).reindex_object()
+     logging.debug("manage_add: fob_data=%s"%fob.getData())
+     logging.debug("reindex2: %s in %s"%(repr(fob), repr(fob.default_catalog)))
+     fob.index_object()
      if REQUEST is not None:
          REQUEST['RESPONSE'].redirect(self.absolute_url()+'/manage_main')
  class CDLIFile(extVersionedFile,CatalogAware):
      """CDLI file"""
+     security=ClassSecurityInfo()
      meta_type="CDLI file"
+     content_meta_type = ["CDLI File Object"]
      default_catalog='CDLICatalog'
-     #security.declarePublic('history')
+     security.declareProtected('manage','index_html')
      def getLastVersionData(self):
          """get last version data"""
-         return self.getLastVersion().getData()
+         return self.getData()
      def getLastVersionFormattedData(self):
          """get last version data"""
-         return self.getLastVersion().getFormattedData()
+         return self.getContentObject().getFormattedData()
-     #security.declarePublic('history')
+     def getTextId(self):
+         """returns P-number of text"""
+         # assuming that its the beginning of the title
+         return self.title[:7]
+     #security.declarePublic('history')
      def history(self):
          """history"""
- Line 1484  class CDLIFile(extVersionedFile,CatalogA
+ Line 1694  class CDLIFile(extVersionedFile,CatalogA
          #return [x.getObject() for x in context.CDLIBasketCatalog.search({'getFileNamesInLastVersion':self.getId()})]
+     def _newContentObject(self, id, title='', versionNumber=0, versionComment=None, time=None, author=None):
+         """factory for content objects. to be overridden in derived classes."""
+         return CDLIFileObject(id,title,versionNumber=versionNumber,versionComment=versionComment,time=time,author=author)
      def addCDLIFileObjectForm(self):
          """add a new version"""
- Line 1509  class CDLIFile(extVersionedFile,CatalogA
+ Line 1724  class CDLIFile(extVersionedFile,CatalogA
          except:
              pass
+         ob = self.addContentObject(id, vC, author, file, title, changeName=changeName, newName=newName, from_tmp=from_tmp,
+                                    precondition=precondition, content_type=content_type)
-         if changeName=="yes":
-             filename=file.filename
-             self.title=filename[max(filename.rfind('/'),
-                         filename.rfind('\\'),
-                         filename.rfind(':'),
-                         )+1:]
-         if not newName=='':
-             self.title=newName[0:]
-         positionVersionNum=getattr(self,'positionVersionNum','front')
-         if positionVersionNum=='front':
-             id="V%i"%self.getVersion()+"_"+self.title
-         else:
-             tmp=os.path.splitext(self.title)
-             if len(tmp)>1:
-                 id=tmp[0]+"_V%i"%self.getVersion()+tmp[1]
-             else:
-                 id=tmp[0]+"_V%i"%self.getVersion()
-         manage_addCDLIFileObject(self,id,vC,author,file,id,precondition, content_type,from_tmp=from_tmp)
-         #objs=self.ZopeFind(self,obj_ids=[id])[0][1].setVersionNumber(int(self.getVersion()))
-         objs=getattr(self,id).setVersionNumber(int(self.getVersion()))
          try:
            #FIXME: wozu ist das gut?
            self.REQUEST.SESSION['objID_parent']=self.getId()
- Line 1546  class CDLIFile(extVersionedFile,CatalogA
+ Line 1734  class CDLIFile(extVersionedFile,CatalogA
            pass
          if RESPONSE:
+             if ob.getSize()==0:
-             obj=self.ZopeFind(self,obj_ids=[id])[0][1]
+                 self.REQUEST.SESSION['objID']=ob.getId()
-             if obj.getSize()==0:
-                 self.REQUEST.SESSION['objID']=obj.getId()
                  pt=PageTemplateFile(os.path.join(package_home(globals()),'zpt','errorUploadFile')).__of__(self)
                  return pt()
              else:
                  if come_from and (come_from!=""):
                                          RESPONSE.redirect(come_from+"?change="+self.getId())
                  else:
                      RESPONSE.redirect(self.REQUEST['URL2']+'?uploaded=%s'%self.title)
          else:
-             return self.ZopeFind(self,obj_ids=[id])[0][1]
+             return ob
  def manage_addCDLIFileForm(self):
- Line 1575  def manage_addCDLIFile(self,id,title,loc
+ Line 1759  def manage_addCDLIFile(self,id,title,loc
      tryToggle=True
      tryCount=0
      self._setObject(id,newObj)
      getattr(self,id).reindex_object()
- Line 1613  def splitatf(fh,dir=None,ext=None):
+ Line 1795  def splitatf(fh,dir=None,ext=None):
      nf=None
      i=0
-     for lineTmp in fh.readlines():
+     if (type(fh) is StringType) or (type(fh) is UnicodeType):
+         iter=fh.split("\n")
+     else:
+         iter=fh.readlines()
+     for lineTmp in iter:
          lineTmp=lineTmp.replace(codecs.BOM_UTF8,'') # make sure that all BOM are removed..
          for line in lineTmp.split("\r"):
              #logging.log("Deal with: %s"%line)
- Line 1650  def splitatf(fh,dir=None,ext=None):
+ Line 1837  def splitatf(fh,dir=None,ext=None):
          nf.close()
      except:
          pass
+     if not((type(fh) is StringType) or (type(fh) is UnicodeType)):
      fh.close()
      return ret,len(os.listdir(dir))
- Line 1659  class CDLIFileFolder(extVersionedFileFol
+ Line 1848  class CDLIFileFolder(extVersionedFileFol
      security=ClassSecurityInfo()
      meta_type="CDLI Folder"
-     filesMetaType=['CDLI file']
+     file_meta_type=['CDLI file']
-     folderMetaType=['CDLI Folder']
+     folder_meta_type=['CDLI Folder']
-     default_catalog='CDLICatalog'
-     defaultFileCatalog=default_catalog #wenn dieses definiert ist, wird beim hinzuf�gen einer neuen version eines files dieser catalog neuiniziert
+     file_catalog='CDLICatalog'
      #downloadCounter=0 # counts how many download for all files currently run, be mehr als 5 wird verweigert.
      tmpStore2={}
      def setTemp(self,name,value):
          """set tmp"""
- Line 1672  class CDLIFileFolder(extVersionedFileFol
+ Line 1863  class CDLIFileFolder(extVersionedFileFol
      def delete(self,ids):
-         """delete this file, i.e. move into a trash folder"""
+         """delete these files"""
-         found=self.ZopeFind(self,obj_ids=['.trash'])
-         if len(found)<1:
-             manage_addCDLIFileFolder(self, '.trash',title="Trash")
-             trash=self._getOb('.trash')
-         else:
-             trash=found[0][1]
          if type(ids) is not ListType:
              ids=[ids]
-         cut=self.manage_cutObjects(ids)
-         trash.manage_pasteObjects(cut)
+         self.manage_delObjects(ids)
      def getVersionNumbersFromIds(self,ids):
          """get the numbers of the current versions of documents described by their ids"""
- Line 1696  class CDLIFileFolder(extVersionedFileFol
+ Line 1879  class CDLIFileFolder(extVersionedFileFol
          founds=self.CDLICatalog.search({'title':searchStr})
          for found in founds:
-             lastVersion=found.getObject().getLastVersion()
+             lastVersion=found.getObject().getContentObject()
              ret.append((found.getId,lastVersion))
          return ret
      def getFile(self,fn):
          """get the content of the file fn"""
-         founds=self.CDLICatalog.search({'title':fn})
+         logging.debug("getFile: %s"%repr(fn))
-         if not founds:
+         if not self.hasObject(fn):
-             return []
+             # search deeper
+             founds=getattr(self, self.file_catalog).search({'textid':fn})
+             if founds:
+                 obj=founds[0].getObject().getContentObject()
+             else:
+                 return ""
          else:
-             obj=founds[0].getObject().getLastVersion()
+             obj = self[fn].getContentObject()
              return obj.getData()[0:]
      def checkCatalog(self,fn):
          """check if fn is in the catalog"""
          #TODO add checkCatalog
      def findObjectsFromListWithVersion(self,list,author=None):
          """find objects from a list with versions
          @param list: list of tuples  (cdliFile,version)
          """
          #self.REQUEST.SESSION['fileIds']=list#store fieldIds in session for further usage
          #self.REQUEST.SESSION['searchList']=self.REQUEST.SESSION['fileIds']
          pt=getattr(self,'filelistVersioned.html')
          return pt(search=list,author=author)
- Line 1808  class CDLIFileFolder(extVersionedFileFol
+ Line 1992  class CDLIFileFolder(extVersionedFileFol
          def sortF(x,y):
              return cmp(x[0],y[0])
-         catalog=getattr(self,self.default_catalog)
+         catalog=getattr(self,self.file_catalog)
          #tf,tfilename=mkstemp()
          if not hasattr(self.temp_folder,'downloadCounter'):
              self.temp_folder.downloadCounter=0
- Line 1835  class CDLIFileFolder(extVersionedFileFol
+ Line 2019  class CDLIFileFolder(extVersionedFileFol
                  #os.write(tf,obj.getLastVersion().data)
                  if RESPONSE:
-                     RESPONSE.write(obj.getLastVersion().getData()[0:])
+                     RESPONSE.write(obj.getData()[0:])
                      RESPONSE.write("\n")
                  self.temp_folder.downloadCounter-=1
                  self._p_changed=1
- Line 1855  class CDLIFileFolder(extVersionedFileFol
+ Line 2039  class CDLIFileFolder(extVersionedFileFol
      def hasParent(self):
          """returns true falls subfolder"""
-         if self.aq_parent.meta_type in self.folderMetaType:
+         if self.aq_parent.meta_type in self.folder_meta_type:
              return True
          else:
              return False
- Line 1863  class CDLIFileFolder(extVersionedFileFol
+ Line 2047  class CDLIFileFolder(extVersionedFileFol
      def getFolders(self):
          """get all subfolders"""
          ret=[]
-         folders=self.ZopeFind(self,obj_metatypes=self.folderMetaType)
+         folders=self.ZopeFind(self,obj_metatypes=self.folder_meta_type)
          for folder in folders:
              ret.append((folder[1],
-                         len(self.ZopeFind(folder[1],obj_metatypes=self.folderMetaType)),
+                         len(self.ZopeFind(folder[1],obj_metatypes=self.folder_meta_type)),
-                         len(self.ZopeFind(folder[1],obj_metatypes=self.filesMetaType))
+                         len(self.ZopeFind(folder[1],obj_metatypes=self.file_meta_type))
                          ))
          return ret
-     security.declareProtected('View','index_html')
+     security.declareProtected('manage','index_html')
      def index_html(self):
          """main"""
          ext=self.ZopeFind(self,obj_ids=["index.html"])
- Line 1921  class CDLIRoot(Folder):
+ Line 2105  class CDLIRoot(Folder):
      meta_type="CDLIRoot"
      downloadCounterBaskets=0# counts the current basket downloads if counter > 10 no downloads are possible
-     def findWordRegExp(self,indexName,searchTerm):
+     file_catalog = 'CDLICatalog'
-         """find all words in index which match regexp in SearchTerm
-         @param indexName: name of the index to be searched in
-         @param searchTerm: word to be searched"""
-         ret=[]
+     # word splitter for search
-         for x in self.lineIndexes[indexName].iterkeys():
+     splitter = {'words':cdliSplitter.wordSplitter(),
-             if re.match(searchTerm,x):
+                 'graphemes':cdliSplitter.graphemeSplitter()}
-                 ret.append(x)
-         return ret
-     def searchRegExpInLineIndexDocs(self,indexName,searchTerm):
-         """search in inLineIndex with regexp
-         @param indexName: name of the index to be searched in
-         @param searchTerm: term to be searched
-         """
-         if not searchTerm:
-             return []
-         ret=[]
-         words=self.findWordRegExp(indexName,searchTerm) # suche nach allen Treffern
-         logging.info("wd:%s"%words)
-         for word in words:
-             ret+=self.searchInLineIndexDocs(indexName,word)
-         return unique(ret)
-     def showInLineIndex(self):
-         """get the index for debug purposes"""
-         print "show"
-         for key in self.lineIndexes.keys():
-             logging.info("index:%s"%key)
-             for x in self.lineIndexes[key].iterkeys():
-                 logging.info("word:%s"%repr(x))
-                 #for y in self.lineIndex[x].iterkeys():
-                 #    print "doc",repr(y),repr(self.lineIndex[x][y])
-         return self.lineIndexes
-     def searchInLineIndexDocs(self,indexName,word,uniq=True,regExp=False):
-         """search occurences in an index
-         @param indexName: name of the index to be searched in
-         @param word: word to be searched
-         @param unique: (optional) unify the list of results
-         @param regExp: (optional) use regular expressions
-         """
-         if regExp:
-             return self.searchRegExpInLineIndexDocs(indexName,word)
-         try:
-                 lst=list(self.lineIndexes[indexName].get(word).keys())
-         except:
-             logging.error("error: searchInLineIndexDocs (%s %s)"%(sys.exc_info()[0:2]))
-             lst=[]
-         if uniq:
-             return unique(lst)
-         else:
-             return lst
-     def getLinesFromIndex(self,indexName,word,doc,regExp=False):
+     def deleteFiles(self,ids):
-         """return all lines from a document where word is found
+         """delete files"""
-         @param indexName: Name of the index
+         for id in ids:
-         @param word: word to be searched
+             founds=self.CDLICatalog.search({'title':id.split(".")[0]})
-         @param doc: name of the document (usuallay the p-number)
+             if founds:
-         @param regExp: (optional) use regExp
+                 logging.debug("deleting %s"%founds)
-         """
+                 folder=founds[0].getObject().aq_parent #get the parent folder of the object
+                 logging.debug("deleting from %s"%folder)
-         if not regExp:
+                 cut=folder.delete([founds[0].getId]) #cut it out
-             return self.lineIndexes[indexName].get(word)[doc]
-         else: # wenn regexp, suche welches word
-             for w in self.findWordRegExp(indexName,word):
-                 if self.lineIndexes[indexName].get(w): # ein word in im dex gefunden
-                     try:
-                         dc=self.lineIndex[indexName].get(word)[doc]
-                         return dc # und ein document dann gib es zurueck
-                     except:
-                          pass #andernfalls weiter
-     def cleanInLineIndex(self,indexName):
-         """empty an InlineIndex
-         @param indexName: name of the index
-         """
-         for x in list(self.lineIndexes[indexName].keys()):
-             del(self.lineIndexes[indexName][x])
-         print [x for x in self.lineIndexes[indexName].keys()]
-         return "ok"
-     def storeInLineIndex(self,indexName,key,value):
-         """store in index, key is normally a word or grapheme
-         and value is a tuple (documentname, line) where the word can be found
-         @param indexName: name of the index
-         @param key: key in index
-         @param value: value in index, value is a tuple (document name, line)
-         """
-         logging.error("indexing: %s %s"%(indexName,key))
-         if (not hasattr(self,'lineIndexes')):
-             self.lineIndexes={}
-         if self.lineIndexes.get(indexName,None) is None:
-             #index exisitiert noch nicht dann anlegen
-             self.lineIndexes[indexName]=OOBTree()
-         lis=self.lineIndexes
-         li=lis[indexName]
-         if li.has_key(key):
- #            if li[key].has_key(value[0]) and (not (value[1] in li[key][value[0]])):
-             if li[key].has_key(value[0]):
-                 tmp=li[key][value[0]]
-                 tmp.append(value[1]) # add it if now in the array
-                 li[key][value[0]]=tmp[0:]
-             else:
-                 li[key][value[0]]=[value[1]] # new array for lines
-         else:
-             li[key]=OOBTree()# new btree for lines
+     def searchText(self, query, index='graphemes'):
-             li[key][value[0]]=[value[1]]
+         """searches query in the fulltext index and returns a list of file ids/P-numbers"""
+         # see also: http://www.plope.com/Books/2_7Edition/SearchingZCatalog.stx#2-13
+         logging.debug("searchtext for '%s' in index %s"%(query,index))
+         #import Products.ZCTextIndex.QueryParser
+         #qp = QueryParser.QueryParser()
+         #logging.debug()
+         idxQuery = {index:{'query':query}}
+         idx = getattr(self, self.file_catalog)
+         # do search
+         resultset = idx.search(query_request=idxQuery,sort_index='textid')
+         # put only the P-Number in the result
+         results = [res.getId[:7] for res in resultset]
+         logging.debug("searchtext: found %d texts"%len(results))
+         return results
+     def getFile(self, pnum):
+         """get the translit file with the given pnum"""
+         f = getattr(self, self.file_catalog).search({'textid':pnum})
+         if not f:
+             return ""
+         return f[0].getObject().getData()
-         self.lineIndexes=lis
-         transaction.get().commit()
+     def showFile(self,fileId,wholePage=False):
-     def showFile(self,fileId):
          """show a file
          @param fileId: P-Number of the document to be displayed
          """
-         f=self.CDLICatalog({'title':fileId})
+         f=getattr(self, self.file_catalog).search({'textid':fileId})
          if not f:
              return ""
+         if wholePage:
+             logging.debug("show whole page")
+             return f[0].getObject().getContentObject().view()
+         else:
          return f[0].getObject().getLastVersionFormattedData()
-     def showWordInFile(self,fileId,word,lineList=None,regExp=True,indexName=""):
+     def showWordInFile(self,fileId,word,indexName='graphemes',regExp=False,):
          """get lines with word  fromFileId"""
+         logging.debug("showwordinfile word='%s' index=%s file=%s"%(word,indexName,fileId))
-         file=self.showFile(fileId)
+         file = formatAtfFullLineNum(self.getFile(fileId))
          ret=[]
-         if regExp: # wenn regexp dann generiere alle worte aus der list die der regexp entsprechen
-             wordlist=self.findWordRegExp(indexName,word)
+         # add whitespace before and whitespace and line-end to splitter bounds expressions
-         else:
+         bounds = self.splitter[indexName].bounds
-             wordlist=[word]
+         splitexp = "(%s|\s)(%%s)(%s|\s|\Z)"%(bounds,bounds)
+         # clean word expression
+         # TODO: this should use QueryParser itself
+         word = word.replace('"','') # take out double quotes
+         # escape parens for regexp too
+         # compile into regexp objects
+         wordlist = [re.compile(splitexp%re.escape(w)) for w in word.split(' ')]
          for line in file.split("\n"):
-             found=False
              for word in wordlist:
-                 if line.find(word)>-1:
+                 #logging.debug("showwordinfile: searching for %s in %s"%(word.pattern,line))
-                         if lineList: #liste of moeglichen Zeilennummern
+                 if word.search(line):
-                                 num=line.split(".")[0] #Zeilenummer ist alles vor dem . in der Zeile
+                     line = formatAtfLineHtml(line)
-                                 if num in lineList:
-                                         ret.append(line)
-                         else: # nimm alles ohne line check
                                  ret.append(line)
+                     break
-                         break;
          return ret
-     def tagWordInFile(self,fileId,word,lineList=None,regExp=True,indexName=""):
-         """get lines with word  fromFileId"""
-         file=self.showFile(fileId)
+     def showWordInFiles(self,fileIds,word,indexName='graphemes',regExp=False):
-         tagStr="""<span class="found">%s</span>"""
+         """
+         get lines with word from all ids in list FileIds.
+         returns dict with id:lines pairs.
+         """
+         logging.debug("showwordinfiles word='%s' index=%s file=%s"%(word,indexName,fileIds))
+         return dict([(id,self.showWordInFile(id, word, indexName, regExp)) for id in fileIds])
+     def tagWordInFile(self,fileId,word,indexName='graphemes',regExp=False):
+         """get text with word highlighted from FileId"""
+         logging.debug("tagwordinfile word='%s' index=%s file=%s"%(word,indexName,fileId))
+         file=self.getFile(fileId)
+         tagStart=u'<span class="found">'
+         tagEnd=u'</span>'
+         tagStr=tagStart + u'%%s' + tagEnd
          ret=[]
-         if regExp: # wenn regexp dann generiere alle worte aus der list die der regexp entsprechen
+         # add whitespace to splitter bounds expressions and compile into regexp object
-             wordlist=self.findWordRegExp(indexName,word)
+         bounds = self.splitter[indexName].bounds
-         else:
+         wordsplit = re.compile("(%s|\s)"%bounds)
-             wordlist=[word]
+         # clean word expression
+         # TODO: this should use QueryParser itself
+         word = word.replace('"','') # take out double quotes
+         # split search terms by blanks
+         words = word.split(' ')
          for line in file.split("\n"):
-             found=False
+             line = unicodify(line)
-             for word in wordlist:
+             # ignore lemma lines
-                 if line.find(word)>-1: #word ist gefunden dann makiere und breche die Schleife ab
+             if line.lstrip().startswith('#lem:'):
-                         if lineList: #liste of moeglichen Zeilennummern
+                 continue
-                                 num=line.split(".")[0] #Zeilenummer ist alles vor dem . in der Zeile
+             # first scan
-                                 if num in lineList:
+             hitwords = []
+             for w in words:
+                 if line.find(w) > -1:
+                     # word is in line
+                     hitwords.append(w)
+             # examine hits closer
+             if hitwords:
+                 # split line into words
+                 parts = wordsplit.split(line)
+                 line = ""
+                 for p in parts:
+                     # reassemble line
+                     if p in hitwords:
+                         # this part was found
+                         line += tagStart + formatAtfHtml(p) + tagEnd
+                     else:
+                         line += formatAtfHtml(p)
-                                         ret.append(line.replace(word,tagStr%word))
+             else:
+                 # no hits
+                 line = formatAtfHtml(line)
-                         else: # nimm alles ohne line check
-                                 ret.append(line.replace(word,tagStr%word))
-                         found=True
-                         break
-             if not found: #word wurde nicht gefunden keine makierung
                          ret.append(line)
-         return "<br>\n".join(ret)
+         return u'<br>\n'.join(ret)
+     def tagWordInFiles(self,fileIds,word,indexName='graphemes',regExp=False):
+         """
+         get texts with highlighted word from all ids in list FileIds.
+         returns dict with id:text pairs.
+         """
+         logging.debug("tagwordinfiles word='%s' index=%s file=%s"%(word,indexName,fileIds))
+         return dict([(id,self.tagWordInFile(id, word, indexName, regExp)) for id in fileIds])
      def URLquote(self,str):
          """quote url"""
- Line 2210  class CDLIRoot(Folder):
+ Line 2358  class CDLIRoot(Folder):
          return ret
+     def uploadATFRPC(self,data,username):
+         """upload an atffile via xml-rpc"""
+         uploader=uploadATFThread()
+         #generate an random id for the upload object
+         from random import randint
+         if (not self.REQUEST.SESSION.get('idTmp',None)):
+             idTmp=str(randint(0,1000000000))
+             self.REQUEST.SESSION['idTmp']=idTmp
+         else:
+             idTmp=self.REQUEST.SESSION.get('idTmp',None)
+         uploader.set(data,0,username,idTmp)
+         stObj=uploader.run()
+         processor=uploadATFfinallyThread()
+         basketname=stObj.returnValue['basketNameFromFile']
+         processor.set("uploadchanged",basketname=basketname,SESSION=stObj.returnValue,username=username,serverport=self.REQUEST['SERVER_PORT'])
+         processor.run()
+         return generateXMLReturn(stObj.returnValue)
      def uploadATF(self,repeat=None,upload=None,basketId=0,RESPONSE=None):
          """upload an atf file / basket file"""

FreeBSD-CVSweb <freebsd-cvsweb@FreeBSD.org>

Removed from v.1.72
changed lines
	Added in v.1.80.2.10