--- cdli/cdli_files.py	2007/03/19 18:34:01	1.67
+++ cdli/cdli_files.py	2007/03/22 19:56:22	1.72
@@ -425,11 +425,13 @@ class uploadATFThread(Thread):
             #if not than add filename to the list of newfiles
             
             data=file(os.path.join(dir,fn)).read()
-            #status,msg=checkFile(fn,data,dir)
-            status=True
-            msg=""
+            status,msg=checkFile(fn,data,dir)
+            #status=True
+            
+            
             if not status: # error
                 errors.append((fn,msg))
+            
             else:
                 if len(founds)==0:
                     newPs.append(fn)
@@ -453,7 +455,7 @@ class uploadATFThread(Thread):
         stObj.returnValue={}
         
         stObj.returnValue['errors']=errors
-       
+        
         stObj.returnValue['newPs']=newPs
         stObj.returnValue['tmpdir']=dir
         stObj.returnValue['basketLen']=basketLen
@@ -504,12 +506,19 @@ class CDLIBasketContainer(OrderedFolder)
         trash.manage_pasteObjects(cut)
         
     security.declareProtected('manage','manageBaskets')       
-    def manageBaskets(self,ids,submit,REQUEST=None,RESPONSE=None):
+    def manageBaskets(self,submit,ids=None,basket1="",basket2="",REQUEST=None,RESPONSE=None):
         """manage baskets, delete or copy"""
         if submit=="delete":
             self.deleteBaskets(ids)
         
-       
+        elif submit=="join":
+            flag,msg=self.joinBasket("joinedBasket", ids)
+            logging.info("joining %s %s"%(flag,msg))
+            
+        elif submit=="subtract":
+            logging.info("BBBb %s %s"%(basket1,basket2))
+            flag,msg=self.subtractBasket("subtractedBasket", basket1,basket2)
+            logging.info("subtract %s %s"%(flag,msg))
             
         if RESPONSE:
             RESPONSE.redirect(self.absolute_url())
@@ -632,9 +641,83 @@ class CDLIBasketContainer(OrderedFolder)
             baskets.sort(sortComment)
 
         return baskets
+    
+        
+    def subtractBasket(self,newBasket,basket1,basket2):
+        """subtract basket2 from basket1 
+        (i.e. newbasket will contain alle elements of basket1 which are not in basket2), 
+        if basket2 contains files which are not in basket1, then theses files fill be ignored
+               
+        @param newbasket: name of the new basket
+        @param basket1: basket where basket2 will be subtracted from
+        @param basket2: see above
+      
+        """
+        logging.info("CCCCC %s %s"%(basket1,basket2))
+   
+        try:
+            newB=self.addBasket(newBasket)
+        except:
+            return False, "cannot create the new basket"
+        
+        
 
-
-                       
+       
+     
+        bas2= getattr(self,basket2)            
+        bas2content=bas2.getContent()
+        bas2ids=[x[0] for x in bas2content]
+        
+       
+            
+        bas1= getattr(self,basket1)   
+        bas1content=bas1.getContent()
+        
+        
+        newBasketContent={}
+        
+        for id,version in bas1content:
+            if not (id in bas2ids):
+                newBasketContent[id]=version
+        
+        username=self.getActualUserName()
+        
+        logging.info("sbc %s"%newBasketContent)
+        newB.addObjectsWithVersion(newBasketContent,username=username,catalog=self.CDLICatalog)
+        
+        return True, ""
+    
+            
+    def joinBasket(self,newBasket,oldBaskets):
+        """join two baskets
+        @param newbasket: name of the new basket
+        @param oldbaskets: list of baskets to be joined
+        """
+        try:
+            newB=self.addBasket(newBasket)
+        except:
+            return False, "cannot create the new basket"
+        
+        newBasketContent={}
+        for ob in oldBaskets:
+            x= getattr(self,ob,None)
+            if x is None:
+                return False, "cannot find basket: %s"%ob
+            
+            ids=x.getContent() # hole den Inhalt
+            
+            for id,version in ids:
+                if newBasketContent.has_key(id): # p number gibt's schon
+                    newBasketContent[id]=max(newBasketContent[id],version) # speichere die groessere Versionsnumber
+                else:
+                    newBasketContent[id]=version
+        username=self.getActualUserName()
+        
+        logging.info("nbc %s"%newBasketContent)
+        newB.addObjectsWithVersion(newBasketContent,username=username,catalog=self.CDLICatalog)
+        
+        return True, ""
+    
     def getNewId(self):
         """createIds"""
         last=getattr(self,'last',0)
@@ -676,7 +759,7 @@ class CDLIBasketContainer(OrderedFolder)
         
         ob=manage_addCDLIBasket(self,newBasketName)
         return ob
-    
+
     def storeInBasket(self,submit,ids=None,newBasketName=None,fromFileList=None,RESPONSE=None,REQUEST=None):
         """store it"""
         if not ids:
@@ -778,7 +861,11 @@ class CDLIBasket(Folder,CatalogAware):
         self.shortDescription=shortDescription
         self.comment=comment
  
-   
+    def getActualUserName(self):
+        """get name of the actualuser"""
+       
+        return str(self.REQUEST['AUTHENTICATED_USER'])
+  
            
     def getLastVersion(self):
         """hole letzte version"""
@@ -842,6 +929,56 @@ class CDLIBasket(Folder,CatalogAware):
         
         return obj
     
+    def addObjectsWithVersion(self,ids,deleteOld=None,username=None,catalog=None):
+        """generate a new version of the basket with objects added, 
+        hier wird jedoch nicht die letzte Version jedes Files hinzugefuegt, s
+        ondern ids is ein Tupel mit der Id (d.h. der p-number) und der Versionsnummer.
+        """
+        logging.info("add to basket (%s)"%(self.getId()))
+        lastVersion=self.getLastVersion()
+        
+        if not catalog:
+            catalog=self.CDLICatalog
+            
+        if lastVersion is None:
+            oldContent=[]
+        else:
+            oldContent=lastVersion.content.getContent()
+
+        if deleteOld:
+            oldContent=[]
+
+        newContent=[]
+        added=0
+       
+        for id,version in ids.iteritems():
+            logging.info("adding %s %s"%(id,version))
+            id=id.split(".")[0] # title nur die pnumber ohne atf
+           
+            try:
+                founds=catalog.search({'title':id})
+            except:
+                founds=[]
+            logging.info(" found %s "%(founds))
+            for found in founds:
+                if found.getObject() not in oldContent:
+                 
+                    #TODO: was passiert wenn, man eine Object dazufŸgt, das schon da ist aber eine neuere version
+                    newContent.append((found.getObject().getVersions()[version-1][1],found.getObject()))
+                    added+=1
+
+        content=oldContent+newContent
+        if not username:
+            logging.error("XXXXXXXXXXX %s"%repr(self))
+            user=self.getActualUserName()
+        else:
+            user = username
+            
+        ob=manage_addCDLIBasketVersion(self,user,comment="",basketContent=content)
+        logging.info("add to basket (%s) done"%(self.getId()))
+        return added
+    
+    
     def addObjects(self,ids,deleteOld=None,username=None):
         """generate a new version of the basket with objects added"""
         logging.info("add to basket (%s)"%(self.getId()))
@@ -881,7 +1018,17 @@ class CDLIBasket(Folder,CatalogAware):
     
     
                 
-    
+    def getContent(self):
+        """print content"""
+        ret=[]
+        
+        lv=self.getLastVersion()
+        for obj in lv.content.getContent():
+            logging.info("XXXXXXXXXX %s"%repr(obj))
+            ret.append((obj[1].getId(),obj[0].versionNumber))
+            
+        return ret
+        
     def getContentIds(self):
         """print basket content"""
         ret=[]
@@ -968,6 +1115,21 @@ class CDLIBasketVersion(Implicit,Persist
                 return True
         return False
     
+    def downloadListOfPnumbers(self):
+        """download pnumbers of the basket as list"""
+        
+        basket_name=self.aq_parent.title
+        
+        ids=self.getContent() # get the list of objects
+        logging.error(ids)
+        ret="\n".join([x[1].getId().split(".")[0] for x in ids])
+        
+        self.REQUEST.RESPONSE.setHeader("Content-Disposition","""attachement; filename="%s.txt" """%basket_name)
+        self.REQUEST.RESPONSE.setHeader("Content-Type","application/octet-stream")
+        length=len(ret)
+        self.REQUEST.RESPONSE.setHeader("Content-Length",length)
+        self.REQUEST.RESPONSE.write(ret)    
+        
     security.declareProtected('View','downloadObjectsAsOneFile')
     def downloadObjectsAsOneFile(self,lock=None,procedure=None,REQUEST=None,check="yes",current="no"):
         """download all selected files in one file"""
@@ -1183,7 +1345,8 @@ class CDLIFileObject(CatalogAware,extVer
     def getFormattedData(self):
         """fromat text"""
         data=self.getData()
-        return re.sub("\s\#lem"," #lem",data) #remove return vor #lem
+#        return re.sub("\s\#lem"," #lem",data) #remove return vor #lem
+        return re.sub("#lem","       #lem",data) #remove return vor #lem
         
     def view(self):
         """view file"""
@@ -1420,7 +1583,14 @@ def manage_addCDLIFile(self,id,title,loc
     if RESPONSE is not None:
         RESPONSE.redirect('manage_main')
 
-
+def checkUTF8(data):
+    """check utf 8"""
+    try:
+        data.encode('utf-8')
+        return True
+    except:
+        return False
+    
 
 def checkFile(filename,data,folder):
     """check the files"""
@@ -1431,17 +1601,11 @@ def checkFile(filename,data,folder):
         return False,"P missing in the filename"
     elif len(fn[0])!=7:
         return False,"P number has not the right length 6"
+    elif not checkUTF8(data):
+        return False,"not utf-8"
     else:
-        fn=os.path.join(folder,filename)
-        stin,out=os.popen4("/usr/bin/atfcheck.plx %s"%fn)
-        value=out.read()
-        ret= out.close()
-
-        if value:
-     
-            return False,"atf checker error: %s"%value
-        else:
-            return True,""
+        return True,""
+    
     
 def splitatf(fh,dir=None,ext=None):
     """split it"""
@@ -1544,7 +1708,7 @@ class CDLIFileFolder(extVersionedFileFol
             return []
         else:
             obj=founds[0].getObject().getLastVersion()
-            logging.error(obj.getData())
+
             return obj.getData()[0:] 
     
     def checkCatalog(self,fn):
@@ -1672,6 +1836,7 @@ class CDLIFileFolder(extVersionedFileFol
                 #os.write(tf,obj.getLastVersion().data)
                 if RESPONSE:
                     RESPONSE.write(obj.getLastVersion().getData()[0:])
+                    RESPONSE.write("\n")
                 self.temp_folder.downloadCounter-=1 
                 self._p_changed=1
         transaction.get().commit()
@@ -1756,78 +1921,113 @@ class CDLIRoot(Folder):
     meta_type="CDLIRoot"
     downloadCounterBaskets=0# counts the current basket downloads if counter > 10 no downloads are possible
     
-    def findWordRegExp(self,searchTerm):
-        """find all words in index which match regexp in SearchTerm"""
+    def findWordRegExp(self,indexName,searchTerm):
+        """find all words in index which match regexp in SearchTerm
+        @param indexName: name of the index to be searched in
+        @param searchTerm: word to be searched"""
+        
         ret=[]
-        for x in self.lineIndex.iterkeys():
+        for x in self.lineIndexes[indexName].iterkeys():
             if re.match(searchTerm,x):
                 ret.append(x)
         return ret
     
-    def searchRegExpInLineIndexDocs(self,searchTerm):
-        """search in inLineIndex with regexp"""
+    def searchRegExpInLineIndexDocs(self,indexName,searchTerm):
+        """search in inLineIndex with regexp
+        @param indexName: name of the index to be searched in
+        @param searchTerm: term to be searched
+        """
         if not searchTerm:
             return []
         ret=[]
-        words=self.findWordRegExp(searchTerm) # suche nach allen Treffern
+        words=self.findWordRegExp(indexName,searchTerm) # suche nach allen Treffern
         logging.info("wd:%s"%words)
         for word in words:
-            ret+=self.searchInLineIndexDocs(word)
+            ret+=self.searchInLineIndexDocs(indexName,word)
         
         return unique(ret)
         
     def showInLineIndex(self):
         """get the index for debug purposes"""
         print "show"
-        for x in self.lineIndex.iterkeys():
-            logging.info("word:%s"%repr(x))
-            #for y in self.lineIndex[x].iterkeys():
-            #    print "doc",repr(y),repr(self.lineIndex[x][y])
-                
-        return self.lineIndex
+        for key in self.lineIndexes.keys():
+            logging.info("index:%s"%key)
+            for x in self.lineIndexes[key].iterkeys():
+                logging.info("word:%s"%repr(x))
+                #for y in self.lineIndex[x].iterkeys():
+                #    print "doc",repr(y),repr(self.lineIndex[x][y])
+                    
+        return self.lineIndexes
         
-    def searchInLineIndexDocs(self,word,uniq=True,regExp=False):
-        """search occurences"""
+    def searchInLineIndexDocs(self,indexName,word,uniq=True,regExp=False):
+        """search occurences in an index
+        @param indexName: name of the index to be searched in
+        @param word: word to be searched
+        @param unique: (optional) unify the list of results
+        @param regExp: (optional) use regular expressions
+        """
 
         if regExp:
-            return self.searchRegExpInLineIndexDocs(word)
+            return self.searchRegExpInLineIndexDocs(indexName,word)
         
         try:    
-                lst=list(self.lineIndex.get(word).keys())
+                
+                lst=list(self.lineIndexes[indexName].get(word).keys())
         except:
+            logging.error("error: searchInLineIndexDocs (%s %s)"%(sys.exc_info()[0:2]))
             lst=[]
         if uniq:
             return unique(lst)
         else:
             return lst
         
-    def getLinesFromIndex(self,word,doc,regExp=False):
-        """get lines"""
+    def getLinesFromIndex(self,indexName,word,doc,regExp=False):
+        """return all lines from a document where word is found
+        @param indexName: Name of the index
+        @param word: word to be searched
+        @param doc: name of the document (usuallay the p-number)
+        @param regExp: (optional) use regExp       
+        """
+        
         if not regExp:
-            return self.lineIndex.get(word)[doc]
+            return self.lineIndexes[indexName].get(word)[doc]
         else: # wenn regexp, suche welches word
-            for w in self.findWordRegExp(word):
-                if self.lineIndex.get(w): # ein word in im dex gefunden
+            for w in self.findWordRegExp(indexName,word):
+                if self.lineIndexes[indexName].get(w): # ein word in im dex gefunden
                     try:    
-                        dc=self.lineIndex.get(word)[doc]
+                        dc=self.lineIndex[indexName].get(word)[doc]
                         return dc # und ein document dann gib es zurueck
                     except:
                          pass #andernfalls weiter
                      
-    def cleanInLineIndex(self):
-        """delete InlineIndex"""
-        for x in list(self.lineIndex.keys()):
-            del(self.lineIndex[x])
-        print [x for x in self.lineIndex.keys()]
+    def cleanInLineIndex(self,indexName):
+        """empty an InlineIndex
+        @param indexName: name of the index
+        """
+        for x in list(self.lineIndexes[indexName].keys()):
+            del(self.lineIndexes[indexName][x])
+        print [x for x in self.lineIndexes[indexName].keys()]
      
         return "ok"
     
-    def storeInLineIndex(self,key,value):
-        """store in index"""
-     
-        if (not hasattr(self,'lineIndex')) or (type(self.lineIndex) is DictType):
-            self.lineIndex=OOBTree()
-        li=self.lineIndex
+    def storeInLineIndex(self,indexName,key,value):
+        """store in index, key is normally a word or grapheme 
+        and value is a tuple (documentname, line) where the word can be found
+        @param indexName: name of the index
+        @param key: key in index
+        @param value: value in index, value is a tuple (document name, line)
+        """
+        logging.error("indexing: %s %s"%(indexName,key))
+        if (not hasattr(self,'lineIndexes')):
+      
+            self.lineIndexes={}
+            
+        if self.lineIndexes.get(indexName,None) is None:
+            #index exisitiert noch nicht dann anlegen
+            
+            self.lineIndexes[indexName]=OOBTree()
+        lis=self.lineIndexes
+        li=lis[indexName]
         
         if li.has_key(key):
 
@@ -1845,51 +2045,36 @@ class CDLIRoot(Folder):
             li[key][value[0]]=[value[1]] 
                     
         
-        self.lineIndex=li
+        self.lineIndexes=lis
      
         transaction.get().commit()
         
 
     def showFile(self,fileId):
-        """show a file"""
+        """show a file
+        @param fileId: P-Number of the document to be displayed
+        """
         f=self.CDLICatalog({'title':fileId})
         if not f:
             return ""
         
         return f[0].getObject().getLastVersionFormattedData()
     
-    def showLineFromFile(self,fileId,lineNum,word):
-        """get line lineNum fromFileId"""
-        
-        file=self.showFile(fileId)
-        #str="^%s\.[^%s\.]*%s[^\n]*\n"%(lineNum,lineNum,word)
-        #str="^%s\..*?%s[^\n]*\n"%(lineNum,word)
-        
-        #print str
-        #m=re.search(str,file,flags=re.M|re.DOTALL)
-        #if m:
-        #    return m.group()
-        #else:
-        #       return ""
-        #ret=lineNum+"."
-        #splitted=file.split(lineNum+".")
-        #if len(splitted)>1:
-                #for part in splitted[1:]:
-                        #if part.find(word)>-1:
-                         # for x in part.split("\n"):
-                                #ret+=x
-                                #if x.find(word)>-1:
-                                        #break
-                          #break;
-        #return ret
 
-    def showWordInFile(self,fileId,word,lineList=None):
+    def showWordInFile(self,fileId,word,lineList=None,regExp=True,indexName=""):
         """get lines with word  fromFileId"""
         
         file=self.showFile(fileId)
 
         ret=[]
+        if regExp: # wenn regexp dann generiere alle worte aus der list die der regexp entsprechen
+            wordlist=self.findWordRegExp(indexName,word)
+        else:
+            wordlist=[word]
+        
         for line in file.split("\n"):
+            found=False
+            for word in wordlist:
                 if line.find(word)>-1:
                         if lineList: #liste of moeglichen Zeilennummern
                                 num=line.split(".")[0] #Zeilenummer ist alles vor dem . in der Zeile
@@ -1899,26 +2084,40 @@ class CDLIRoot(Folder):
                                         ret.append(line)
                         else: # nimm alles ohne line check
                                 ret.append(line)
+                        
+                        break;
         return ret
 
-    def tagWordInFile(self,fileId,word,lineList=None):
+    def tagWordInFile(self,fileId,word,lineList=None,regExp=True,indexName=""):
         """get lines with word  fromFileId"""
         
         file=self.showFile(fileId)
         tagStr="""<span class="found">%s</span>"""
         ret=[]
+        
+        if regExp: # wenn regexp dann generiere alle worte aus der list die der regexp entsprechen
+            wordlist=self.findWordRegExp(indexName,word)
+        else:
+            wordlist=[word]
+            
         for line in file.split("\n"):
-                if line.find(word)>-1:
+            found=False
+            for word in wordlist:
+                if line.find(word)>-1: #word ist gefunden dann makiere und breche die Schleife ab
                         if lineList: #liste of moeglichen Zeilennummern
                                 num=line.split(".")[0] #Zeilenummer ist alles vor dem . in der Zeile
 
                                 if num in lineList: 
 
                                         ret.append(line.replace(word,tagStr%word))
+                        
                         else: # nimm alles ohne line check
                                 ret.append(line.replace(word,tagStr%word))
-                else:
+                        found=True
+                        break
+            if not found: #word wurde nicht gefunden keine makierung
                         ret.append(line)
+                        
         return "<br>\n".join(ret)
 
     def URLquote(self,str):
@@ -1948,19 +2147,8 @@ class CDLIRoot(Folder):
                ret.append((f[0],un))
 
         return ret
-                       
-    def forceDahl(self):
-        "break all locks"
-        ret=[]
-        for f in self.ZopeFind(self,obj_metatypes="CDLI file",search_sub=1):
-           if str(f[1].lockedBy)=="dahl":
-                   un=f[1].forceunlock()
-
-                   if un and un !="":
-                      ret.append((f[0],un))
+                                        
 
-        return ret                       
-    
     def getChangesByAuthor(self,author,n=100):
         """getChangesByAuthor"""
         zcat=self.CDLIObjectsCatalog
@@ -2024,8 +2212,10 @@ class CDLIRoot(Folder):
                                            
     
     def uploadATF(self,repeat=None,upload=None,basketId=0,RESPONSE=None):
-        """standard ausgabe"""
+        """upload an atf file / basket file"""
         #self._v_uploadATF.returnValue=None
+        
+        #generate an random id for the upload thread
         from random import randint
         if (not self.REQUEST.SESSION.get('idTmp',None)):
 
@@ -2034,8 +2224,10 @@ class CDLIRoot(Folder):
         else:
             idTmp=self.REQUEST.SESSION.get('idTmp',None)
             
+    
         threadName=repeat
         if not threadName or threadName=="":
+            #new thread not called from the waiting page
             tmpVar=False
        
             thread=uploadATFThread()
@@ -2083,26 +2275,8 @@ class CDLIRoot(Folder):
                 return pt(txt='/uploadATF',threadName=threadName)
                 
             else:
-#                tmp={}
-#                for key in self._v_uploadATF[threadName].returnValue.keys():
-#                        t=self._v_uploadATF[threadName].returnValue[key]
-#                        if type(t) is ListType:
-#                                       tmp[key]=self._v_uploadATF[threadName].returnValue[key][0:]
-#                        else:
-#                                       tmp[key]=self._v_uploadATF[threadName].returnValue[key]
-#                         repr(tmp[key]),repr(key)
-#                                       
-#                #
-                #tmp=self.cdli_main.tmpStore2[threadName]
-                
                 tmp=getattr(self.temp_folder,idTmp).returnValue
-                
-                
-                
-               
-                #del(self.cdli_main.tmpStore2[threadName])
-
-               
+ 
                 pt=PageTemplateFile(os.path.join(package_home(globals()),'zpt','uploadCheck.zpt')).__of__(self)
 
                 return pt(changed=tmp['changed'],lockerrors=tmp['lockerrors'],errors=tmp['errors'],dir=tmp['dir'],newPs=tmp['newPs'],basketLen=tmp['basketLen'],numberOfFiles=tmp['numberOfFiles'],