Mercurial > hg > ZopePubmanConnector

# -*- coding: utf-8 -*-

#Verbindet Zope mit pubman.


from OFS.SimpleItem import SimpleItem
from Products.PageTemplates.PageTemplateFile import PageTemplateFile
import os.path

from Globals import package_home
import httplib2
import urlparse
import urllib
import re
import xml.etree.ElementTree as ET
import json
import logging

def zptFile(self, path, orphaned=False):
    """returns a page template file from the product"""
    if orphaned:
        # unusual case
        pt=PageTemplateFile(os.path.join(package_home(globals()), path))
    else:

            pt=PageTemplateFile(os.path.join(package_home(globals()), path)).__of__(self)
    return pt

class ZopePubmanConnector(SimpleItem):


    connectorString="http://pubman.mpiwg-berlin.mpg.de/search/SearchAndExport?"


    meta_type="ZopePubmanConnector"

    manage_options= ({'label':'Main Config','action': 'changeMain'},) + SimpleItem.manage_options

    def __init__(self,id,title,pubmanURL):
        self.id=id
        self.title=title
        self.pubmanURL=pubmanURL #URL einer pubman instance bzw. einer collection, falls nicht die default collection benutzt werden soll


    def changeMain(self,pubmanURL=None,title=None,REQUEST=None,RESPONSE=None):
        """change main settings"""
        if pubmanURL:
            self.pubmanURL=pubmanURL
            self.title=title

            if RESPONSE is not None:
                RESPONSE.redirect('manage_main')


        else:
            pt=zptFile(self, 'zpt/ChangeZopePubmanConnector.zpt')
            return pt()


    def getPublications(self,personID,limit=None,publicationType=None):
        """get all publications der personID"""
        h = httplib2.Http()


        if publicationType is None:
            cn = self.connectorString+"cqlQuery=escidoc.any-identifier=%22"+personID+"%22&"
        else:
            cn = self.connectorString+"cqlQuery=escidoc.any-identifier=%22"+personID+"%22"
            cn +="%20and%20escidoc.publication.type=%22"+publicationType+"%22&"

        cn +="exportFormat=APA&outputFormat=snippet&language=all&sortKeys=escidoc.any-dates&sortOrder=descending"
        if limit:
            cn+="&maximumRecords=%s"%limit

        logging.debug(cn)
        resp, content = h.request(cn)


        ET.register_namespace("dcterms", "http://purl.org/dc/terms/")

        root = ET.fromstring(content)

        #<escidocItem:item objid="escidoc:630782"

        citationxpath=".//{http://purl.org/dc/terms/}bibliographicCitation"

        objxpath=".//{http://www.escidoc.de/schemas/item/0.8}item"
        citations=root.findall(objxpath)

        ret=[]
        for citation in citations:
            objId = citation.get('objid')

            text = citation.find(citationxpath)

            ret.append((objId,text.text))


        return ret


    def search(self,values={},exact=False,limit=None,contexts=None):

        """search pubman
        @values map mit field->value
        @return map mit escidocId -> XML-formatted snippeds
        """

        fieldToEscidoc={"title":"escidoc.any-title",
                        "author":"escidoc.publication.any.publication-creator-names",
                        "any":"escidoc.any-metadata"}


        cn = self.connectorString+"cqlQuery=%s&"
        cn +="exportFormat=APA&outputFormat=snippet&language=all&sortKeys=escidoc.any-dates&sortOrder=descending"

        if limit:
            cn+="&maximumRecords=%s"%limit


        querys = []
        for field in values.keys():

            searchField = fieldToEscidoc.get(field,None)
            if searchField is None:
                logging.debug("search, don't know field: %s"%field)
                continue


            value = values[field]

            if value == '':
                continue
            logging.debug("%s=%s"%(field,value))
            if not exact:
                value=value+"*"


            querys.append("%s=%%22%s%%22"%(searchField,value))


        query="+AND+".join(querys)


        if contexts: # einscbraenken auf contexte

            if isinstance(contexts, str):
                contexts=[contexts]

            ctxquerys=[]
            for context in contexts:
                ctxquerys.append("escidoc.context.objid=%%22%s%%22"%(context))

            ctxquery="+OR+".join(ctxquerys)

            if query!="":
                query=query+"AND (%s)"%ctxquery
            else:
                query="(%s)"%ctxquery

        h = httplib2.Http()

        logging.debug(cn%query)
        resp, content = h.request(cn%query)

        ET.register_namespace("dcterms", "http://purl.org/dc/terms/")

        try:
            root = ET.fromstring(content)
        except:
            logging.error("Couldn't parse content of:%s"%(cn%query))
            return {}
        #<escidocItem:item objid="escidoc:630782"

        citationxpath=".//{http://purl.org/dc/terms/}bibliographicCitation"

        objxpath=".//{http://www.escidoc.de/schemas/item/0.8}item"
        citations=root.findall(objxpath)

        ret={}
        for citation in citations:
            objId = citation.get('objid')

            text = citation.find(citationxpath)

            ret[objId]=text.text


        return ret


    def getEntryFromPubman(self,escidocid):
        """get one entry"""

        escidocid=escidocid.lstrip().strip()
        h = httplib2.Http()
        cn = self.connectorString+"cqlQuery=escidoc.objid=%s&"
        cn +="exportFormat=APA&outputFormat=snippet&language=all&sortKeys=escidoc.any-dates&sortOrder=descending"

        resp, content = h.request(cn%escidocid)
        ET.register_namespace("dcterms", "http://purl.org/dc/terms/")
        logging.debug(cn%escidocid)

        root = ET.fromstring(content)


        citationxpath=".//{http://purl.org/dc/terms/}bibliographicCitation"

        citation=root.find(citationxpath)

        if citation is not None:

            return citation.text

        return ""

    def pubmanConnectorURL(self):
        return self.connectorString


    def getPreprintsFromContext(self,context,limit=None,publicationType=None):
        """get all publications des context"""
        h = httplib2.Http()


        if publicationType is None:
            cn = self.connectorString+"cqlQuery=escidoc.context.objid=%22"+context+"%22&"
            #cn = self.connectorString+"cqlQuery=escidoc.objid=%22"+"escidoc:643455"+"%22&"
        else:
            cn = self.connectorString+"cqlQuery=escidoc.context.objid=%22"+context+"%22"
            cn +="%20and%20escidoc.publication.type=%22"+publicationType+"%22&"

        cn +="exportFormat=APA&outputFormat=snippet&language=all&sortKeys=escidoc.any-dates&sortOrder=descending"
        if limit:
            cn+="&maximumRecords=%s"%limit

        logging.debug(cn)
        resp, content = h.request(cn)


        ET.register_namespace("dcterms", "http://purl.org/dc/terms/")

        root = ET.fromstring(content)

        #<escidocItem:item objid="escidoc:630782"

        citationxpath=".//{http://purl.org/dc/terms/}bibliographicCitation"
        abstractpath=".//{http://purl.org/dc/terms/}abstract"


        objxpath=".//{http://www.escidoc.de/schemas/item/0.8}item"
        srcpath=".//{http://escidoc.mpg.de/metadataprofile/schema/0.1/publication}source"
        volumepath=".//{http://escidoc.mpg.de/metadataprofile/schema/0.1/types}volume"

        #linkspath=""".//{http://www.escidoc.de/schemas/components/0.8}component/{http://www.escidoc.de/schemas/components/0.8}content[@storage="internal-managed"]"""
        linkspath=""".//{http://www.escidoc.de/schemas/components/0.8}component/{http://www.escidoc.de/schemas/components/0.8}content[@storage="external-url"]"""
        #linkspath=".//{http://www.escidoc.de/schemas/components/0.8}component/{http://www.escidoc.de/schemas/components/0.8}content"
        citations=root.findall(objxpath)

        ret=[]
        for citation in citations:
            objId = citation.get('objid')

            text = citation.find(citationxpath)

            #Get volume = preprintID
            #  <publication:source type="series">
            #      <dc:title>Max-Planck-Institut für Wissenschaftsgeschichte : Preprint</dc:title>
            #      <escidoc:volume>437</escidoc:volume>


            src= citation.find(srcpath)
            vol = src.find(volumepath)


            #get link to fulltext
            #<escidocComponents:component objid="escidoc:644183">
            #<escidocComponents:properties>
            #   <prop:creation-date>2013-04-29T09:00:01.100Z</prop:creation-date>
            #   <prop:valid-status>valid</prop:valid-status>
            #   <prop:visibility>public</prop:visibility>
            #   <prop:content-category>pre-print</prop:content-category>
            #   <prop:file-name>P437.PDF</prop:file-name>
            #   <prop:mime-type>application/pdf</prop:mime-type>
             #  <prop:checksum>d0ccdc62d6707d934e60e9839ffe30bf</prop:checksum>
            #   <prop:checksum-algorithm>MD5</prop:checksum-algorithm>
            #</escidocComponents:properties>
            #<escidocComponents:content xlink:type="simple" xlink:title="P437.PDF" storage="internal-managed"
            #   xlink:href="http://pubman.mpiwg-berlin.mpg.de/pubman/item/escidoc:643686:3/component/escidoc:644183/P437.PDF"/>
           #

            src= citation.find(linkspath)
            if src is not None:

                link=src.get("{http://www.w3.org/1999/xlink}href")
                #logging.debug(src.attrib)

            else:
                link =""


            #<dcterms:abstract xml:lang="deu">Dieser Preprint versammelt eine Auswahl von Beiträgen zum Symposium zu Ehren von Hans-Jörg Rheinbergers 65. Geburtstag. Es fand am 24.1.2011 im Max-Planck-Institute für Wissenschaftsgeschichte statt und brachte Freunde, Studenten und Kollegen von Hans-Jörg Rheinberger zusammen.</dcterms:abstract>
            #<dcterms:abstract xml:lang="eng">In this preprint, a selection of contributions to the symposium in honor of Hans-Jörg Rheinberger’s 65th birthday is published. It took place on January 24, 2011 at the Max-Planck-Institute for the History of Science and assembled friends, students and colleagues of Hans-Jörg Rheinberger.</dcterms:abstract>


            abstracts = citation.findall(abstractpath)

            abstractTexts={}
            for abstract in abstracts:

                lang = abstract.get("{http://www.w3.org/XML/1998/namespace}lang")
                abstractTexts[lang]=abstract.text


            #if abstractDE is not None:
            #    abstactDEtext = abstractDE.text
            #else:
           #     abstactDEtext = ""

           # abstractEN = citation.find(abstractENpath)
           # if abstractEN is not None:
           #     abstactENtext = abstractEN.text
           # else:
            #    abstactENtext = ""
          #

            ret.append((objId,text.text,vol.text,link,abstractTexts))


        def cmpret(x,y): #sort by preprint number
            try:
                return -cmp(int(x[2]),int(y[2]))
            except:
                return 0
            #return cmp(x[2],y[2])

        ret.sort(cmpret)
        return ret


def manage_addZopePubmanConnectorForm(self):
        """Form for external Links"""
        pt=zptFile(self, 'zpt/AddZopePubmanConnector.zpt')
        return pt()


def manage_addZopePubmanConnector(self,id,title,pubmanURL,RESPONSE=None):
    """Add an external Link"""

    newObj=ZopePubmanConnector(id,title,pubmanURL)

    self._setObject(id,newObj)


    if RESPONSE is not None:
        RESPONSE.redirect('manage_main')
author	dwinter
date	Tue, 30 Apr 2013 20:32:50 +0200
parents	f845502cf73a
children	49abb91d6c6a