= Search-Service = Der Searchservice hat solr als Backend: == Für die externe Webseite == http://md.mpiwg-berlin.mpg.de:8983/solr/#/mpiwgSources Zugriff auf interne Quellen, Videos und ähnliches wird durch das solrconfig.xml verhindert. [[ticket:10 | Dafür existiert noch kein Cronjob]] Cronjobs auf tuxserve03: * /etc/cron.daily/harvestCollection1Solr * /etc/cron.daily/harvestSourceSolr * /etc/cron.daily/harvestToPurl == Für die interne Webseite == über https://md.mpiwg-berlin.mpg.de/browse/ wird durch http://md.mpiwg-berlin.mpg.de:8983/solr/#/collection1 betrieben. Enthält auch den Bibliothekskatalog. [[ticket:10 | Dafür existiert noch kein Cronjob]] [[ticket:11 | Benötigt wird auch Cronjob für den Import des Bibliothekskatalogs]] Korrespondierend dazu existiert ein [[drupal-md-solr experimentelles Modul für DRUPAL 7]]. == Interne Webseite mit Volltexten == Volltext indizes werden über http://md.mpiwg-berlin.mpg.de:8983/solr/#/fulltexts zur Verfügung gestellt. Diese werden zur Zeit nicht regelmäßig erneuert, da keine neuen OCR dazukommen. [[ticket:12 | Eingebaut werden müssen aber noch die XML Texte in die allgemeine Suche.]] == Experiments == Versuch mit Solr4 Config File (data-config.xml): {{{ }}} indexMeta_to_field.xsl konvertiert index.meta files in das doc-format zum Indizieren. Alle Einträge in bib werden dazu in Felder umgewandelt mit dem Prefix "IM_". Ausserdem werden alle Felder noch in ein Feld "all-bib-data" gemappt. {{{

IM_

}}} In schema.xml: {{{ archive-path }}} ExtendedXPathEntityProcessor ist eine fehlertolerantere Erweiterung von XPathEntityProcessor. {{{ package de.mpiwg.itgroup.solr.transformer; import java.util.Map; import org.apache.solr.handler.dataimport.XPathEntityProcessor; public class ExtendedXPathEntityProcessor extends XPathEntityProcessor { public Map nextRow(){ Map r; try { r = super.nextRow(); } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); r = null; } return r; } } }}}