= Search-Service =
Der Searchservice hat solr als Backend:
== Für die externe Webseite ==
http://md.mpiwg-berlin.mpg.de:8983/solr/#/mpiwgSources
Zugriff auf interne Quellen, Videos und ähnliches wird durch das solrconfig.xml verhindert.
[[ticket:10 | Dafür existiert noch kein Cronjob]]
Cronjobs auf tuxserve03:
* /etc/cron.daily/harvestCollection1Solr
* /etc/cron.daily/harvestSourceSolr
* /etc/cron.daily/harvestToPurl
== Für die interne Webseite ==
über
https://md.mpiwg-berlin.mpg.de/browse/
wird durch
http://md.mpiwg-berlin.mpg.de:8983/solr/#/collection1
betrieben.
Enthält auch den Bibliothekskatalog.
[[ticket:10 | Dafür existiert noch kein Cronjob]]
[[ticket:11 | Benötigt wird auch Cronjob für den Import des Bibliothekskatalogs]]
Korrespondierend dazu existiert ein [[drupal-md-solr experimentelles Modul für DRUPAL 7]].
== Interne Webseite mit Volltexten ==
Volltext indizes werden über
http://md.mpiwg-berlin.mpg.de:8983/solr/#/fulltexts
zur Verfügung gestellt.
Diese werden zur Zeit nicht regelmäßig erneuert, da keine neuen OCR dazukommen.
[[ticket:12 | Eingebaut werden müssen aber noch die XML Texte in die allgemeine Suche.]]
== Experiments ==
Versuch mit Solr4
Config File (data-config.xml):
{{{
}}}
indexMeta_to_field.xsl konvertiert index.meta files in das doc-format zum Indizieren. Alle Einträge in bib werden dazu in Felder umgewandelt mit dem Prefix
"IM_". Ausserdem werden alle Felder noch in ein Feld "all-bib-data" gemappt.
{{{
IM_
}}}
In schema.xml:
{{{
archive-path
}}}
ExtendedXPathEntityProcessor ist eine fehlertolerantere Erweiterung von XPathEntityProcessor.
{{{
package de.mpiwg.itgroup.solr.transformer;
import java.util.Map;
import org.apache.solr.handler.dataimport.XPathEntityProcessor;
public class ExtendedXPathEntityProcessor extends XPathEntityProcessor {
public Map nextRow(){
Map r;
try {
r = super.nextRow();
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
r = null;
}
return r;
}
}
}}}