Mercurial > hg > nutch-mpiwg-plugins
view conf/mpiwg-parser.xml @ 0:3b37d71af924 default tip
iniitial
author | dwinter |
---|---|
date | Tue, 26 Feb 2013 15:50:30 +0100 |
parents | |
children |
line wrap: on
line source
<mpiwg-parser> <filter> <name>persons</name> <searchPattern><![CDATA[<span class=\"mpiwg-first_name\">(.*?)</span><span class=\"mpiwg-last_name\">(.*?)</span>]]></searchPattern> <!-- so viele namen wie oben im searchPattern gruppen angegeben sind--> <group-name>first_name</group-name> <group-name>last_name</group-name> <!-- string, der die Zeile im HTML identifizert, in der das pattern angewendet werden soll --> <line-identification>mpiwg-first_name</line-identification> </filter> <filter> <name>projects_title</name> <searchPattern><![CDATA[<h1 class=\"mpiwg-title\">(.*?)</h1>]]></searchPattern> <!-- so viele namen wie oben im searchPattern gruppen angegeben sind--> <group-name>project_title</group-name> <!-- string, der die Zeile im HTML identifizert, in der das pattern angewendet werden soll --> <line-identification>mpiwg-title</line-identification> </filter> <filter> <name>projects_author</name> <multiline>5</multiline> <searchPattern><![CDATA[<a class=\"mpiwg-author\"\s*href=\"(.*?)\">\s*(.*?)</a>]]></searchPattern> <!-- so viele namen wie oben im searchPattern gruppen angegeben sind--> <group-name>project_author_url</group-name> <group-name>project_author</group-name> <!-- string, der die Zeile im HTML identifizert, in der das pattern angewendet werden soll --> <line-identification>mpiwg-author</line-identification> </filter> </mpiwg-parser>