PyCrawler: ready_queue.py comparison

initial

comparison

equal deleted inserted replaced

--1:000000000000
+:57e2aa489383
+import re, urlparse
+linkregex = re.compile('<a\s(?:.*?\s)*?href=[\'"](.*?)[\'"].*?>')
+def ready_queue(address, html):
+	url = urlparse.urlparse(str(address))
+	links = linkregex.findall(html)
+	queue = []
+	for link in links:
+		if link.startswith("/"):
+			queue.append('http://'+url[1]+link)
+		elif link.startswith("http") or link.startswith("https"):
+			#DW: only MPIWG
+			if link.startswith("http://www.mpiwg-berlin.mpg.de"):
+					queue.append(link)
+		elif link.startswith("#"):
+			continue
+		else:
+			queue.append(urlparse.urljoin(url.geturl(),link))
+	return queue

Mercurial > hg > PyCrawler