scrapy 为不同网站设置不同的代理

在公司项目中，有一些爬虫中需要用的国内代理，有一些需要用到国外代理，有一些不用代理

我测试了三个方案

方案一：
在settings.py中开启代理，然后在spider中重写DOWNLOADER_MIDDLEWARES，但重写无法生效

方案二：
让scrapy切换到不同的settings.py文件，这个手动切换是有效果的，但是我研究了半天不知道如果让程序自动切换，最后放弃

方案三：
在middlewares.py中直接写，通过request.url来判断并启用相应的代理

class ProxyMiddleware(object):
def process_request(self, request, spider):
url=request.url
if 'baidu.com' in url:
request.meta['proxy'] = '这里设置国内http代理'
elif 'facebook.com' in url:
request.meta['proxy']='这里设置国外http代理'
else:
pass
这个方案是可行的

大家有没有更好的解决办法？

代理

方案

Scrapy

2 条回复 • 2014-09-17 17:27:15 +08:00

qsl0913

2014-09-01 14:55:26 +08:00

推荐方案一的做法，debug一下，看看middleware执行了没有，为什么不生效。
这里提供一段做多proxy随机的middleware，修改为判断request.url 即可做到不同domain采用不同的proxy。

settings.py

`
DOWNLOADER_MIDDLEWARES = {

'dp.spiders.downloadermiddleware.ProxyMiddleware' : 400 ,

}

downloadermiddleware.py

`
class ProxyMiddleware(object):

def process_request(self, request, spider):
proxy = random.choice(self.proxy_list)
if proxy:
request.meta['proxy'] = proxy
log.msg('Current proxy: '+proxy, level='INFO')

proxy_list = settings.get('PROXY_LIST')
`

forever139

2014-09-17 17:27:15 +08:00

其实作者有提供的，
class SelectiveProxyMiddleware(object):
"""A middleware to enable http proxy to selected spiders only.

Settings:
HTTP_PROXY -- proxy uri. e.g.: http://user:[email protected]:port
PROXY_SPIDERS -- all requests from these spiders will be routed
through the proxy
"""

def __init__(self, settings):
self.proxy = self.parse_proxy(settings.get('HTTP_PROXY'), 'http')
self.proxy_spiders = set(settings.getlist('PROXY_SPIDERS', []))

@classmethod
def from_crawler(cls, crawler):
return cls(crawler.settings)

def parse_proxy(self, url, orig_type):
proxy_type, user, password, hostport = _parse_proxy(url)
proxy_url = urlunparse((proxy_type or orig_type, hostport, '', '', '', ''))

if user and password:
user_pass = '%s:%s' % (unquote(user), unquote(password))
creds = base64.b64encode(user_pass).strip()
else:
creds = None

return creds, proxy_url

def process_request(self, request, spider):
if spider.name in self.proxy_spiders:
creds, proxy = self.proxy
request.meta['proxy'] = proxy
if creds:
request.headers['Proxy-Authorization'] = 'Basic ' + creds

然后再在你的settings.py里配置：
HTTP_PROXY='your_proxy'
PROXY_SPIDERS=[your_spider_names]

不过整体和你的思路一样