比如获取到一个代理后,通过 get 百度是 OK , 但通过该代理访问其它网站就是 500 ,
甚至是在同一个网站首页验证 OK , 但访问该网站其它页面就 500 错误了。
1 ,那么验证一个代理的好坏的比较好的方法是什么呢?
2 ,如何维护一个代理池(长久保留的, 坏的踢出去,好的拿进来,),有相关资源可以推荐下么?
先谢谢了。
(我验证代理的好坏的方法就是 , get 一个网站,如果能找到其中的内容,就认为是一个好代理。)
1
skywatcher 2015-12-15 13:01:27 +08:00
|
2
tkisme 2015-12-15 13:15:42 +08:00
mtr 掉包率
|
3
JhOOOn OP @skywatcher 打不开。。
|
4
zingl 2015-12-15 14:47:15 +08:00
proxyhunter 在很多年前就给出了示例
|
5
mee 2015-12-15 15:23:28 +08:00
我之前做爬虫的时候使用代理,也遇到了这个问题,用爬虫得到的大部分代理,统统将页面重定向到了百度,只有一小部分是可以直接用的,因此我就需要去验证哪一部分不可用将其剔除,我采用的方法是这样的.
1.使用代理取请求一个普通的网页(不要是百度这样的,最好具体的网页),判断得到的状态码是否 OK 2.判断请求得到的网页内容是否跟你通过浏览器得到的网页内容相同(可以通过判断里面的一些特殊字符串判断) |
6
wikinee 2015-12-15 17:37:30 +08:00
天下武功,唯快不破!
--火云邪神 |