首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX 提问指南
广告
V2EX
›
问与答
如何才能写一个简单的代理抓取器?
xiaoyu9527
·
2015-11-03 13:34:35 +08:00
· 1258 次点击
这是一个创建于 3309 天前的主题,其中的信息可能已经有所发展或是发生改变。
想学习用 Python 写一个简单的代理抓取器
抓取几个页面的代理
测试延迟 高于 xxx 的抛弃
然后导出 TXT
代理
抓取器
取器
Python
2 条回复
•
2015-11-03 14:07:08 +08:00
1
wkdhf233
2015-11-03 13:52:14 +08:00
读 html ,正则匹配出代理信息,然后遍历 ping 一遍
ping 可以搞个线程池高并发
不过感觉网页上抓的代理,测延迟不如测连通性
2
ETiV
2015-11-03 14:07:08 +08:00
https://github.com/wenson/proxypool
早前 star 过的一个项目..不过我不会 python, 只是拿了他里面的页面地址而已..
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
2768 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 35ms ·
UTC 06:15
·
PVG 14:15
·
LAX 22:15
·
JFK 01:15
Developed with
CodeLauncher
♥ Do have faith in what you're doing.