第一篇: https://www.v2ex.com/t/351900
第二篇: http://www.jianshu.com/p/b3bc88ffb251 爬虫中的正则表达式( re )—前传
这篇文章只是一个开头,希望通过这篇文章收集大家的建议
我可以把推荐的资料放在文末的参考资料中或者直接写在正文中,当然会推荐者署名
大家对这篇文章的建议,应该怎么写比较好,欢迎大家提建议
欢迎投稿,;)
1
WildCat 2017-04-02 15:23:27 +08:00 1
期待代理池的文章!
|
3
Merlini 2017-04-02 15:51:26 +08:00 via Android
期待并发和代理池
|
4
zjhui 2017-04-02 16:00:32 +08:00 via iPhone
同期待代理池
|
5
jimmy66 2017-04-02 16:02:45 +08:00 via iPhone
期待代理池+1
|
9
dsg001 2017-04-02 19:54:34 +08:00
期待代理池+1
|
10
demonchang 2017-04-02 20:07:50 +08:00 via iPhone
代理池等待中
|
11
wisefree OP |
12
UnisandK 2017-04-02 22:47:20 +08:00
看大家期望这么高你要不先把代理池写了(逃
|
14
wisefree OP 代理池构建的思路是:
1. 正则匹配出代理 ip ,有些免费网页很规则,用 beautifulsoup 就行 2. 检查是否为高匿代理,为了加快检查速度,采取多进程 3. 加上高匿代理,进行爬虫 所以,正则是基础,多进程也很重要(多线程也行) 大家可以根据这些知识点,进行自学,如果学好了,欢迎投稿,:) 我的文章不会更新这么快,因为我想写点不一样的东西,符合我的行文特点,:) (当然主要是因为,我要写毕业论文....还有....找工作...) |
15
wisefree OP 补充一下,当然有要有刷新代理池中代理的代码,而且一般代理极易失效
|
16
prasanta 2017-04-04 13:29:13 +08:00
如何高效获取一手 ip 代理,而不是从别人网站上爬,题主有思路么
|
18
saxon 2017-04-04 15:11:41 +08:00 1
最好详细讲解一下 并发原理...
pycon2015 上讲的就不错 不然新人看了 还是一头雾水 |
19
wisefree OP |
20
yxisen 2017-04-06 22:37:02 +08:00 via Android
期待数据入库 0.0
|