第一篇: http://www.jianshu.com/p/11d7da95c3ca
这一系列文章不写复杂的爬虫,而是将复杂的爬虫涉及到的核心知识点写清楚
代理池(高匿)
多进程
正则表达式
数据库
selenuim
手机抓包
....
希望 V 友能提提建议,能投稿就更好了
写完了,Python-爬虫总结,欢迎指正
1
ansheng 2017-04-01 10:06:22 +08:00 5
要不看看[Python 全栈之路系列文章]( https://blog.ansheng.me/article/python-full-stack-way/)
|
2
prasanta 2017-04-01 10:15:52 +08:00 1
一定要多图哟!
|
5
ibegyourpardon 2017-04-01 10:32:53 +08:00 1
为啥选简书……
|
6
wisefree OP @ibegyourpardon 不然选啥呢?我用 markdown 来写文章, github 有时候打开太慢,虽然我有 SS ,不是所有读者都用代理吧
|
7
kutata 2017-04-01 10:41:35 +08:00 1
果断收藏!
|
8
kancloud 2017-04-01 10:44:44 +08:00 1
给你一些资源文档 http://www.kancloud.cn/special/python 技术文档首选写作平台 不是盖的~
|
11
whyishe 2017-04-01 11:03:08 +08:00 1
建议可以参考下崔庆才系列和路人甲系列,看看如何有些更深入浅出的表达和好玩的例子哈
|
12
co3site 2017-04-01 11:09:30 +08:00 via Android 1
基础做完可以做些有针对性的爬虫
根据不同的场景和框架,发现这方面做得人很少。 已加书签,持续关注中 |
14
paledream 2017-04-01 11:17:12 +08:00 1
支持
|
17
thereisnowinter 2017-04-01 11:21:14 +08:00 1
已收藏,希望能写简单一点,让我们这些小白能够看懂。
|
18
wisefree OP @thereisnowinter 好的,我尽量哈,我以后的文章会放一些参考资料,:)
|
19
BoBoy 2017-04-01 11:34:26 +08:00 via iPhone 1
666 ,正在学 python ,来的很及时,加油 LZ
|
22
ykwlv 2017-04-01 11:53:44 +08:00 via Android 1
想看代理池的部分,什么时候更新呢?
|
25
wisefree OP @ansheng 我一直学的就是 Python3 ,虽然看了一些视频教程( Python2 ),但是里面的代码我全部用 Python3 实现,:)
|
29
xiaoke0718 2017-04-01 13:07:06 +08:00 via Android 1
你都会了 py 技术?
|
31
wisefree OP @xiaoke0718 我爬取过高考吧 200 多万条记录,用里上面写大部分技术,爬网易云课堂评论的时候用过 selenium
http://www.jianshu.com/p/8893973b279c 虽然代码写的不漂亮,但是能干活。 |
32
xzpjerry731 2017-04-01 13:22:19 +08:00 1
能顺手同步到 github 上吗,感觉 github 看 md 文件挺好的
|
34
anexplore 2017-04-01 13:26:55 +08:00 1
爬虫已经成功了程序员必备技能了
|
35
wisefree OP @xzpjerry731 谢谢提建议,暂时不打算到 github 维护文章,因为要写毕业论文,:(
|
37
Or2 2017-04-01 14:37:14 +08:00 via Android 1
一定要来几个高级爬虫的例子!
|
38
wisefree OP @Or2 水到渠成的时候,可能会写的。如果把这些知识点写完,只要结合几个知识点,那么就可以写出高级爬虫的例子了,:)
|
39
cheese 2017-04-01 16:02:30 +08:00 1
思考题一有个错别字,网页写成了网易
|
40
wisefree OP @cheese 已经更正,文章第一行有更新信息,加了你的 V2EX 主页链接,如果可能对你造成影响,请告诉我,我立即清除
|
45
wisefree OP 刚看到一个 V 友也在写爬虫文章,选择的平台也是简书。(在 Python 这个节点靠前的位置)
他是从零入门的,而我这个不是从零入门的,基础知不会讲到。想想还,真是有缘,哈哈 |
46
fffflyfish 2017-04-01 19:50:29 +08:00 1
爬动态网站的方法不只有使用 webkit 这种傻瓜式的方法,还可以用抓包的方法
|
47
kingcos 2017-04-01 20:01:41 +08:00 1
可以啊!!!支持楼主!!!已关注!!!👍👍👍
|
48
wisefree OP @fffflyfish 有文章讲讲这方面的知识吗?
同时欢迎 V 友投稿 |
50
wellhome 2017-04-01 21:47:36 +08:00 via iPhone 1
|
52
mingyun 2017-04-01 23:19:07 +08:00 1
文末的头像很赞,基于 wordcloud 吗
|
54
yxisen 2017-04-02 01:20:50 +08:00 via Android 1
Mark 一下。
|
55
wellhome 2017-04-02 08:03:10 +08:00 via iPhone 1
@wisefree 比如你应该是放后跑爬虫程的吧?有没有遇到因为各种原因跑着跑着退出了? 然后有另外一个进程监控一下?
|
56
wisefree OP @wellhome 好问题!
爬取网页多的情况下,并不知道会出现什么样的异常,除非对网站十分熟悉。那么换一种思路,按绝大多数的正常网页来编写爬虫程序,其余的用 try except 处理。 最后对极少数的异常网页,做特殊处理。 这是我的思路,欢迎交流 (如果楼主愿意写些爬虫文章,欢迎投稿哈) |
57
onelove 2017-04-02 12:42:07 +08:00
太好了,正在学习爬虫。
|
58
AkiseAru 2017-04-02 14:03:03 +08:00 via iPhone 1
在学 py2.7 _(:3 」∠)_
|
59
wisefree OP @onelove 哈哈,赶紧写了第二篇, https://www.v2ex.com/t/352150
|
60
wisefree OP @AkiseAru 差不多的,有 Python 基础就可以看,刚刚发布了第二篇, https://www.v2ex.com/t/352150
|
61
Or2 2017-04-03 09:58:28 +08:00 via Android
大神,我有一个公司名列表,需要搜索对应的编号。然后根据编号再找另一编号,这种怎么写爬虫啊?
|
62
falcon05 2017-04-03 11:10:56 +08:00 via iPhone
支持,正在学习
|
65
Or2 2017-04-03 13:05:35 +08:00 via Android
@wisefree 哦,有一个公司列表[a,b ...] 要去网站 A 找到对应的编号 a 对应 111 , b 对应 222 ,等等,然后再根据编号 111 去网站 B 找到对应的 a 的数据,然后再找 b 的数据。
|
67
xiaoke0718 2017-04-03 16:45:44 +08:00
@wisefree 你有没有写学习经历故事?
|
68
wisefree OP @xiaoke0718 学习经历故事?这个还真没有。。。我是学石油专业的,想转行而学习 Python ,学习 Python 时间还较短。等我入门时间长了,可能会分享自己学习经历吧,:)
|
69
xiaoke0718 2017-04-03 21:38:27 +08:00
@wisefree 厉害 对了 你利用空闲时间做什么?
|
70
wisefree OP @xiaoke0718 学习运营知识,我想成为一名运营者,,,我真的不厉害,只不过喜欢挖坑。你也是学 Python ?
|
74
cpygui 2017-04-04 14:26:11 +08:00
好奇你 1 和 2 打算怎么写
|
75
wisefree OP @cpygui 这个看文章的反馈和大家的建议吧。只讲最实用的部分,同样不讲基础。比如进程和线程的区别,这个不会在文章中出现。
近期不会更新这两大部分,我要去找工作了,还有很多运营和机器学习的知识要学。。。 |
76
wisefree OP 文章的反馈比较少,我不会投入太多的时间去更新,坑会填完,但是不会太快。
好多新知识要学,近期还会再挖几个坑 |
77
sheer 2017-04-04 19:16:05 +08:00
正在学习><
|
78
xiaoke0718 2017-04-05 08:11:36 +08:00
|
79
wingyiu 2017-04-05 19:08:44 +08:00
|
81
creatorYC 2017-04-23 16:09:22 +08:00
我想问问为什么我写的爬虫运行一段时间就会报 requests.exceptions.ConnectionError: ('Connection aborted.', BadStatusLine("''",)),用的 python 和 requests 库,我没有使用多线程,在请求之前都添加了 time.sleep(0.5) ,按说不至于请求太频繁啊,请问这个问题该怎么解决啊!谢谢了
|