开始在简书上写 Python 爬虫系列文章

这篇文章想不到点击了 4000 多次， 192 次收藏，谢谢大家关注。最近爬虫的更新会放缓，我要开始学习运营和机器学习相关知识了，还要开始找工作。
具体说明见： http://www.jianshu.com/p/07f0d5a44f64

（学习爬虫，只为了得到数据，我可不想玩转爬虫，我喜欢分析数据）

第 3 条附言 · 2017-04-06 13:58:20 +08:00

希望大家多多推荐机器学习和运营的资料，先谢啦，：）

第 4 条附言 · 2017-04-10 11:30:49 +08:00

更新了爬虫正则表达式一文
http://www.jianshu.com/p/b3bc88ffb251

第 5 条附言 · 2017-05-01 16:51:09 +08:00

selenium 简单使用，beautifulsoup 始终 beautiful： http://www.jianshu.com/p/677eaa462b47

为了这篇文章服务：简书在 Twitter、豆瓣、微博上的活动(持续更新)： http://www.jianshu.com/p/8794dd040397

第 6 条附言 · 2017-05-21 17:51:29 +08:00

由于简书不支持目录，latex 语法，今天用 github + hexo + next 主题建了一个网站，以后所有的技术文章都会在这个网站写作

网址：zhouww.com

当然访问 duohappy.github.io 也行的

第 7 条附言 · 2017-09-15 18:57:43 +08:00

写完了，Python-爬虫总结，欢迎指正

爬虫

高匿

提提

简书

82 条回复 • 2017-04-23 22:43:30 +08:00

ansheng

2017-04-01 10:06:22 +08:00

要不看看[Python 全栈之路系列文章]( https://blog.ansheng.me/article/python-full-stack-way/)

prasanta

2017-04-01 10:15:52 +08:00

一定要多图哟！

wisefree

2017-04-01 10:20:42 +08:00

@ansheng 谢谢！已经收藏到书签栏，这是基于 Python2 ？爬虫中我使用的数据库一般是 MongoDB

wisefree

2017-04-01 10:21:04 +08:00

@prasanta 放心吧，一般都是动态图，实用且有趣味

ibegyourpardon

2017-04-01 10:32:53 +08:00

为啥选简书……

wisefree

2017-04-01 10:37:28 +08:00

@ibegyourpardon 不然选啥呢？我用 markdown 来写文章， github 有时候打开太慢，虽然我有 SS ，不是所有读者都用代理吧

kutata

2017-04-01 10:41:35 +08:00

果断收藏！

kancloud

2017-04-01 10:44:44 +08:00

给你一些资源文档 http://www.kancloud.cn/special/python 技术文档首选写作平台不是盖的~

wisefree

2017-04-01 10:59:55 +08:00

@kutata 欢迎一起写呀，入坑 Python 爬虫系列

wisefree

2017-04-01 11:00:41 +08:00

@kancloud 谢谢推荐，在简书用的还行，暂时不算换了。欢迎投稿哈,:)

whyishe

2017-04-01 11:03:08 +08:00

建议可以参考下崔庆才系列和路人甲系列，看看如何有些更深入浅出的表达和好玩的例子哈

co3site

2017-04-01 11:09:30 +08:00 via Android

基础做完可以做些有针对性的爬虫
根据不同的场景和框架，发现这方面做得人很少。
已加书签，持续关注中

wisefree

2017-04-01 11:16:43 +08:00

@whyishe 谢谢建议哈，我去看看。我尽量做好，希望一起来玩哈，一个人更新的话会很慢，我最近也要忙着写毕业论文

paledream

2017-04-01 11:17:12 +08:00

支持

wisefree

2017-04-01 11:17:15 +08:00

@co3site 如果一起来写就好了，入坑 Python 爬虫系列，众人拾柴火焰高

wisefree

2017-04-01 11:19:08 +08:00

@paledream 谢谢支持，希望多提提意见，:)

thereisnowinter

2017-04-01 11:21:14 +08:00

已收藏，希望能写简单一点，让我们这些小白能够看懂。

wisefree

2017-04-01 11:32:55 +08:00

@thereisnowinter 好的，我尽量哈，我以后的文章会放一些参考资料，：）

BoBoy

2017-04-01 11:34:26 +08:00 via iPhone

666 ，正在学 python ，来的很及时，加油 LZ

polebug

2017-04-01 11:50:00 +08:00

@ansheng 太喜欢你的博客了！！赞！看着真舒服！

wisefree

2017-04-01 11:50:40 +08:00

@BoBoy 好的，一起来玩哈

ykwlv

2017-04-01 11:53:44 +08:00 via Android

想看代理池的部分，什么时候更新呢？

ansheng

2017-04-01 11:54:02 +08:00

@wisefree 拥抱 Python3

@polebug thx

wisefree

2017-04-01 11:59:18 +08:00

@ykwlv 这个更新的具体时间未定，代理池相关文章应该会放在正则之后

wisefree

2017-04-01 12:03:21 +08:00

@ansheng 我一直学的就是 Python3 ，虽然看了一些视频教程（ Python2 ），但是里面的代码我全部用 Python3 实现，：）

wisefree

2017-04-01 12:30:17 +08:00

@ansheng 对了，有兴趣写写 Python 爬虫的文章么？:)

zuosiruan

2017-04-01 12:31:44 +08:00 via Android

@ansheng 叼

ansheng

2017-04-01 13:04:42 +08:00

@wisefree 正在学- -。

xiaoke0718

2017-04-01 13:07:06 +08:00 via Android

你都会了 py 技术？

wisefree

2017-04-01 13:07:50 +08:00

@ansheng 正需要这些新鲜的知识，欢迎投稿，:)

wisefree

2017-04-01 13:10:06 +08:00

@xiaoke0718 我爬取过高考吧 200 多万条记录，用里上面写大部分技术，爬网易云课堂评论的时候用过 selenium
http://www.jianshu.com/p/8893973b279c
虽然代码写的不漂亮，但是能干活。

xzpjerry731

2017-04-01 13:22:19 +08:00

能顺手同步到 github 上吗，感觉 github 看 md 文件挺好的

liyuhang

2017-04-01 13:25:41 +08:00

@kancloud 3Q

anexplore

2017-04-01 13:26:55 +08:00

爬虫已经成功了程序员必备技能了

wisefree

2017-04-01 13:27:17 +08:00

@xzpjerry731 谢谢提建议，暂时不打算到 github 维护文章，因为要写毕业论文，：（

wisefree

2017-04-01 13:28:56 +08:00

@anexplore 也不一定，我寝室一个哥们转行 java ，让他写爬虫，死活不写，还是看个人兴趣。。:)

Or2

2017-04-01 14:37:14 +08:00 via Android

一定要来几个高级爬虫的例子！

wisefree

2017-04-01 14:56:58 +08:00

@Or2 水到渠成的时候，可能会写的。如果把这些知识点写完，只要结合几个知识点，那么就可以写出高级爬虫的例子了，：）

cheese

2017-04-01 16:02:30 +08:00

思考题一有个错别字，网页写成了网易

wisefree

2017-04-01 16:08:29 +08:00

@cheese 已经更正，文章第一行有更新信息，加了你的 V2EX 主页链接，如果可能对你造成影响，请告诉我，我立即清除

cheese

2017-04-01 16:15:03 +08:00

@wisefree

哈哈哈，没想到还有这个待遇，不过链接还是去了吧。毕竟我不是做技术的，保留我的用户名让我得瑟下

wisefree

2017-04-01 16:17:22 +08:00

@cheese 好的，已经 ok 了。多交流哈，欢迎投稿，哈哈

kancloud

2017-04-01 18:34:35 +08:00

@wisefree 如果你是多人团队写作的话看云肯定比简书方便都是 MD 啊另外看云支持付费阅读哦 ^_^

wisefree

2017-04-01 19:34:28 +08:00

@kancloud 好的，我会关注这个平台的，:)

wisefree

2017-04-01 19:40:35 +08:00

刚看到一个 V 友也在写爬虫文章，选择的平台也是简书。（在 Python 这个节点靠前的位置）

他是从零入门的，而我这个不是从零入门的，基础知不会讲到。想想还，真是有缘，哈哈

fffflyfish

2017-04-01 19:50:29 +08:00

爬动态网站的方法不只有使用 webkit 这种傻瓜式的方法，还可以用抓包的方法

kingcos

2017-04-01 20:01:41 +08:00

可以啊！！！支持楼主！！！已关注！！！👍👍👍

wisefree

2017-04-01 20:06:12 +08:00

@fffflyfish 有文章讲讲这方面的知识吗？
同时欢迎 V 友投稿

wisefree

2017-04-01 20:06:57 +08:00

@kingcos 谢谢，真的欢迎投稿，感觉自己挖了个大坑

wellhome

2017-04-01 21:47:36 +08:00 via iPhone

@wisefree 感谢分享，请教一下
如何确保程序连续运行？另外写一个监控进程?
另外是多线程釆集还是就一个进程？

wisefree

2017-04-01 22:48:02 +08:00

@wellhome 不用客气的，欢迎交流

保证程序连续运行，是什么情况？能描述一个具体的实例么？

我使用的是多进程

mingyun

2017-04-01 23:19:07 +08:00

文末的头像很赞，基于 wordcloud 吗

wisefree

2017-04-01 23:26:52 +08:00 via Android

@mingyun 果然也是老司机。确实是用 wordcloud 做的

yxisen

2017-04-02 01:20:50 +08:00 via Android

Mark 一下。

wellhome

2017-04-02 08:03:10 +08:00 via iPhone

@wisefree 比如你应该是放后跑爬虫程的吧？有没有遇到因为各种原因跑着跑着退出了? 然后有另外一个进程监控一下？

wisefree

2017-04-02 08:16:23 +08:00

@wellhome 好问题！
爬取网页多的情况下，并不知道会出现什么样的异常，除非对网站十分熟悉。那么换一种思路，按绝大多数的正常网页来编写爬虫程序，其余的用 try except 处理。

最后对极少数的异常网页，做特殊处理。

这是我的思路，欢迎交流

（如果楼主愿意写些爬虫文章，欢迎投稿哈）

onelove

2017-04-02 12:42:07 +08:00

太好了，正在学习爬虫。

AkiseAru

2017-04-02 14:03:03 +08:00 via iPhone

在学 py2.7 _(:3 」∠)_

wisefree

2017-04-02 15:06:01 +08:00

@onelove 哈哈，赶紧写了第二篇， https://www.v2ex.com/t/352150

wisefree

2017-04-02 15:06:33 +08:00

@AkiseAru 差不多的，有 Python 基础就可以看，刚刚发布了第二篇， https://www.v2ex.com/t/352150

Or2

2017-04-03 09:58:28 +08:00 via Android

大神，我有一个公司名列表，需要搜索对应的编号。然后根据编号再找另一编号，这种怎么写爬虫啊？

GG668v26Fd55CP5W

2017-04-03 11:10:56 +08:00 via iPhone

支持，正在学习

wisefree

2017-04-03 12:14:46 +08:00

@Or2 呃，不好意思，我没有理解你的问题，~_~

wisefree

2017-04-03 12:15:14 +08:00

@falcon05 嗯，欢迎投稿哈

Or2

2017-04-03 13:05:35 +08:00 via Android

@wisefree 哦，有一个公司列表[a,b ...] 要去网站 A 找到对应的编号 a 对应 111 ， b 对应 222 ，等等，然后再根据编号 111 去网站 B 找到对应的 a 的数据，然后再找 b 的数据。

wisefree

2017-04-03 14:48:30 +08:00

@Or2 这个过程挺清晰，你在写代码的过程中，遇到的具体问题是什么？

xiaoke0718

2017-04-03 16:45:44 +08:00

@wisefree 你有没有写学习经历故事？

wisefree

2017-04-03 17:42:08 +08:00

@xiaoke0718 学习经历故事？这个还真没有。。。我是学石油专业的，想转行而学习 Python ，学习 Python 时间还较短。等我入门时间长了，可能会分享自己学习经历吧，:)

xiaoke0718

2017-04-03 21:38:27 +08:00

@wisefree 厉害对了你利用空闲时间做什么？

wisefree

2017-04-03 22:11:39 +08:00

@xiaoke0718 学习运营知识，我想成为一名运营者，，，我真的不厉害，只不过喜欢挖坑。你也是学 Python ？

Or2

2017-04-03 23:12:21 +08:00 via Android

@wisefree 第一步 a 到 111 ：中间需要在网站 A 搜索一下，这步就不太会写。

wisefree

2017-04-04 10:10:58 +08:00

@Or2 你到网站 A 搜索一下，观察搜索的网址构造的具体形式，然后构造网址（以公司为变量）进行请求

Or2

2017-04-04 10:34:58 +08:00 via Android

@wisefree ，你一说我明白了。谢谢啦！

cpygui

2017-04-04 14:26:11 +08:00

好奇你 1 和 2 打算怎么写

wisefree

2017-04-04 15:00:23 +08:00

@cpygui 这个看文章的反馈和大家的建议吧。只讲最实用的部分，同样不讲基础。比如进程和线程的区别，这个不会在文章中出现。

近期不会更新这两大部分，我要去找工作了，还有很多运营和机器学习的知识要学。。。

wisefree

2017-04-04 15:01:30 +08:00

文章的反馈比较少，我不会投入太多的时间去更新，坑会填完，但是不会太快。

好多新知识要学，近期还会再挖几个坑

sheer

2017-04-04 19:16:05 +08:00

正在学习><

xiaoke0718

2017-04-05 08:11:36 +08:00

@wisefree 厉害对了你利用空闲时间做什么？
@wisefree 嗯是的

wingyiu

2017-04-05 19:08:44 +08:00

Python 技术分享的乱象 https://zhuanlan.zhihu.com/p/26149723
>>>>>>
现在知乎上 Python 相关内容有以下三大特点：

1. 绝大多数是写爬虫的。

wisefree

2017-04-05 19:40:53 +08:00

@wingyiu 哈哈，不评论这篇文章

creatorYC

2017-04-23 16:09:22 +08:00

我想问问为什么我写的爬虫运行一段时间就会报 requests.exceptions.ConnectionError: ('Connection aborted.', BadStatusLine("''",))，用的 python 和 requests 库，我没有使用多线程，在请求之前都添加了 time.sleep(0.5) ，按说不至于请求太频繁啊，请问这个问题该怎么解决啊！谢谢了

wisefree

2017-04-23 22:43:30 +08:00

@creatorYC 我没有遇到过这样的问题，不知道你 google 没有，你的问题在 stackoverflow 有几个问答，你尝试一下。

还有， time.sleep(0.5) 还真谈不上有多保险，这个不同的网站都不一样