2017 年 4 月份开始写爬虫系列文章,不知不觉到了 9 月份,时间过的真快,写毕业论文,毕业了,找工作,然后辞职,然后接着奋斗
4 月份开始写,一直断断续续,今天给爬虫文章收一个尾。
文章放到了的个人网站上:www.zhouww.com
补充了如下内容
有些文章需要些基础,有些文章只讲讲心得。欢迎大家指正,欢迎投稿。
1
cxd44 2017-09-15 21:58:32 +08:00 via Android
谢谢,可以写一些对没啥基础的人的教程吗?
|
2
chrisliu1314 2017-09-15 22:18:17 +08:00 via Android 1
写的很系统。可以加一些爬虫框架,比如,pyspider
|
3
a87150 2017-09-15 22:36:22 +08:00
写爬虫的时候总觉得有点不好意思,感觉给别人添麻烦了
|
4
a1044634486 2017-09-15 22:40:37 +08:00
为啥你的站打开好慢,我的天。
|
5
ila 2017-09-15 22:43:03 +08:00 via Android
@chrisliu1314 能否讲讲他和 scrapy 的差异吗
|
6
chrisliu1314 2017-09-15 23:12:49 +08:00 via Android
@ila 没有过 scrapy。。。
|
7
chrisliu1314 2017-09-15 23:13:10 +08:00 via Android
@ila 没有用过
|
8
wisefree OP @chrisliu1314 一直没用过框架,有机会去接触下
|
9
wisefree OP @a1044634486 不会吧,国内 ip 我分流到了 coding 的 pages 上,国外的是 github 的 pages 上
|
12
26888 2017-09-15 23:43:09 +08:00 via Android
遇到中文网页不是用 utf8 编码(比如是 gb2312)这样的页面,存到数据库里(数据库是 utf8),一般怎么处理?什么时候转码啊?
|
13
a1044634486 2017-09-16 00:09:18 +08:00
<img src = "https://i.loli.net/2017/09/16/59bbfb19e2df1.png">
|
14
a1044634486 2017-09-16 00:10:54 +08:00 1
|
15
wisefree OP @26888 页面——》 Python ——》数据库,python 可以处理的。用 Python 把页面的内容解析出来,存入数据库。
|
16
taochunfan 2017-09-16 09:03:23 +08:00 1
老哥您的网站打不开啊!!
|
17
wisefree OP @a1044634486 好吧,感谢反馈。说实话,coding,有时候不稳定,我也会遇到,>_>
|
18
wisefree OP @taochunfan coding 的 pages 和 github 的 pages,应该没有问题啊,我刚刚又试了一遍。(虽然说 coding 有时候不稳定)
|
19
taochunfan 2017-09-16 09:08:49 +08:00 1
@wisefree 现在又可以了
|
20
wisefree OP @taochunfan 真心尴尬,具体原因我也不太清楚,抱歉哈
|
21
wisefree OP 博客使用的是 coding.net 和 github.com 的 pages 功能
工具:hexo + next 主题 域名是万网,做了一下 ip 分流,国内 ip 访问 coding,国外 ip 访问 github 至于打不开的话,我也找不到好的方法处理,建议多试几次,>_>。(抱拳) |
22
yuluofanchen 2017-09-16 10:35:38 +08:00 1
用代理打开了
|
23
wisefree OP @yuluofanchen 好尴尬哈,至今没有排查出问题。抱歉哈
|
24
shingle 2017-09-16 12:20:05 +08:00 1
你的网站厉害了, 走代理才能打开
|
26
yuluofanchen 2017-09-16 15:48:50 +08:00 1
现在不走代理也可以打开了!
|
27
scriptB0y 2017-09-17 01:50:01 +08:00 1
|