楼主自己以前是做 web 前后段的,现在对爬虫很感兴趣,看完了文档就直接上 urillib(1,2),scrapy,requests 等等的“框架”吧,然后基本的爬虫规则算是知道,但是发现现在的网站防爬虫厉害啊,比如现在就不懂怎么爬知乎了,另外还有其他的网站,而且验证码这关要怎么过`````````
我是小菜,勿喷````
1
knightdf 2015-11-20 21:04:55 +08:00
说实话,一个 scrapy 就够你研究了,验证码普通的直接识别,发邮箱的自动从邮箱里读取,复杂的类似 Google 那样的手动输入或者 GG 。知乎应该是要登录,控制好规则不难,别想一台机器一个账号搞定
|
2
knightdf 2015-11-20 21:07:05 +08:00
还有, urllib,requests 这不叫爬虫框架,只是个 http 库
|
3
binux 2015-11-20 21:23:18 +08:00
你做 web 前后端的,不知道怎么过防爬虫?
建议继续修炼 web 前后端的功力... |
12
bzzhou 2015-11-20 23:20:51 +08:00
RFC2616 好好读读~
|
14
julyclyde 2015-11-20 23:23:52 +08:00
urllib 、 requests 只能叫组件,还不能叫框架
框架得承担起程序运行的重任,让人来写其中细小的部分 |
16
julyclyde 2015-11-20 23:45:02 +08:00
爬虫这个其实不适合于兴趣吧
靠兴趣学习,是需要有成功给自己带来鼓励的 而写爬虫,并不是一个只要足够聪明努力就一定能成功的方向 |
17
greatghoul 2015-11-20 23:50:51 +08:00 via Android
抓取百度贴吧的数据吧
|
18
leavic 2015-11-20 23:50:55 +08:00
scrapy 很容易上手的,就 scrapy 而言,你不需要深入太多,如果想了解其原理,你得学 twisted 框架。
|
19
leavic 2015-11-20 23:52:29 +08:00
验证码这个,我有点惊讶楼主你真是做后端的? cookies 是干啥的?
|
21
qw7692336 2015-11-21 00:26:15 +08:00 via Android
我搞过验证码识别,简单的验证码都是有规律的。
只要是自己编写的验证码生成算法,都容易识别。 |
23
leavic 2015-11-21 00:38:17 +08:00
@aljun 确实有部分网站验证码登录后只靠 keep alive session 维持 session 内的验证,这种着实恶心,实在不行找个 ocr api 帮你识别好了。
|
24
zkwolf 2015-11-21 01:01:15 +08:00
验证码可以。。。下载下来自己输,能用 cookie 登录的用 cookie 登录好了
|
25
aisk 2015-11-21 01:11:50 +08:00
全站爬微博!这个好玩并且有价值
|
26
gouwudang 2015-11-21 11:04:14 +08:00
楼主对爬虫感兴趣的话,欢迎发一份简历过来 [email protected] ,可以实践各种奇葩的问题和解决办法。
|
27
wingyiu 2015-11-24 10:07:05 +08:00
|
28
souwiki 2018-08-15 21:28:48 +08:00
建议学习基础的 requests 比较好 然后再学习深入的模块
https://souwiki.com/532.html |