思路:因为豆瓣的 subject_id 是非连续的而且数量很大,穷举的话看上去不科学,但是豆瓣推荐系统做得还不错,适合用 CrawlSpider 来爬 流程: subject spider 爬取对应 subject_id -> meta spider 获取元数据和下载封面图片 -> comment spider 获取评论信息
从最初的 urllib + re 到 Requests + BeautifulSoup 再到 Scrapy ,豆瓣依然是最佳实验场地,代码是很久前写的我改了一下运行良好,人真的很奇怪,以前我总想知道别人服务器上面跑的代码到底长什么样,自己写了呢又老是让它吃灰,不如分享出来,希望能帮助一下初学或者想学 Scrapy 的同学了解一下数据匹配,校验,图片管道的使用
1
zhy0216 2016-09-12 08:40:09 +08:00
触发了 douban 的反爬虫机制会有什么措施么?
|
2
zhy0216 2016-09-12 08:44:20 +08:00
另外好像豆瓣读书 subject_id 是连续的吧??
|
3
prefere 2016-09-12 08:46:41 +08:00
豆瓣,我招谁惹谁了? dog
|
4
ooh OP @zhy0216 我没触发过,我遇到过的情况就是豆瓣好像有种认证机制,它发现是异常访问会 302 给你一个链接或者一个带有 js 跳转的页面, curl 访问一下对应链接就正常了, subject_id 并不连续,你修改大数位上面的数字就会发现
|
5
zhy0216 2016-09-12 09:29:12 +08:00
@ooh 好像是验证码 不过豆瓣的验证码应该好破; 不过正常来讲用代理池来做好些
然后可能是部分连续 https://book.douban.com/subject/1000001/ 这是第一本书 可能后面改机制了就不连续了 |
7
robinlovemaggie 2016-09-12 11:20:06 +08:00
已被滚屏滚晕中😵……
|
8
inmyfree 2016-09-12 13:53:39 +08:00
步骤目录写错了,
cd movie/book 应该是 cd book/book |