大约已经有很多人做过这个事情了,然而这是我们的课程设计。
现在的问题是:
求经验啦!蟹蟹!
1
zhy0216 2016-03-29 22:49:24 +08:00 via iPhone
我看到有地方有卖这个数据
自己做可能要挂代理 找分享代理的网站 然后每隔一段时间换? |
2
undeflife 2016-03-29 22:52:46 +08:00
觉得这课程设计有问题,连目的就没有就先爬人家的数据?
|
3
maooyer 2016-03-29 23:00:37 +08:00
1. 一月份的抓过一次电影,通过遍历热门标签下的电影就抓了 15w
2. 没有必要枚举吧,可以从图书的标签,相关图书,相关豆列着手。应该能覆盖大部分图书。 3. 控制频率,添加代理,慢慢抓就好了 |
4
UnisandK 2016-03-29 23:08:01 +08:00
http://spys.ru/en/free-proxy-list/
或者用 tor 也行 |
5
cai72738 2016-03-30 21:02:27 +08:00
我大三,最近也在想课程设计的事,也打算爬豆瓣。突然觉得豆瓣好可怜。
|
6
gladuo OP 回复一句,我没仔细测,只是大概试了个数,但是豆瓣 api ,每工作一段时间随机休息 10-40s ,我这是不再被限制的,但是休息 5-10s ,还是会被限制,提供大家参考。
|