学校项目,老板说要能实时获取数据并且实时分析,做到突发事件预警,其实现有系统已经能做到日获取 600W 数据,但是实时数据量比较少,所以设定的计算分析会有一到两个小时之间的延迟。现在老师认定要做到实时爬取,但是目前新浪微博 API 很残废(比如不能获取指定用户的微博数据,不能获取微博转发内容。)
除了网页爬虫(试过很多次,除了换 IP 其他防反爬策略都试过,但是基本一天就会被封,要实现快速和大量数据的爬取,爬虫真不是有效办法),想请问下大家有什么好的办法?(我已经给老师解释过了, API 不能用,网页爬虫不能用在系统里面作为获取数据的有效途径,但是老师不听,让自己想办法)
1
am241 2016-05-03 15:35:00 +08:00 via Android
大量账号关注并等推送?
一个账号关注 2000 人, 100 个账号能关注 20w 人,不知道新浪的推送机制能不能这样用。 |
2
stcasshern OP @am241 曾经试过淘宝买账号(现在账号需要手机号才能注册,账号解封也需要手机短信验证), 60 个账号,现在也就一两个能用了,而且现在普通 API 已经不能获取指定用户微博数据了。</br>
谢谢回复! |
3
graetdk 2016-05-03 15:52:43 +08:00
要真搞出来会非常值钱的,你的老师可能是把你当免费劳动力了吧
|
4
XianZaiZhuCe 2016-05-03 16:05:18 +08:00 via iPhone
突发事件预警。感觉你们老师接了个不小的项目。不少钱。。
|
5
Kirscheis 2016-05-03 16:38:38 +08:00 via Android
微博反爬虫很厉害,不知道你们老师拿到多少经费。爬虫也有,但是实现方法不可能免费公布,这个很值钱,开发成本也不低。
某些舆情监控项目最好直接联系新浪公司合作。 |
6
stcasshern OP @graetdk 也觉得很难,现在数据都难以获得= =
|