V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
stcasshern
V2EX  ›  微博

微博数据爬取,老师说要实现实时抓取实时分析, API 残废情况下如何解决?

  •  
  •   stcasshern · 2016-05-03 14:54:40 +08:00 · 4964 次点击
    这是一个创建于 3111 天前的主题,其中的信息可能已经有所发展或是发生改变。

    学校项目,老板说要能实时获取数据并且实时分析,做到突发事件预警,其实现有系统已经能做到日获取 600W 数据,但是实时数据量比较少,所以设定的计算分析会有一到两个小时之间的延迟。现在老师认定要做到实时爬取,但是目前新浪微博 API 很残废(比如不能获取指定用户的微博数据,不能获取微博转发内容。)
    除了网页爬虫(试过很多次,除了换 IP 其他防反爬策略都试过,但是基本一天就会被封,要实现快速和大量数据的爬取,爬虫真不是有效办法),想请问下大家有什么好的办法?(我已经给老师解释过了, API 不能用,网页爬虫不能用在系统里面作为获取数据的有效途径,但是老师不听,让自己想办法)

    6 条回复    2016-05-03 16:40:13 +08:00
    am241
        1
    am241  
       2016-05-03 15:35:00 +08:00 via Android
    大量账号关注并等推送?
    一个账号关注 2000 人, 100 个账号能关注 20w 人,不知道新浪的推送机制能不能这样用。
    stcasshern
        2
    stcasshern  
    OP
       2016-05-03 15:45:10 +08:00
    @am241 曾经试过淘宝买账号(现在账号需要手机号才能注册,账号解封也需要手机短信验证), 60 个账号,现在也就一两个能用了,而且现在普通 API 已经不能获取指定用户微博数据了。</br>
    谢谢回复!
    graetdk
        3
    graetdk  
       2016-05-03 15:52:43 +08:00
    要真搞出来会非常值钱的,你的老师可能是把你当免费劳动力了吧
    XianZaiZhuCe
        4
    XianZaiZhuCe  
       2016-05-03 16:05:18 +08:00 via iPhone
    突发事件预警。感觉你们老师接了个不小的项目。不少钱。。
    Kirscheis
        5
    Kirscheis  
       2016-05-03 16:38:38 +08:00 via Android
    微博反爬虫很厉害,不知道你们老师拿到多少经费。爬虫也有,但是实现方法不可能免费公布,这个很值钱,开发成本也不低。
    某些舆情监控项目最好直接联系新浪公司合作。
    stcasshern
        6
    stcasshern  
    OP
       2016-05-03 16:40:13 +08:00
    @graetdk 也觉得很难,现在数据都难以获得= =
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1027 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 19:20 · PVG 03:20 · LAX 11:20 · JFK 14:20
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.