V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Pore
V2EX  ›  程序员

求微博历史数据

  •  
  •   Pore · 2017-12-21 14:16:35 +08:00 · 7062 次点击
    这是一个创建于 2524 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人小硕, 想用最近比较热的大数据呀语义分析写个论文混毕业。 略懂计算机皮毛, 自己扒微博历史数据这个对我来说操作性太强。 有没有程序员有相关数据可以提供? 或者可实施的解决方案可以提供?

    鄙人将感激不尽,可送出闲置 Nexus 6. 其他形式有偿也可以的。谢谢!

    28 条回复    2017-12-26 00:02:50 +08:00
    Pore
        1
    Pore  
    OP
       2017-12-21 14:23:37 +08:00
    刚才盘点了一下身边的东西,可送出以下产品。
    1. 闲置 Nexus 6
    2. 闲置 iPhone 5s (有锁,就当 iPod 玩儿吧)
    3. Office 365 半年以上有效期的分享( 2018/07/20 过期)
    zchlwj
        2
    zchlwj  
       2017-12-21 14:34:41 +08:00
    微博数据没有,但是有一份其他的数据,希望对楼主有帮助
    http://note.youdao.com/noteshare?id=2934610dc48391b0b5d09a0025474124&sub=756DBC0FAF1B4510B37E9BA4FF84C9E1
    p2pCoder
        3
    p2pCoder  
       2017-12-21 14:34:44 +08:00
    你这需求不够清楚
    fishdoubleearly
        4
    fishdoubleearly  
       2017-12-21 14:35:25 +08:00   ❤️ 1
    同求!可赠送北展演出门票一张~
    wibile
        5
    wibile  
       2017-12-21 14:43:42 +08:00
    具体要啥数据?哪方面的?
    Pore
        6
    Pore  
    OP
       2017-12-21 14:44:19 +08:00
    @p2pCoder 2014~2016 年的微博数据,包含用户名,时间,微博文就可以了。
    tisboy
        7
    tisboy  
       2017-12-21 14:44:38 +08:00 via iPhone
    具体微博什么数据?
    Pore
        8
    Pore  
    OP
       2017-12-21 14:45:28 +08:00
    @wibile 2014~2016 年的微博数据,包含用户名,时间,微博文就可以了。没有做过相关的东西,暂时想到这么多。
    Pore
        9
    Pore  
    OP
       2017-12-21 14:46:13 +08:00
    @fishdoubleearly 可以搞一个众筹咧,哈哈。
    Pore
        10
    Pore  
    OP
       2017-12-21 14:47:05 +08:00
    @tisboy 2014~2016 年的微博数据,包含用户名,时间,微博文就可以了。越全约好。
    linuxchild
        11
    linuxchild  
       2017-12-21 14:52:11 +08:00   ❤️ 1
    应该挺大的数据了。。一般人没有,可以尝试联系一下微博?
    wibile
        12
    wibile  
       2017-12-21 14:52:12 +08:00   ❤️ 1
    额,数据量太大,帮不了了。。。。估计得几百 T 不止吧。。。数据细化点,我还能帮忙爬一下。
    PythonKGB
        13
    PythonKGB  
       2017-12-21 14:54:15 +08:00
    你居然想要两年期间的微博用户的昵称 id 和所有的博文数据?

    首先你比公安局网信办还牛逼,

    其次你真没这么大的硬盘,

    最后你这硕士读的不光没学习,大数据的含义范畴都没搞懂

    白玩儿。
    Pore
        14
    Pore  
    OP
       2017-12-21 14:56:04 +08:00
    @PythonKGB 前两年确实看到有人这么做了,他还提供原始数据,主要是现在找不到那文章的链接了。
    BangBang
        15
    BangBang  
       2017-12-21 15:12:30 +08:00   ❤️ 1
    啊,我之前上铺毕业论文也是这个哇,不过他是写爬虫自己爬的哇,估摸着有 2kw 条够你做毕业设计的吧?

    结论:找个(自己写个)爬虫爬。
    Pore
        16
    Pore  
    OP
       2017-12-21 15:21:08 +08:00
    @BangBang 个人技术不是太行阿。听说现在微博封的比较紧,爬虫可行吗?
    golmic
        17
    golmic  
       2017-12-21 15:23:53 +08:00
    楼主可以先找其他人试试,实在不行了加我微信 lujqme 可以帮你爬,数据量看硬盘大小了。
    mamtou
        18
    mamtou  
       2017-12-21 15:35:26 +08:00   ❤️ 1
    awolfly9
        19
    awolfly9  
       2017-12-21 15:40:41 +08:00   ❤️ 1
    微博数据,没有。但是有汽车之家所有口碑的语料数据。
    TimePPT
        20
    TimePPT  
       2017-12-21 16:04:26 +08:00   ❤️ 2
    这数据除了微博自己有全量,其他公司或个人根本不可能有,要全爬取了早被告了。
    微博之前就告过多家商业公司。

    真想取到,正规途径就是以科研名义找微博合作,但一般个人科研项目估计没戏,之前微博跟几家高校有过合作,但数据也不是全量给,现在还有没有合作不清楚。

    非正规途径就是找爬过的公司和个人要或者买,商业公司有哪些有数据我不清楚。个人的话,亚二爬梁斌(微博 @梁斌 penny )那肯定有大量数据,但也不可能是全量,且人理不理你另说。


    话说回来,你真就仅仅是写论文,难道不应该是抽样数据研究就行了么,干嘛要全量。或者考虑换个方向数据也好找啊,比如新闻什么的
    Pore
        21
    Pore  
    OP
       2017-12-21 16:15:30 +08:00
    @TimePPT 您这说的确实在理,还是随机抽取数据量靠谱。不需要贪大贪全。我再好好考虑。
    delogn
        22
    delogn  
       2017-12-21 17:10:21 +08:00
    cucldk
        23
    cucldk  
       2017-12-21 18:02:31 +08:00
    我有,前几年爬的抽样数据,肯定不可能是全量,但绝对足够一般写论文用的了,甚至我自己都不知道怎么处理这么大量的数据了,目前只是存着放着,放着……
    lrigi
        24
    lrigi  
       2017-12-21 18:37:31 +08:00 via iPhone
    @TimePPT 实验室确实有微博的数据,微博给的,量不知道我没接触
    qq316107934
        25
    qq316107934  
       2017-12-21 18:53:49 +08:00 via Android   ❤️ 1
    @Pore 我只爬过某个城市 2014/2017 年 5 月份的数据,就已经几十 GB 了...
    Pore
        26
    Pore  
    OP
       2017-12-22 20:55:55 +08:00
    @cucldk 我可以跟你私聊吗
    cucldk
        27
    cucldk  
       2017-12-25 10:50:07 +08:00
    @Pore 留个联系方式吧 没找到怎么站内信……
    Pore
        28
    Pore  
    OP
       2017-12-26 00:02:50 +08:00
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3413 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 11:53 · PVG 19:53 · LAX 03:53 · JFK 06:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.