V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
这是一个专门讨论 idea 的地方。

每个人的时间,资源是有限的,有的时候你或许能够想到很多 idea,但是由于现实的限制,却并不是所有的 idea 都能够成为现实。

那这个时候,不妨可以把那些 idea 分享出来,启发别人。
soulmine
V2EX  ›  奇思妙想

想要做一个舆论分析 主要就是看看网络上对什么电视剧啊 电影啊 歌手啊 新番(?)的评价吐槽和最近动态什么的 V2 众有什么好点的想法么?

  •  
  •   soulmine · 2016-12-22 00:09:11 +08:00 · 2339 次点击
    这是一个创建于 2892 天前的主题,其中的信息可能已经有所发展或是发生改变。
    暂定是用爬虫去爬 然后按时间存数据库 用 TEXTRANK 来算关键词 最后根据关键词的多少排出高频词这么一套思路 =.= 有什么意见或者其他什么更好的办法么 想自己试试
    7 条回复    2016-12-25 23:59:47 +08:00
    em70
        1
    em70  
       2016-12-22 00:18:38 +08:00 via Android
    我想知道舆情习惯有 3 个渠道:
    1.微信搜索
    2.知乎搜索
    3.新闻下面的评论

    聚合的需求并不大
    em70
        2
    em70  
       2016-12-22 00:19:07 +08:00 via Android
    对不起,是微博搜索
    Kilerd
        3
    Kilerd  
       2016-12-22 00:30:25 +08:00 via iPhone
    机器学习 NLP
    shoumu
        4
    shoumu  
       2016-12-22 09:31:21 +08:00
    看一下 opinion mining, opinion extraction 之类的
    xvx
        5
    xvx  
       2016-12-22 10:39:29 +08:00 via iPhone
    好像百度、新浪这些内部都有内置的舆情监控体系吧,如果可以综合百度、新浪、 QQ 空间之类使用人数比较多的网站进行爬取分析效果应该不错。
    不过,爬虫能不能爬才是个问题。
    jingniao
        6
    jingniao  
       2016-12-24 21:47:10 +08:00 via Android
    政府部门的维.稳,不是业内人一般不怎么了解的。
    一定地区级别的热点词汇聚合通过技术手段还是可以过滤出来的,至于数据来源……
    另外说句题外话,据说西部的 ip 配备策略不像其他地区一样是个大局域网……
    changwei
        7
    changwei  
       2016-12-25 23:59:47 +08:00 via Android
    我自己平时写过一些爬虫,然后通过一些免费的分词 api 进行简单分析。其实这些技术都不是很难的。

    主要还是能不能爬到数据。

    我上次就是这样,辛辛苦苦写了一个爬虫,并且发现了他的 anti-spider 策略,然后写好了反反爬虫策略,没想到我爬了才两天,他们策略就改了,还把我号封了(登陆才能获取数据)。所以我觉得爬虫如何抓那么大规模数据才是真正的问题。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5678 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 29ms · UTC 02:35 · PVG 10:35 · LAX 18:35 · JFK 21:35
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.