我也在做这个,我现在具备给每一条新闻计算实时热度的能力。
我是计算新闻实时热度,全是自己算的,不需要微博热搜,百度指数等参考。
分词只是其中一小部分,词和词之间的权重是不一样的,比如坠机和公司,两个词的重量就不一样。
还有新闻相似度计算,这个才是重要的。同样的热点新闻,多的时间快两百家媒体报道。
我业余做这个已经做了一年多了,你可以看看我的产出
微博:《今日主流热点》
https://weibo.com/u/6926438705 (每小时定时发送本小时计算出来最热的新闻, 还有突发热点,实时误差 15 分钟)
公众号:《今日主流热点》(麻烦自己搜了)(每天总结当天最热的 25 条热点)
每条热点都能计算到有多少新闻源报道,每小时的热度趋势变化。
你可以先抓微博的,微博的比较短。新闻媒体的话抓几家有新闻采编权的主流媒体就行了,大部分都是抄来抄去的。