1
lemonada OP 写了 2 个多星期 硬是没写出来 各位老哥有啥思路吗
|
2
lemonada OP 期间看到了 LDA 算法 ,这个能解决目前的问题吗
|
3
rogwan 2019-10-31 20:35:53 +08:00 via iPhone
1 你这个肯定要给抓来的新闻源标权重,要不内容里重复出现关键词就会增加热度。比如人民日报出现一次的新闻,比八卦站出现 10 此的新闻,是热点的概率高。
2 你最好先让内容分类,分类算法很成熟啦,然后在小类里直接就按信息源权重,加个时间算法综合排序就好了。那些八卦新闻整的都是 n 年前的明星八卦都有,根本分析不出来是不是真热点。 |
4
futamilk 2019-11-01 02:41:44 +08:00
LDA 我认为应该是可以的,但是如果让我来做,我会先试试直接用 tf.idf 。一般来说从简单的搞起比较好,不然忙活了半天也不知道性能到底提没提高。
|
6
lake325 2019-11-01 10:29:33 +08:00
这个是我用结巴根据标题热度切出来的 8 月份到现在的微博热搜数据,效果不太理想
http://ownwiki.cn:8806/hotso/v1/hotword/weibo/json/100 感觉知乎的热搜更具有大众参考价值,后续考虑把知乎的 hot 数据做个年度汇总 |
9
newphper 2019-11-08 14:21:51 +08:00
我也在做这个,我现在具备给每一条新闻计算实时热度的能力。
我是计算新闻实时热度,全是自己算的,不需要微博热搜,百度指数等参考。 分词只是其中一小部分,词和词之间的权重是不一样的,比如坠机和公司,两个词的重量就不一样。 还有新闻相似度计算,这个才是重要的。同样的热点新闻,多的时间快两百家媒体报道。 我业余做这个已经做了一年多了,你可以看看我的产出 微博:《今日主流热点》 https://weibo.com/u/6926438705 (每小时定时发送本小时计算出来最热的新闻, 还有突发热点,实时误差 15 分钟) 公众号:《今日主流热点》(麻烦自己搜了)(每天总结当天最热的 25 条热点) 每条热点都能计算到有多少新闻源报道,每小时的热度趋势变化。 你可以先抓微博的,微博的比较短。新闻媒体的话抓几家有新闻采编权的主流媒体就行了,大部分都是抄来抄去的。 |