1
Morriaty 2017-08-15 11:01:32 +08:00
总的思想是一样的,就是把 document 映射到向量空间,然后计算向量间的 cos。
难点就是怎么在特定的场景下训练合适的 doc 向量。 如果是粗粒度的聚类,tfidf+KMeans 就够了,或者直接 LDA。 但如果是细粒度的新闻去重,tfidf 就完全不够了,词序、同义词等等都是问题。 |
2
ipwx 2017-08-15 11:06:22 +08:00
训练一个 seq2seq 模型。通过 unsupervised 训练,用大量语料库让模型能通过低维语义向量来还原正文。然后把这个语义向量拿来做比较怎么样? cos 距离只是一种距离。如果你把这个语义向量随机变量化,比如做成多维独立高斯,也可以有 log p(z) 的做法。
以上评论是我乱想的,实际上我并没有做过这方面的工作。仅供参考。 |
3
onlyhot 2017-08-15 11:11:12 +08:00 via iPhone
我也不懂这些。我就有个疑问,春秋笔法怎么判断出来。
|
4
cnwtex 2017-08-15 11:12:54 +08:00
新闻的价值,在于受众,所以你看采用阅读量做投票的今日头条都推荐的什么新闻。当年 digg 和现在的 hacknews 以及 reddit 都采用的是话题分类,登陆用户点击投票的方式,还有类似的 producthunt 这种不是新闻的新闻站。
同一人群,众包方式,才能描述出来新闻对于他们的价值。 |