如何判断新闻的价值以及重复新闻的判断

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 2747 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在做一个新闻聚合类网站，发现了个问题.假如说有两个新闻网站上都有同一条新闻，但内容和标题什么的都不是完全一样的，有一些偏差。没法用普通的比对.
那么我该怎么知道这两篇新闻是一样的和怎么从相同的新闻中挑出应该被抓取到聚合类网站的那个呢？

聚合类

新闻

网站

比对

4 条回复 • 2017-08-15 11:12:54 +08:00

Morriaty

2017-08-15 11:01:32 +08:00

总的思想是一样的，就是把 document 映射到向量空间，然后计算向量间的 cos。

难点就是怎么在特定的场景下训练合适的 doc 向量。

如果是粗粒度的聚类，tfidf+KMeans 就够了，或者直接 LDA。
但如果是细粒度的新闻去重，tfidf 就完全不够了，词序、同义词等等都是问题。

ipwx

2017-08-15 11:06:22 +08:00

训练一个 seq2seq 模型。通过 unsupervised 训练，用大量语料库让模型能通过低维语义向量来还原正文。然后把这个语义向量拿来做比较怎么样？ cos 距离只是一种距离。如果你把这个语义向量随机变量化，比如做成多维独立高斯，也可以有 log p(z) 的做法。

以上评论是我乱想的，实际上我并没有做过这方面的工作。仅供参考。

onlyhot

2017-08-15 11:11:12 +08:00 via iPhone

我也不懂这些。我就有个疑问，春秋笔法怎么判断出来。

cnwtex

2017-08-15 11:12:54 +08:00

新闻的价值，在于受众，所以你看采用阅读量做投票的今日头条都推荐的什么新闻。当年 digg 和现在的 hacknews 以及 reddit 都采用的是话题分类，登陆用户点击投票的方式，还有类似的 producthunt 这种不是新闻的新闻站。
同一人群，众包方式，才能描述出来新闻对于他们的价值。