现在的互联网,特别是中文互联网,复制粘贴情况太严重了,搜索一个什么东西,前几页的内容高度重复出自同一个博客,被发到各个平台,能不能把相似度很高的内容重叠起来,提高搜索效率。
或者是有什么插件能实现这个功能吗?
1
uselessVisitor 2021-04-20 10:05:48 +08:00 1
|
2
Yourshell 2021-04-20 10:30:06 +08:00 via Android
这是搜索引擎的本职工作吧
|
3
acr0ss 2021-04-20 10:42:39 +08:00
|
4
ebingtel 2021-04-20 13:59:29 +08:00
谷歌的搜索内容 基本上没啥重复的了吧 百度的倒是很多重复……simhash 算法?
|
5
wjgmytwq 2021-04-20 14:19:43 +08:00
网页去重不是那么好做的,一个网页,不是只包含核心内容那块文字的,google 做的是整体去重,就是整体很相似的。
而且我并不建议去重,为什么呢,因为就算核心内容一样,周边信息也有不一样的地方。 举个例子来说,我之前搜一个问题,搜到了微软的官方网站,就挂了一个标准答案,但是问题没解决。后来我找到一个答案很类似的技术网站,从下面的评论里找到了解决问题的办法。 |
6
czfy 2021-04-20 23:15:47 +08:00 via Android
内容去重的前提是内容识别
你说标题一模一样,那是最容易的 难就难在同一篇文章被洗稿成 n 篇,意思都是那些,但标题不同,正文可能还改了点,这种机器学习识别率 /分类效率还是不高 |