前情提要
发现很多网友对「小搭百科网」的关注度比较高,于是……
如何屏蔽 Google 搜索出来的一堆垃圾内容
简体中文互联网站都需要备案,基本部署在国内,现在移动端封闭,web 基本上都要跳转到 app 去查看全文,中文互联网围墙化,没有足够量的允许搜索引擎索引的新内容产出,导致搜索逐渐劣化
目前英文搜索也是这个趋势发展,因为英文用户体量大,再内容 app 围墙也还是有一部分产出
我彷佛看到了 Google 照这种趋势发展下去,其搜索部门可能会倒闭
大家觉得在这个 app 时代谷歌搜索业务会怎么发展下去呢?
1
nomedia 2021-10-11 19:30:37 +08:00 3
英文搜索没有这种问题。 只能怪中文互联网。 另外谷歌早就放弃了大陆市场。
|
2
tabris17 2021-10-11 19:34:31 +08:00
国外的 APP 基本上都提供 web 版的,还是能搜到挺多内容,估计是怕反垄断调查吧
|
3
bethebetter OP @nomedia 英文也有这种问题,只是没中文那么严重,你细心观察慢慢会发现也有不少复制粘贴的垃圾站
|
4
bethebetter OP @tabris17 运营方选择 app 方式还是网站方式访问应该不涉嫌反垄断吧,反垄断是多个竞争者之间的关系,这种开放访问只是让你用 app 而已,你用手机浏览器访问国外网站,很多也是让你下载 app,移动端体验极差
|
5
cvbnt 2021-10-11 19:46:27 +08:00 via Android
如果内容农场大规模泛滥,谷歌一定会重拳出击,不单单是广告费的问题
|
6
mxT52CRuqR6o5 2021-10-11 19:53:59 +08:00
youtube 也出短视频了啊,谷歌该山寨也会去山寨的,你想内容 app 围墙不被我 google 索引,我抄一个产品出来给自家搜索引擎索引就是了
|
7
sadfQED2 2021-10-11 19:56:36 +08:00 via Android
你看看百度就知道了,离倒闭不远了
|
9
eason1874 2021-10-11 20:06:56 +08:00 3
@cvbnt 谷歌 2011 的时候就说整治 content farm 了,然而效果不咋样,也就短词结果好些,长尾词和句子结果连英文内容都很多采集站。我有时候搜五六个英文单词的句子,整个列表都是采集 Stack Exchange 的垃圾站,标题不一样,内容一样
|
10
Microseft 2021-10-11 20:10:11 +08:00
但是抖音西瓜都出了 web 版
虽然应该有一些反爬虫的措施,但是只要大公司拉下脸,应该有足够的资源去爬,剩下的就是法务部之间的战斗了 |
12
Tompes 2021-10-11 22:53:27 +08:00
@mxT52CRuqR6o5 百度也是这样想的,而且也这样做了
|
13
HankLu 2021-10-11 23:03:43 +08:00
移动互联网时代是搜索引擎永远的痛
|
14
dingwen07 2021-10-11 23:07:10 +08:00
英文互联网还没有被移动互联网统治,只要有 PC,搜索引擎就是很常用的。而且国外的绝大多数平台都有网页版,并不会限制桌面网页(二维码登录这种不存在),也不知道为什么就国内老是喜欢从 PC 网页引流到 App 。
|
15
skiy 2021-10-11 23:14:27 +08:00
感觉字节跳动目前准备进攻搜索领域了。毕竟头条已经积累了很多内容了。“搜索” 永远不会消亡的。
|
16
xiri 2021-10-11 23:25:30 +08:00 1
@nomedia 英文搜索也有这个问题,你说没有可能只是因为你用的不够多,或者你搜的东西比较常见,那些垃圾站点刷不动这些关键词。
我已经遇到过好多次点开十多个标签页结果至少有一半的站点内容是一样的情况了,特别是那些偏专业领域的,本来网上相关的资料就少,一旦细化到某个冷门的技术细节,那些权重高的头部大站点无法提供足够多的相关内容,那么搜索结果就容易被垃圾采集站刷屏。 |
17
dji38838c 2021-10-11 23:28:01 +08:00 via Android
世界上不是除了中文就是英文
西班牙文,德文,法文都在用 Google 搜索 |
19
Nevermore1234 2021-10-11 23:46:11 +08:00
百度都没倒闭,谷歌怎么可能
|
21
exploreexe 2021-10-12 00:37:02 +08:00 1
英文站也是一个德行,没好到哪里去,很多这种垃圾站,如果你搜索一些软件,很多都是病毒站点,还搞什么通知权限,诱导下载流氓软件。
另外就是互联网内容围墙的出现,从移动互联网出现的时候就早就察觉出这个问题了,现在想要搜到什么内容,越来越难了。比如微信公众号里的内容百度谷歌都搜索不了,比如一些 APP 的内容也搜索不到。内容付费现在也越来越多,很多内容不花钱你是看不了了。 好怀念之前的那个互联网时代,还没有实名制,还有很多声音,论坛遍地开花,大家还没那么暴躁,不像现在这么一个个的激进的不行。 |
22
2i2Re2PLMaDnghL 2021-10-12 01:55:18 +08:00 1
@nomedia 说起来,楼上说了很多,我就给个实例
去用英文查询含义非常接近的单词甚至可互换的单词的含义对比。 比如 settings vs configuration 第一页一半是垃圾内容农场,单纯地把两个词的含义解释一遍。 而且这个内容农场效率还挺高,生成量关于采集量的测度是 O(N^2) 的,别的采集十份内容做十个页面,它采集十份内容做 100 个页面。 |
23
teruspot 2021-10-12 02:00:59 +08:00 via Android
@exploreexe 对头,实名制之前的互联网是最好玩的,现在各种厂商服务都是封闭的了,离互联网精神越来越远
|
24
ziseyinzi 2021-10-12 03:16:18 +08:00
互联网肯定是越来越封闭的,中文的快一点,英文的慢一点,到最后都会成为一个个孤岛。黄金时代不会回来了。
|
25
enzyme 2021-10-12 05:33:23 +08:00 via iPhone
简体中文的衰落。用繁体搜索就行了。
|
26
iPhone9 2021-10-12 05:42:09 +08:00
|
27
datocp 2021-10-12 05:45:12 +08:00 via Android
。。。早就倒闭了。
当年 2013 年?我们做培训关键字,那时候 google 还能用的,一整年就花了一万不到,百度可是 100 多万。现在 Google 根本就是在国内不存在,即便装了 Google 浏览器那也是网络不通。 |
28
jackmod 2021-10-12 08:32:32 +08:00
https://wayforward.archive.org
互联网已死:互联网变成传统媒体:回到花钱买内容的传统媒体时代 |
29
n1dragon 2021-10-12 08:55:10 +08:00
@2i2Re2PLMaDnghL 我还真查了一下,没觉得有什么内容农场。Google 的英文搜索质量目前来看还是相当高的。
![google_search.png]( https://i.loli.net/2021/10/12/Q4kfgXaVjeC1hLp.png) 1. 字面意思,wikidiff 2. 在 IT 领域的差异,来自 stackoverflow.com 3. 更深入的讨论,来自 Quora 4. 日常用法,来自 hinative.com 5. 探讨 configuration 和 customization 的区别,虽然有点偏题,但属于延伸阅读,来自一片博客 6. 运维领域的差异,来自 stackexchange.com 7. vscode 里面的意义 8. 在 Ubuntu 里面的差异 这 8 个结果,我没有看到任何内容农场,反而是多角度的理解这两个词语的差异,基本上看完这一页对这个问题就会有比较准确的理解。 |
30
2i2Re2PLMaDnghL 2021-10-12 10:41:22 +08:00
@n1dragon 你这个 1. 就是内容农场,wikidiff 充斥着简单地把两个单词的含义解释一遍,完全没谈到底有什么区别。
你仔细看一下这个网站上面的各种 diff,纯粹就是 a vs b,b vs c,a vs c 这样,combination[N,2] ,随便给 10 个词它能做出 45 个页面。 5. 也是内容农场,只不过不是爬虫内容农场,可能是阿三人工农场,内容比 GPT-3 还语无伦次。 其他实际上是用户画像相关,你已经被打上程序员的标签了。你试一下 Startpage (它是直接买的 Google 搜索结果)来消除用户画像,恰好一半是内容农场。 我想了想,认为英文内容农场少的,应该是英语不精,所以也不太容易撞上。 我的体验上来说,内容农场最少的可能是日文,但反过来也可能是我日文不精。 |
31
nomedia 2021-10-14 13:56:54 +08:00
@2i2Re2PLMaDnghL
下面哪些域名是垃圾农场的,我一般只看 Stack Overflow 的 所以没大关注? [![5QI9Ff.png]( https://z3.ax1x.com/2021/10/14/5QI9Ff.png)]( https://imgtu.com/i/5QI9Ff) |
32
2i2Re2PLMaDnghL 2021-10-14 18:47:51 +08:00
@nomedia 跟我 #30 说的差不多
wikidiff 是 O(n^2) 农场 techadv 那篇是不如 GPT-3 的胡言乱语车轱辘话,你看看作者,什么专业话题都插一脚,但这个域名似乎只是平台,比喻地解释下,就好比 juejin 和 zhihu 都是鱼龙混杂。 至于 hinative 是个百度知道一样的瞎问+瞎回答,回答的内容都和 Startpage 搜『配置 设置 区别』搜出来的第一个百度知道差不多,完全排除了二者的可互换性回答,算是经典思维盲区:问有什么区别的时候人们常常不会想到这两个词区别恐怕不大,但因为关注焦点,人们会夸大这个区别。 另外,这里涉及用户画像,你试试用买 Google 结果的第三方比如 Startpage,正好 5 个。 可互换的词对比是一个边界例,因为常见优化之近义词归化的问题,近义词对比一直是搜索引擎难点。 比如,你尝试用中文,无论百度 Google,搜索区别更是干脆只有一两条,剩下的甚至可能不会同时出现需要对比的这两个词。 |