感觉中文搜索环境太差了,搜索出正确的结果太难了。
排在前面的永远都是 csdn 、博客园、简书、百度知道、百家号、
要么是转来转去的文章,要么是自己瞎 jer 写的笔记,要么就是得先关注、先注册、先登录才能看。
这还只是搜索的技术性文章
如果是搜索社会科普、新闻、医院、疾病....,感觉像是掉进了粪坑
1
ruanimal 2020-11-20 14:59:27 +08:00 3
google 搜中文也不太准了
|
2
xingshu1990 2020-11-20 14:59:58 +08:00
多数情况下,关键词组合搜索,
比如:python 美国 死亡人数 python 美国 感染速度 基本上这样组合起来的搜索,能过滤掉大部分内容。 另外还有 百度搜索不到的话 去 bing |
3
imn1 2020-11-20 15:02:58 +08:00
没事,小龙正在优化(劣化)微信搜索引擎,很快(猴年马月)就能微信搜到全部你想看的内容了
🐶 |
4
tommyZZM 2020-11-20 15:04:55 +08:00 21
我认为这个是中文,语言文字本身的缺陷
陈述形态组合太多,一意多表,一义多词 |
5
est 2020-11-20 15:05:21 +08:00 2
稍微有点价值的内容都去微信群 公众号 变现去了。
|
6
ETiV 2020-11-20 15:06:46 +08:00 via iPhone 1
所以英语扎实太重要了
|
7
wangkun025 2020-11-20 15:08:58 +08:00
@tommyZZM 敢说真话不容易。
|
9
tommyZZM 2020-11-20 15:12:37 +08:00 1
根据我的实际体验
英文能很轻易通过几个近义词配合简单的动宾关键词,找到很多相关的问题解决方法 但中文做不到,往往查到的资料少很多, 个人感觉就是中文对事物表述特别丰富,经常会发现并不是内容不存在,而是关键词很不准确。例如问问题的时候问问题的人对同一个现象有很多种不同的表述。句子构词差异很大。 这可能跟目前的搜索引擎技术有关,还可能跟资料的丰富程度有关。 至少目前,在同等场景下,使用中文和英文进行检索得到期望结果比起来差距还比较大。 |
11
LucasLee92 2020-11-20 15:13:14 +08:00 1
不,本质上是没有一个权威的技术论坛,国外能看的也就 stackoverflow
|
12
zh584728 OP |
13
zh584728 OP @LucasLee92 是的,没有权威的论坛,以前看好知乎 , 现在事实证明我看错了......
|
14
cmdOptionKana 2020-11-20 15:14:57 +08:00
很久没用中文搜索技术资料了,能看懂英文就去搜英文吧。如果看不懂英文,人家翻译了英文资料想赚钱、让你注册啥的,也没什么不妥,毕竟翻译也要时间精力。(中文技术资料里有很大量是从英文翻译过来的)
|
15
xingshu1990 2020-11-20 15:15:15 +08:00
@zh584728 关键词组合式搜索,不要随便,完整的,打一长串句子,去找内容。
|
16
peaceblast 2020-11-20 15:16:16 +08:00 2
這些轉來轉去的文章大概率出處還是英文源,只是翻譯成中文了🤣
|
17
zh584728 OP @tommyZZM # 4 , 这个也有一方面的原因,但是 csdn 、简述纯粹是在污染环境,还有百家号,内容太差了
|
18
nevermlnd 2020-11-20 15:17:02 +08:00 18
@tommyZZM 对于英文和中文表述的具体区别,不了解。但目测你网龄不是很长,以前中文搜索环境不是这样的,感觉与技术关系不大,是因为越来越商业化,很多有价值的东西转到私域了。
|
19
zh584728 OP @cmdOptionKana #14 嗯嗯 目前英文水平不够,只能开着翻译插件 😂
|
20
wvidc 2020-11-20 15:24:22 +08:00
搜索结果点开后,勉强看起来像是答案的中文内容,还是转载的国外英文,然后机器翻译成中文。
索性直接搜索英文看英文原文。 |
21
cherryas 2020-11-20 15:25:47 +08:00
百度搜不到的话一般 bing 更搜不到
|
22
tommyZZM 2020-11-20 15:28:01 +08:00 3
有一种潜在的可能是,即使将这个问题换成其他非英文语言得出的结论可能是一样的。
例如: 现在用俄文搜索出正确的答案太难了, 现在用土耳其语搜索出正确的答案太难了, 现在用法文搜索出正确的答案太难了 ... 但这并不一定说是英语本身具有某种语言优势,可能只是其先发地位,例如信息技术最早发达起来的国家主体语言是英语,造成了网络上英语的内容比较多,反过来又造成了查问题的时候用英语查询得出的结果更准确。 |
23
tommyZZM 2020-11-20 15:30:55 +08:00 1
@nevermlnd 我的网龄长不长不知道,但我确实不是中国第一批用互联网的人,80 年代那时候我还很小,我是 90 年代才接触互联网的。
事实上商业化这个因素,在全球范围内都是一样的,其他语言环境也有同样的现象。 我的实际体验所描述的情况,仅仅局限于一般查询问题,例如技术问题、一般自然科学类的问题。 |
25
JackyCDK 2020-11-20 15:38:48 +08:00 3
还有一堆内容农场恶心人吧
|
26
CismonX 2020-11-20 15:44:30 +08:00 7
和语言关系不大,和用户使用搜索引擎的姿势关系很大
用搜索引擎,要提取出重要的关键字,而不是像提问人类时使用完整的句子 比如,之前看到一个同学在 Google 上搜索:"How to change a single file based on git diff",然后找了半天没找到想要的结果 然后我提醒他,搜索 "git patch",第一条搜索结果就完美解决了他的需求 虽然 Google 的搜索引擎变得越来越智能,现在更容易通过一个句子理解用户的意图了,但是中文支持还不够好,所以会给人带来中文搜索质量差的感觉 |
27
ixx 2020-11-20 15:45:15 +08:00
上些网站可以手动屏蔽掉不在结果中显示 会好一点点 剩下的看运气
|
28
tommyZZM 2020-11-20 15:47:17 +08:00 2
很多人不明白这个表述差异是什么情况,举一个简单例子吧
例如一个查问题的人不知道“linux 创建用户的命令行”是什么(这只是我的表述) 他可能会去查询以下其中一个或者是一部分关键词 - linux 新建账号 - linux 创建账号 - linux 新建用户 - linux 创建用户 - linux 新增用户 - linux 新增账号 ... 注意上述表述,只是这个问题可能表述的一部分,列举这几个相似程度已经非常接近,在这个问题中实际上是等价的,具体选取的表述则因人而异。 实际上如果你用百度去逐个差上述关键词,会发现他们都被归纳成了同一个关键词 [Linux 创建 /新建 用户] 但是这些组合查出来的结果竟然都是不一样的 |
29
BwNVlwSq 2020-11-20 15:47:17 +08:00
辣鸡爬虫站太多了。。。用插件屏蔽的话,第一页有时候只能显示出一两条结果😂
|
31
zh584728 OP @tommyZZM 老哥,歪楼了...当然也有可能是我表达的有些不明确😂
我只是想吐槽一下搜出来的文章质量差,灌水的、转载的、没有验证的就发出来的等等,这里点名批评 csdn 、简书,权重高还都是错的信息 |
32
ReinerShir 2020-11-20 15:52:58 +08:00 1
比较同意#22,个人感觉上升到语言层面有点自卑了
|
33
t6attack 2020-11-20 15:56:48 +08:00 20
不都是百度的锅。但百度背上 50%的锅,一点也不冤。
百度为了打击垃圾站群,采取简单粗暴的方式:把流量向少数大网站集中。于是大网站也干起了垃圾站生意,批量采集内容、堆砌关键词等。百度对于这些“巨型垃圾站”,一律放行,一个不 K 。大量的流量输送这些垃圾内容。 中小网站得不到流量,久而久之就得关闭。我个人的收藏夹里,网站倒闭率超过 90%。也导致大量的文字从互联网上遗失。 所以我并不反感网站大量的 复制粘贴 or 采集。这种行为为互联网保存了很多内容。我主要反感的是伪原创。为了让搜索引擎把文章判断为原创内容,用“人工智障”技术批量替换重排文章内容,生成一些狗屁不通的文章。 伴随着时间推移,中文互联网内容进化路径是这样的: 已关闭早期网站(如天极论坛 /无忧脚本等)->被万能的中国站长采集->站长之间互相采集->二次 /三次 /N 次伪原创(文章已经驴唇不对马嘴)->被巨型网站(如阿里云采集)->作为大型网站被百度赋予极高权重->被网民搜索到。 小型网站->整理保存语句通顺的原始文章->被百度判定为互联网上的大量重复内容->K 掉不收录。 垃圾内容被收录,被索引。正常内容被过滤,这就是中文互联网的尴尬逻辑。 |
34
foMM 2020-11-20 15:57:46 +08:00 via Android
技术方面还是英文的丰富的多。之前我也吐槽过油管上中文 up 主的技术视频好多都是怎么搭建机场,特别无语。
|
35
Flymachine 2020-11-20 16:01:48 +08:00 1
CSDN 灌水太严重,好多复制粘贴的,没了原图不说,还不给原文链接!
现在只用 Bing 。如果 Bing 找不到,就换成英文再试一次。 和关键词姿势没有关系。再怎么精准的关键词,也挡不住灌水文章。我都怀疑是不是现在的人都学会博客灌水刷资历了。看到好文章,存个书签不就够了么?最多写个索引文章汇总一下,直接复制粘贴干什么? |
36
mingyoung 2020-11-20 16:01:52 +08:00
|
37
yanguoyu 2020-11-20 16:03:46 +08:00
而且重复内容极多
|
38
dji38838c 2020-11-20 16:06:49 +08:00 10
因为现在互联网越来越封闭了,有质量的内容少了,搜索引擎也是无源之泉。
微信朋友圈,公众号的内容,都不能被搜索到。 本来这些内容,都会是博客或者网站上的内容。 所以微信为了一己私利,制造这么一个不能被搜索的内生态,是在是互联网开放精神的大敌 |
39
lovecy 2020-11-20 16:07:30 +08:00
搜索是个技术活,随着互联网内容的增加,肯定糟粕越来越多的。
`瞎 jer 写的笔记`感觉很不尊重创作者,如果你要官方的内容,请去官方网站找 document,大部分问题其实官方 document 或者论坛都能解决。 博客园就有很多你说的`瞎 jer 写的笔记`,但是没广告+不用登陆,不应该和百家号 CSDN 这种放一起,掉价。 最后 stackoverflow 大法好 |
40
t6attack 2020-11-20 16:08:11 +08:00 1
百度该怎么做?
1.大型垃圾站该 K 就 K,管他是阿里云还是 CSDN 。 2.移动端,凡是破坏移动端 web 生态的网站(让用户进入 APP 继续阅读这种),全部 K 掉不收录。把流量送给专心做移动 web 页面的网站。阻止陷入各家 app 封闭数据的恶性循环。 这样。。不是过半的大型网站要被 K 掉了吗?难- 道- 不- 该- 这- 样- 吗?! |
41
lovecy 2020-11-20 16:10:09 +08:00
@Flymachine 书签里很多好文,随着网站变化都丢失了。。所以复制粘贴还是有存在的意义的。不过有两点还是很恶心,一个是不标明出处,一个是不排版,乱七八糟的复制过来也能提交。。。
|
42
leido 2020-11-20 16:16:12 +08:00
好了 我又来推荐狗子了 https://www.dogedoge.com/
|
44
hoyixi 2020-11-20 16:19:20 +08:00 8
因为简中圈没有人去产生优质内容了,做了要么被封闭平台埋没(没推荐就没流量),要么被抄袭,要么被爬虫爬去做垃圾站。
自己啥好处都没用,好处都被别人拿走,傻瓜才去产生内容 |
45
Rossweisse 2020-11-20 16:24:45 +08:00 via Android
@leido 这个和 duckduckgo 比哪个中文搜索更好点
|
46
program9527 2020-11-20 16:30:14 +08:00
百度搜索出来的辣鸡网站太多了。即便是 google,出来的结果也很多垃圾站。
内容语言不通,稍微看下就知道是爬虫抓取的。 |
47
xuanbg 2020-11-20 16:32:35 +08:00
确实是难度越来越高,搜索进阶技能:排除关键词
|
48
karatsuba 2020-11-20 16:34:30 +08:00
- csdn
|
49
jerfoxu 2020-11-20 16:40:13 +08:00 1
目前百度算法是注重整站权重的!所以不论什么关键词,感觉永远是那么几个站排在前面。有点类似导航网站的搜索了
|
50
FallenTy 2020-11-20 16:51:04 +08:00
百度和整个互联网生态的锅 55 分把。一方面百度把 csdn 之类的设置权重很高,另一方面大量分享被放入信息孤岛,百度完全拿不到
|
52
gyh 2020-11-20 16:54:46 +08:00
@tommyZZM 这个例子里面每个查询语句都有对应的英文表述,我觉得英文也是有这个问题的。比较重要的可能是关键词选取的准确性,比如用户 /帐号这个概念用 user 还是 account 。然而就像你上面补充的,英文资料多,所以不论 user / account 都能有较好的结果。
|
53
gwybiaim 2020-11-20 16:55:51 +08:00
你笨
|
54
PeterChu9527 2020-11-20 16:58:42 +08:00
@t6attack 第 2 点,百度得先砍自己几刀。
|
55
wangbudong 2020-11-20 17:00:10 +08:00
csdn 解决了大量新手会碰到的问题
|
56
z5864703 2020-11-20 17:04:09 +08:00
@t6attack 都是金主,怎么能 Kill 掉?就像莆田系医疗一样,贡献了过半的营收,怎么能根治。主要还是商业模式问题,本身百度其实有不断尝试调整,但是动作太慢,效率太低都最后失败收场。
|
57
jdhao 2020-11-20 17:10:51 +08:00 via Android
中文本身并不比英文差,不要在文字本身上找原因,原因是其他的。
|
58
bbao 2020-11-20 17:13:40 +08:00 1
博客园的结果,已经算好的了;
挂美国 vpn,搜东西的质量高一些; 也可以 xxx -csdn 排除 csdn 的结果。 |
59
zmzy 2020-11-20 17:18:02 +08:00
几十年来基本都是垃圾堆,例如大部分时候排在前面的百度知道,里面的回答 95%都是完全不对的粘贴复制。
|
60
echoe 2020-11-20 17:22:43 +08:00
粪坑的形容很贴切了
|
61
Chinsung 2020-11-20 17:25:47 +08:00
csdn 一篇文章你抄我我抄你,导致质量下降非常快,但是 csdn 给得钱又是最多的,所以你百度到的都是 csdn 。
除了 API 使用的问题,其他的现在我都直接 google 了,不管中文英文,都还可以。 至于楼上说的中文本身的问题,其实也存在,比如一个 how to,用中文搜,就存在如何,怎么,怎样这几个词,这几个词大概率搜索引擎也不会视为同意思 |
62
fengbjhqs 2020-11-20 17:25:48 +08:00
我都用知乎搜索了,不过中文的确要组织好语义才能搜索的更准确,
|
63
tommyZZM 2020-11-20 17:28:30 +08:00
@gyh 个人认为,中文比英文在处理同义 /歧义时成本高很多,往往对于同样场景,同义表述的情况中文会“丰富”很多。“博大精深”
|
64
cking 2020-11-20 17:32:14 +08:00
所以我都是 搜索 如何使用 Mysql 简书
|
65
kunhai 2020-11-20 17:37:02 +08:00
bing 的搜索结果还可以,自己做了个搜索工具 search.kunhai.xyz/?q=%E6%90%9C%E7%B4%A2
|
66
Yiki 2020-11-20 17:38:21 +08:00
百度搜出来经常都是没有灵魂的复制粘贴的,怀疑是爬虫爬的
看得我好生气 |
67
marcong95 2020-11-20 17:53:42 +08:00
@leido #42 狗子最近搜内容农场也不少,可能是新出的还没来得及屏蔽之类的,反而百度搜出来的 CSDN 还能解决问题,搜出来一堆内容农场机翻 StackOverflow 狗屁不通看都看不了
所以还是 Google 搜英文算了 |
68
pangleon 2020-11-20 17:55:36 +08:00
-(csdn) 不谢
|
69
492 2020-11-20 17:59:36 +08:00
百度搜出来的东西只要看到是 csdn,我直接就跳过的。现在 csdn 做的更恶心,点进去是搜索页。
|
71
l890908 2020-11-20 18:07:18 +08:00
用百度越来越像在“屎里面找豆子”,每次要搜的时候心里的哀叹一声,又要从屎里面找东西了
谷歌搜中文也不太不准,但是搜英文还是经常有惊喜,不只是搜到给你准确的答案,还给了答案之外一些有用的东西 |
72
wwwtarzan 2020-11-20 18:08:42 +08:00
怎么 v 站也流行 这定体 我陷思
|
73
badcode 2020-11-20 18:09:51 +08:00 via Android
|
74
xiaket 2020-11-20 18:11:13 +08:00
baidu 的索引也不太全, 该索引到的页面没索引到.
|
75
xiaket 2020-11-20 18:12:12 +08:00 1
@tommyZZM
``` - linux 新建账号 - linux 创建账号 - linux 新建用户 - linux 创建用户 - linux 新增用户 - linux 新增账号 ``` ``` - linux new account - linux create account - linux new user - linux create user - linux add user - linux add account ``` |
76
2kCS5c0b0ITXE5k2 2020-11-20 18:19:10 +08:00
我搜索的 英文 也会出来一堆 采集站 都是采集的 stackoverflow
|
79
XuHuan1025 2020-11-20 19:09:07 +08:00 2
@492 屏蔽 www.csdn.net ,正常文章是 blog.csdn
推荐几个插件 油猴 ac-baidu 必备 chrome 插件 终结内容农场 网站右键快速屏蔽 ElementHider 屏蔽网页关键词,只作用于小 div 我的一些关键词... 如何评价 如何看待 如何以 如何看 小缸和阿灿 郭麒麟 哪些细思极恐 金刚川 胖炸 聆听-旋律 东北大鹌鹑 阿冷 aleng 丶 马保国 米奇沃克斯 |
80
XuHuan1025 2020-11-20 19:12:23 +08:00
@fengbjhqs 试试知乎搜索糖尿病
|
81
shiao56 2020-11-20 19:26:24 +08:00 via Android
Google 的中文搜索也有劣化的趋势,最近经常会有一个叫热备资讯的爬虫站出现在结果第一页。不过比起 baidu 还是好太多了
|
83
triangle111 2020-11-20 20:36:52 +08:00 1
中文的更新迭代也快, 谁能想到二十年前舔狗是动名,二十年后的现在却是名词了
|
84
fru1t 2020-11-20 20:52:13 +08:00
是相对以前的结果素质下降太多,要找很久,主要是内容重复的太多了。都抄来抄去的。
|
85
bookit 2020-11-20 21:06:33 +08:00
中文互联网完了很久了
微博的大 v 们都感慨过了,百度自己市值都不行了,他不给私人博客引流,丧失了内容来源,自己做的百家号都是垃圾。 |
86
ajinwu 2020-11-20 21:11:37 +08:00 via Android
博客园其实挺好的
|
87
wanacry 2020-11-20 21:30:44 +08:00 via iPhone 1
我赞同中文是垃圾语言,浪费童年时光
|
88
ooops 2020-11-20 21:35:28 +08:00
那我来推荐个插件好了,Google 里面是去掉特定网站的结果。名字一时想不起了,可以搜下。貌似是内容农场?
|
90
summerdog 2020-11-20 21:39:27 +08:00
说明你进步了。
|
91
HongJay 2020-11-20 21:47:09 +08:00
自卑到尘埃里
|
93
johnsonshu 2020-11-20 21:49:04 +08:00
技术问题的话,
1 ) 英语用 google 2 ) 上靠谱的论坛提问,比如 v2ex |
94
Shook 2020-11-20 21:52:28 +08:00
从前段时间开始需要经常到 google 找东西了,心里隐隐约约觉得是进步的意思。
主要是百度老给我导到 csdn 之类的网站,点开就是个搜索页,从搜索网站跑到另一个搜索网站,可气死我了。 |
95
Zhang 2020-11-20 21:58:49 +08:00
刚刚帮奶奶搜了 endometrial cancer,感觉英语就是力量!
|
96
veike 2020-11-20 22:03:41 +08:00
搜不到优质内容但是不代表没有优质内容。
无意中在知乎上看到一个计算机博士的 C++教程,虽然有点推广的意思,但是教程做的很用心。 https://www.zhihu.com/people/tongjingHHU |
97
veike 2020-11-20 22:06:09 +08:00
主要是百度把持搜索流量入口,但是很多优质内容在百度搜索不出来,让人以为中文圈子不行了。
其实优质内容还是很多,只是在百度没啥曝光几率。 |
98
yklaxds 2020-11-20 22:08:41 +08:00 via Android
珍爱生命,远离百毒
|
99
linux40 2020-11-20 22:16:25 +08:00
|
100
ayconanw 2020-11-20 22:31:50 +08:00
因为高质量内容,普遍转向收费阅读或者放在公众号之类的平台可以赚取打赏
这些平台全都屏蔽了搜索引擎,所以自然越来越难以搜到 |