搜索 "你好".
第一个结果:
出身比你好的人更努力...
这不是小时候听到的关于造句的笑话吗? 如 "课本: 上课本来就无聊".
第三个结果:
来自百度知道, 标题为 "你好你好...", 可是里面的内容却是 -- 请看图中的答案...
P.S. 平常较少用百度, 现在要更少用百度了.
1
simonzhao 2015-09-30 18:41:56 +08:00
你这太片面了,不能说明什么问题。
|
2
qdwang 2015-09-30 18:42:59 +08:00 via Android
用 google 试试看
|
3
yhxx 2015-09-30 18:43:16 +08:00
我家门前有条小河很难过
|
4
d7101120120 2015-09-30 18:50:42 +08:00
搜索技术性英文那才叫一个= =
|
5
jacy 2015-09-30 18:51:25 +08:00
|
6
29EtwXn6t5wgM3fD 2015-09-30 18:53:31 +08:00 via Android
搜索引擎从来不懂中文 英文,只懂概率论
|
7
watzds 2015-09-30 18:59:54 +08:00 via Android
Google 出来什么。。。表姐,你好野
|
8
neo1218 2015-09-30 19:04:39 +08:00
google 搜你好:
http://7xj431.com1.z0.glb.clouddn.com/屏幕快照%202015-09-30%20 下午 7.00.20.png |
9
neo1218 2015-09-30 19:07:41 +08:00
|
10
zhicheng 2015-09-30 19:14:31 +08:00 via Android
这是个暂停词吧?
|
11
Daddy 2015-09-30 19:23:05 +08:00
LZ 啊,你应该搜索“您好”,这个才是正确的表达用词。
然后,百度的结果第一个是百度图片,图片第一张是露 B 照片~~ 哈哈 |
12
Justrover 2015-09-30 19:32:52 +08:00
百度就是个渣,连谷鸽一根脚毛都比不上
|
13
windfarer 2015-09-30 19:38:36 +08:00 via Android
百度更懂广告
|
14
aiyaa 2015-09-30 19:42:53 +08:00
确实感觉太片面了
|
15
xrui 2015-09-30 19:45:09 +08:00 via Android
有一次我做语文字音题,想搜一下“按捺不住”的读音。结果你猜出来啥了
|
16
xfspace 2015-09-30 19:51:21 +08:00 via iPad
百度更懂人民币。
|
17
zjqzxc 2015-09-30 20:16:10 +08:00 3
虽然这个结果我无法反驳,但是我还是想说两句。
首先,汉藏语系一个突出特点就是,词与词之间没有明显的界限。而我们最熟悉的拉丁语系词与词之间是有空格作为分界的,所以“关键词索引”上,拉丁语系就比汉藏语系要容易。(其它语系我也不熟悉) 汉语的分词,目前采取的常见分词方法有:正向最大匹配,逆向最大匹配,最少切分,双向最大匹配。以上各方法对于一句正常的话来说,分词成功率一般都在 90%以上,所以如果以上结合来制作搜索引擎,在大多数情况下都是可以忍受的。 但是,以上各个分词的目的都是把一句话分成尽量少的分片数,这个原则是存在问题但不严重的。例如一句话:“你好漂亮”;根据以上任何一个分词方法分词的结果几乎都是:你好 /漂亮。实际上这句话的分词情况应该是:你 /好 /漂亮。“好”是副词,用来修饰后面的形容成“漂亮”。所以,这句话是极有可能被“你好”给搜出来的。 再来一个但是:如果分词词典足够庞大以至于可以不用管什么副词形容词动词等词性,完全可以把“好漂亮”作为一个索引项。这样在逆向最大匹配算法下即可得到正确的分词结果(不能算正确吧,“你 /好漂亮”其实并不正确,但已经可以正确理解这句话了)。如果按照这种分词方法,如果我搜索“漂亮”,那这句话就不会被检索到。实际上这句话和“漂亮”还是有很大的关联性的。 综上所述:线代搜索引擎为了尽可能索引全面,会结合使用以上各种分词方法,并根据根据尽可能大的字典进行分词。(严谨点说,“词典”并不是固定的。现代搜索引擎可以根据大量文章内容自动学习出新出现的词汇以弥补手动定义词典不能很快更新的问题) 但是(我又有来但是了),这样一来检索准确性就下来了。以上楼主举例是因为句法没有分析导致的。我再举一例:在宝石学中对宝石的光泽区分比较严格,例如对玻璃光泽的描述除了玻璃光泽之外,常用的还有弱玻璃光泽(光泽明显弱于玻璃光泽,但又不到油脂光泽)。我搜索玻璃光泽时当然不想让弱玻璃光泽出现(因为他们看起来真的真的大不一样),可是依照目前的理论,这一问题还比较难以解决搜索命中率的问题。(并不倾向于认为弱玻璃光泽的弱是副词,此处可能更类似于 A-与 B+这种感觉。) 希望楼主能够理解 /谅解,并期待包括楼主在内的任何人能够提出更加完善的中文分词索引理论,包括句法分析理论。(其实现在句法分析已经有人在做了) 最后的最后:之前有一个段子:家事问百度,国事问谷歌,房事问天涯。百度什么的,搜搜娱乐八卦就好了,学术(包括技术)上的事儿想办法问谷歌去。 |
18
int64ago 2015-09-30 20:44:47 +08:00 via Android
@zjqzxc 百度被黑很多时候不是搜索,全家桶也占了很大比重。。所以,大家都破罐子破摔了,我很多时候也是不分青红皂白黑百度。不过偶尔有些小事,还是觉得百度某些方面确实努力了
比如,今天我打电话的时候找不到纸笔,就打开百度搜索框记一个订单号,然后百度不但区分出了只是快递单号,还知道是哪家快递 https://dn-getlink.qbox.me/qc0ybyl1eb3xr.png 当然,这并没啥技术含量,只是偶尔眼前一亮 最后,我还是百度一生黑 :-) |
19
megabits 2015-09-30 20:59:16 +08:00 1
从来不信任搜索引擎的分词,提高 搜索 效率 的 重要 一点 就是自己 分词。
|
20
CYKun 2015-09-30 21:25:27 +08:00
@zjqzxc 补充一点,搜索引擎在分词的时候一般会使用全分词来提高命中率,比如“你好漂亮”一句,一个词典中带“好漂亮”这个词的分词器,用全分词模式会分成 你好 /你 /好 /好漂亮 /漂亮。不过这样会降低准确率,也是无奈。
不知道现在语义识别发展的怎么样了,能不能在搜索引擎上用到 |
21
rainy3636 2015-09-30 21:28:08 +08:00
说百度更懂中文的就是扯蛋
|
24
jugelizi 2015-09-30 22:10:20 +08:00
php7 windows
然而结果 windows7 php |
25
ilililili 2015-09-30 23:52:42 +08:00
你好野 是广东话吧
|
27
aprikyblue 2015-10-01 00:22:14 +08:00
从来都是自己用空格分开关键字
|
28
DiffView 2015-10-01 00:34:54 +08:00
安奈不住现在搜也是一团乱
|
29
Rice 2015-10-01 00:40:08 +08:00
表姐,你好野!
|
30
vikeria 2015-10-01 08:02:15 +08:00 via Android
百度全家桶,这酸爽简直不敢相信
|
32
cppgohan 2015-10-01 14:18:29 +08:00
百度原来这么爱腾讯! 毁三观啊
|
33
asahi 2015-10-01 16:04:58 +08:00
百度搜索 qq 音乐 ,官网到第 9 个才出现,我还觉得奇怪拿 google 试了一下, google 就好好的把官网列在第一位,这也能叫搜索引擎?
|
34
glchaos 2015-10-01 21:29:18 +08:00
是认为干预的吧
|
35
thought 2015-10-01 23:13:47 +08:00 via iPhone
傻逼,谷歌的分词技术是买的国内人开发的,不是自己搞的。
|
36
Slienc7 2015-10-01 23:26:02 +08:00
明顯第一個搜索結果是内嵌推廣,衹不過百毒沒有明確標出而已。
|
37
xieyu33333 2015-10-02 18:43:24 +08:00
Google 搜索你好,前几条都是《表姐,你好嘢!》这个电影
|