目前网站实现多语言,ES 的官方语言 analyzer 中,并没有韩语、越语等等,是不是我用 ICU 就可以对这些冷门语言进行 analyze ? ICU 我看了下资料很少,怎么理解这个 ICU ??
1
lianz 2017-11-28 22:25:38 +08:00
有一句话我是非常同意的: 样样精通, 样样不通.
意思是如果每样都会, 那么意味着每样都不精. 放到这里, 意思就是通用的分词器效果是肯定比不上专门为汉语定制的分词器的. 当然了, 如果只是随便用用, 是够用了的. 如果想在正式的生产环境下, 那是达不到出彩效果的. |
2
dobelee 2017-11-28 22:53:47 +08:00 via Android
肯定不行。不同的语言有不同的分词法。例如中文,词库是必要条件。
|
3
crabRunning 2017-11-28 23:34:35 +08:00
自定义一个 analyzer 柔和自己想要的不久行
|
4
alwayshere 2017-11-29 08:52:51 +08:00
@dobelee 中文用 ik,我只是针对 ES 官方没有的语言插件,如韩语、越语等等,这些我都用 ICU 能行不
|
5
dobelee 2017-11-29 09:23:43 +08:00 via Android
@alwayshere 我没有研究过这些语言,不知道有什么具体特性,只是说可能类似中文需要词库,因为貌似韩语也是没有空格分词的。
|
6
Morriaty 2017-11-29 10:39:10 +08:00
中文的 ik 都有数不尽的 bad case 场景,更何况是这种通用的
|