RT.
假如一个网站需要支持文章搜索。
那么当文章标题可能存在 中文|日文 时, 这个文章应该如何分词? 用户输入时又如何分词?
来个好哥哥指点一下
1
ryh 2021-01-03 13:28:50 +08:00
个人觉得可以不用那么复杂,依照用户设置的显示什么语言 或者 header 里的 accept-language 搜那个语言的标题就好了,其他语言忽略
显示中文 但搜 平假名 片假名 这种倒是好处理,搜日语的就行, 搜汉字的话你怎么处理,只有用户定义( client 设置 /自选)搜索语言 |
2
learningman 2021-01-03 13:56:34 +08:00
你看看谷歌怎么处理的呗,你不定义就按网站语言来
当然谷歌可能还有机器学习之类的东西,但这个方向应该没啥问题 |
3
niubee1 2021-01-03 14:05:52 +08:00
ES 里存多条
|
4
skypyb OP |
5
YouLMAO 2021-01-03 16:03:18 +08:00
```
1. title analyzer 设置中加日, 浪费索引速度 2 倍 2. 当你知道这个视频包含日语, 比如只占 0.1%的视频, 则同时索引进 title 和 title_jp, 其他情况索引进 title ``` 当 query 包含日语, 同时搜索 title+title_jp |
6
YouLMAO 2021-01-03 16:04:20 +08:00
markdown 咋搞的, 不好用
|
7
leekafai 2021-01-04 10:11:46 +08:00
p**b 好像就是这样,多语种 title 都可以搜索得到
|
9
huayumo 2021-01-04 16:14:20 +08:00
上 elasticsearch 搜索引擎,数据库分词什么的鼓捣半天不如 es
|