1
akann OP 这个问题搜索引擎上搜了都找不到答案,看来还是比较难,但问的人还是挺多的,看来还是有需求的,实际上可以用个数据挖掘引擎就可以判断的,但好像现在还没有网站做这个。
|
2
akann OP |
3
zxwind 2012-04-05 00:28:49 +08:00
|
5
kafka0102 2012-04-05 02:27:13 +08:00
@akann 语言识别是个技术问题了。技术上来说是个分类问题。这方面的online api可能有一些,如果是工具包的话,tika对英文类语种支持的不错。语言识别最麻烦的是多语言混合的情况,比如一篇中文技术文章,结果以代码为主,中文很少,自然就倾向于识别成英文,但实际要处理成中文。我现在就是在tika的基础上,对亚洲语系的语料做了些处理,计算分类的概率时加了些判断,尽量让目标的中文页面识别准确些。
|
6
raptium 2012-04-05 02:33:47 +08:00 via iPad
chrome 猜得挺准的啊
|