(顺便安利一下:本人从帝都回来,打算找个兼职 。如果你们正好缺个前端 或者 php 后端 不妨联系我。微信:dongxi828 )
star 地址 https://github.com/lizhichao/VicWord
getWord
长度优先切分 。最快getShortWord
细粒度切分。比最快慢一点点getAutoWord
自动切分 (在相邻词做了递归) 。效果最好json
和二级制格式igb
二进制格式词典小,加载快dict.igb
含有 175662 个词$fc = new VicWord('igb');
$arr = $fc->getWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京大学|生喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒
//$arr 是一个数组 每个单元的结构[词语,词语位置,词性,这个词语是否包含在词典中] 这里只值列出了词语
$arr = $fc->getShortWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京|大学|生喝|进口|红酒|,|在|北京|大学|生活|区喝|进口|红酒
$arr = $fc->getAutoWord('北京大学生喝进口红酒,在北京大学生活区喝进口红酒');
//北京|大学生|喝|进口|红酒|,|在|北京大学|生活区|喝|进口|红酒
//准确度对比
//q 的分词和百度的分 http://nlp.qq.com/semantic.cgi#page2 http://ai.baidu.com/tech/nlp/lexical
机器阿里云 Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
getWord
每秒 140w 字
getShortWord
每秒 138w 字
getAutoWord
每秒 40w 字
测试文本在百度百科拷贝的一段 5000 字的文本
VicDict->add(词语,词性 = null)
1
dishuibaby 2017-12-27 12:44:58 +08:00
mark 一下
|
2
server 2017-12-27 12:57:28 +08:00
1024,😀
|
3
qianmeng 2017-12-27 13:01:13 +08:00 via Android
这个很厉害啊
|
4
eseeker 2017-12-27 13:03:04 +08:00 via Android
好东西要赞一个。谢谢分享!
|
5
gdtv 2017-12-27 13:12:42 +08:00
感谢,正好需要
|
6
gdtv 2017-12-27 13:15:17 +08:00
试了一下
广东省广州市解放路 24 号越秀公园 结果: 广东省,广州市,解放,路 24 号越秀,公园 感谢楼主,正好可以用到我现在的项目里。 |
7
assad 2017-12-27 13:15:36 +08:00 via Android
赞一个
|
8
gdtv 2017-12-27 13:18:33 +08:00
能否区分词性,例如“的、地、得”是助词,“红酒”是名词
|
10
babytomas 2017-12-27 14:14:18 +08:00
可以配合你这个做本地翻译引擎耶。
|
11
predator 2017-12-27 14:16:42 +08:00
棒棒哒非常好
|
12
ORZRRR 2017-12-27 14:17:21 +08:00
支持下,这玩意核心在词典,希望大家可以开源一起维护完善词典?已经人工给一个星星
|
13
LeungJZ 2017-12-27 15:05:13 +08:00
支持支持。已 star。
|
14
kn007 2017-12-27 15:07:53 +08:00
nice,支持
|
15
x86 2017-12-27 15:12:59 +08:00
好东西
|
16
Sornets 2017-12-27 15:43:55 +08:00
厉害了,star+1
|
17
lyz745704689 2017-12-27 16:20:03 +08:00
有一个个人项目,目前安卓已经上架,ios 在开发中,不知道楼主有兴趣没有,已经加您微信了
|
18
rebill 2017-12-27 16:23:51 +08:00
看来切词的准确性在于词典
|
19
pkm 2017-12-27 16:37:07 +08:00
结婚|的|和尚|未结婚的
|
20
pkm 2017-12-27 16:40:36 +08:00
楼主棒棒哒,细粒度挺准确的
|
21
aksoft 2017-12-27 17:19:19 +08:00
php 是最好的语言
|
22
imNull 2017-12-27 19:42:18 +08:00
fork 了楼主的,简单改了改支持 composer: https://github.com/xu42/VicWord
|
24
qianmeng 2017-12-27 21:58:47 +08:00 via Android
刚才试了一下,感觉词库的大小限制了分词效果,看来智能程序的阅读量也很重要啊
|
25
singer 2017-12-27 22:01:28 +08:00 via iPhone
哇塞,好厉害啊
|
26
heybuddy 2017-12-27 22:03:26 +08:00 via Android
老兄 666
|
27
mingyun 2017-12-27 23:49:48 +08:00
@imNull 安装提示
[InvalidArgumentException] Could not find a matching version of package xu42/vic-word. Check the packa ge spelling, your version constraint and that the package is available in a stability which matches your minimum-stability (stable). |
28
arsom 2017-12-28 01:13:12 +08:00 via iPhone
mark
|
29
polymerdg 2017-12-28 08:44:36 +08:00
mark
|
32
TangMonk 2017-12-28 09:21:54 +08:00 via Android
每个单独的 http 请求都要重新加载词库吗?
|
35
mumu 2017-12-28 16:52:44 +08:00
mark
|
36
Outshine 2017-12-29 11:09:05 +08:00
好东西,已 star
|
37
leon1900 2017-12-29 19:57:38 +08:00
棒
|
38
wbz93815 2017-12-30 21:31:21 +08:00
好东西,收藏下。
|
39
artandlol 2018-06-14 15:35:20 +08:00
安装完一直提示故障,composer 和 git 的方式都有问题。
PHP Fatal error: Uncaught Error: Call to undefined function Lizhichao\Word\igbinary_unserialize() in /data/web/vendor/lizhichao/word/Lib/VicWord.php:31 |