1
Livid MOD 我们曾经确实在用结巴分词,不过目前已经换到另外一个分词服务了。
改天会向大家介绍,目前看起来效果还不错。 |
2
kier 2014-05-28 17:07:53 +08:00
不会呀,我印象中就程序load的时候比较慢,后面就很快呀
|
3
a591826944 OP @kier 是因为我配置低的缘故么? 但是 看上面的信息。。确实用的时 cache的词库
cache /tmp/jieba.cache |
4
a591826944 OP @Livid 我是自己做着玩的东西。。所以都行吧。。我想先把这个搞起来看看,,等不到改天了 -_-|||..了解这个 比较慢的情况么?
|
5
a591826944 OP 关于php 和 jieba 的 python http服务交互。。大家还有什么其他的建议吗
|
6
Livid MOD @a591826944 V2EX 的办法是单独启动了一个 web service 来提供标签提取。
|
7
kier 2014-05-28 17:16:16 +08:00 2
@a591826944, 刚仔细看了你的帖子,这个使用是没问题的,你是直接运行那个demo程序,它会完成load词库到内存中,然后再分词等等,当然慢了,但是你做http服务,load词库到内存中只会在启动的时候做一次,后面不会再做了,所以速度不会有影响的
|
8
a591826944 OP @Livid 是的我也想这么做。。所以我会启动一个python的http服务。。但是目前在命令行下运行demo的时间来看。。有点长啊。。这样即使上了服务。。也不会快的呀
|
9
a591826944 OP @kier 有道理。。我先做做看。。感谢
|
10
ultimate010 2014-05-28 19:19:29 +08:00
干嘛不用c++版本?
|
12
Livid MOD |
13
XDA 2014-05-28 20:19:51 +08:00 1
项目里用的IK
|
14
a591826944 OP @ultimate010 我也看了C++版本。而且我发微博咨询了作者。。c++版本确实直接就可以提供分词服务。。但是 我没有看到提供提取关键词服务的说明。。所以我问了他。。还没回复
|
15
aszxqw 2014-05-28 20:34:25 +08:00
@a591826944 不好意思下午6点才看到你的私信。不过已经回复你了,你不能收到吗?
|
16
a591826944 OP @aszxqw 哎呦我去。。碰上了。。。恢复了。。刚到家,一直在路上。。。
|
17
dreampuf 2014-05-28 20:55:59 +08:00 1
|
18
ultimate010 2014-05-28 21:10:46 +08:00
@dreampuf 哈工大的自然语言处理很牛逼。
|
19
halfcrazy 2014-05-28 21:20:04 +08:00 2
|
20
dreampuf 2014-05-28 22:45:11 +08:00 3
@ultimate010 除了哈工大,stanford,中科院
还推荐一个海量分词 http://home.hylanda.com/show_5_19.html 除了结巴分词之外,更推荐楼上的 snownlp 。作者是个苦苦修行技术的单身。 @a591826944 词典文件一般序列化为特定格式或者经过压缩,反序列化到内存中时大小一般会翻几番(视倒插表结构)。HTTP服务一般会启动多个实例,以类库的形式调用会产生不必要的内存开销。最好的方法是独立为一个外部服务,独立处理。 |
21
alexapollo 2014-05-28 23:49:55 +08:00
结巴是使用时加载,说实话我不觉得很好
|
24
fxsjy 2014-10-27 12:46:22 +08:00 1
试用下jieba最新版0.34吧,内存占用已经下降到原来的1/3,加载速度0.6秒左右。
|
25
sangxiaolong 2014-11-18 23:49:27 +08:00
@Livid 现在v2ex的自动tag功能比以前好很多了,请问现在用的什么工具呢,能分享一下么?谢谢
|