1
tension 2014-02-20 16:25:19 +08:00 19
继续努力就好啦... 着什么急... 中国的语言是博大精深的!
1. 冬天:能穿多少穿多少; 夏天:能穿多少穿多少。 2. 剩女产生的原因有两个,一是谁都看不上,二是谁都看不上。 3. 地铁里听到一个女孩大概是给男朋友打电话,“我已经到西直门了,你快出来往地铁站走。如果你到了,我还没到,你就等着吧。如果我到了,你还没到,你就等着吧。” 4.单身人的来由:原来是喜欢一个人,现在是喜欢一个人。 5.两种人容易被甩:一种不知道什么叫做爱,一种不知道什么叫做爱。 6.想和某个人在一起的两种原因:一种是喜欢上人家, 另一种是喜欢上人家。 7.女孩约的男孩迟到了有两个原因: ①睡过了,②睡过了。 |
2
Mihuwa 2014-02-20 16:26:22 +08:00
哈哈,楼上的。
|
4
jjplay 2014-02-20 16:31:24 +08:00
机智的 1L
|
5
xgjames 2014-02-20 16:35:02 +08:00
连「库算」都能分成个词,笑死了
|
6
donwa 2014-02-20 16:38:25 +08:00 1
我觉得v2ex的分词已经很好了。
再自己维护下词库,应该可以达到更好的效果。 @xgjames jieba好像有新词发现功能。 这个 库算 出来 “这个” 和 “出来” 在词库内存在,而在“这个”和“出来”之间的“库算” 定义为新词了 |
7
family 2014-02-20 16:41:28 +08:00 via iPhone
根本不是分词库的问题
而是主题词/热点词算法的问题 |
8
donwa 2014-02-20 16:47:10 +08:00
|
9
caoyue 2014-02-20 17:38:52 +08:00
应该也不是是词典的问题,jieba 分词的效果还是不错的
但是关键词提取的时候,对于词典中不存在的词的处理似乎有些问题 用 cut 来分词,然后自己处理提取 tag 可能会好一点。 |
10
blacktulip 2014-02-20 17:41:54 +08:00 1
只需要开启手动编辑功能,让大家都能改帖子的 tag 就行了。
|
11
Sivan 2014-02-20 17:46:49 +08:00 1
tag 最奇怪的难道不是这个帖子吗?
http://www.v2ex.com/t/97492 |
12
sethverlo 2014-02-20 18:10:54 +08:00
@Sivan 哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈哈点进去之前想到了各种可能性,进去之后还是笑喷了哈哈哈哈哈哈哈哈哈哈哈哈哈哈
|
15
hzlzh 2014-02-20 19:22:35 +08:00
围观 “库算” 这个标签
|
17
air00dd 2014-02-20 20:06:31 +08:00
有没有主题收藏用标签分类的计划?
|
18
zorceta 2014-02-20 21:33:51 +08:00 via Android
V2EX的分词系统不是AI么
|
21
caomu 2014-02-21 00:29:36 +08:00 via Android
tag收藏
tag之间关联,类似于子话题 tag维护者 tag wiki(简短描述) 好像有点像知乎。。。 |
22
onemoo 2014-02-21 00:37:52 +08:00
能不能设置手动编辑?
或者设置一个tag库,放上常用的tag,供大家选择。 |
23
virushuo 2014-02-21 05:54:05 +08:00
我对分词算略有经验,以我们当年做搜索的经验看,如果不是通用搜索,只面对一个领域,最好的办法是自定义词库。所以开放tag编辑功能,用户修正错误,然后稍微用个算法过滤一下,生成自定义词库补充进去,效果能好很多。这种情况反而在分词引擎本身上能提高的余地不大。
|