首页
注册
登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请
登录
V2EX
›
sleeperqp
›
全部回复第 25 页 / 共 25 页
回复总数
483
1
...
16
17
18
19
20
21
22
23
24
25
❮
❯
2014-08-04 11:31:54 +08:00
回复了
wwttc
创建的主题
›
问与答
›
Python 处理文件的性能优化
@
clino
后面看到是中文,如果这样我觉得分词还是有必要的 就算纯文本匹配也是有误差的
所以我觉得还是先分词下然后再做处理比较好~
2014-08-04 11:27:02 +08:00
回复了
wwttc
创建的主题
›
问与答
›
Python 处理文件的性能优化
突然想到两种方法:
一种是直接对源文本建立倒排索引,然后对这些索引最后与topics求交
另外一种是对元文本建立倒排索引的过程中,用hash之类的判断在不在topics里
这样就可以去掉m
2014-08-04 11:22:34 +08:00
回复了
wwttc
创建的主题
›
问与答
›
Python 处理文件的性能优化
我觉得这是个建立倒排索引的过程 你可以查查相关的资料
你的处理过程的时间复杂度是O(nml) n是文件数 m是topics 数 l是文件的平均长度
你可以试试怎么把m 去掉或者l去掉
1
...
16
17
18
19
20
21
22
23
24
25
❮
❯
关于
·
帮助文档
·
博客
·
API
·
FAQ
·
实用小工具
·
2391 人在线
最高记录 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms ·
UTC 15:51
·
PVG 23:51
·
LAX 07:51
·
JFK 10:51
Developed with
CodeLauncher
♥ Do have faith in what you're doing.