今天在 GDD 听了 tf.text 主题演讲,演讲者在 demo 中使用 Unicode 分字,把中文句子分成单字。
而我和同事在过去多用词典法分词。
想要讨论下分字和词典法分词两个效果有什么差异,结果一直没能堵到演讲者 😂。
不知道各位在应用过程中有没有对这方面做过评估。
1
chinvo OP 🤪
|
2
shikimoon 2019-09-11 16:28:07 +08:00
bert 一把梭
|
3
chinvo OP @shikimoon #2 问题就在于 bert 预处理用的是 Unicode 分字,就比较想了解分字和分词对最终结果有啥不同影响
|
4
capo 2019-09-11 23:58:10 +08:00 1
场景 模型的不同都会使分词方式有不同的效果 试一试就知道了
|
6
shm7 2020-10-21 12:48:41 +08:00 1
这问题过去有一年了,也许 lz 已经变成一个入门选手。入门选手都是知道怎么操作的了。分词不分词,看什么场景,比如你做 textrank,不分词就不能用。如果是用于深度学习的输入,又分使用场景;比如分类,可分可不分,分了一般效果略好;再比如做实体序列标注,你要是分了,加入分词边界和实体边界 不贴合你咋整?只要做过几个简单任务,有点思考,这些根本不会有。没做过的,纯粹看着玩。我觉得没比较了解这个问题。
|