目前 NLP 中，对英语进行分句、分词，最佳体验是哪种？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 2216 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在研究 NLP，很多模型都是需要对数据进行预处理，进行分句、分词。那么，对于英语来说，目前分句、分词最好的或者比较多人用、效果最佳的是什么包（或者方法）呢？

下面给出个人的猜测：

10 条回复 • 2019-01-15 18:58:02 +08:00

liwl

2019-01-15 10:38:35 +08:00

jiba

liwl

2019-01-15 10:38:58 +08:00

结巴分词

TotoroSora

2019-01-15 10:41:38 +08:00 via Android

之前做项目用的 nltk，配合正则做一些细节调整。周围人也基本都在用 nltk。

EPr2hh6LADQWqRVH

2019-01-15 10:43:06 +08:00

英语还用分词？逗我？

英语的词是分好的啊，空格就是分词

SeaRecluse

2019-01-15 10:43:58 +08:00

英文正则分割最方便，如果效果不好请先清洗数据。

timle1029

2019-01-15 10:59:58 +08:00

我觉得楼主说的是 phrase finding 吧，应该是类似于这片文章里介绍的 https://dl.acm.org/citation.cfm?id=1119287

aREMbosAl

2019-01-15 12:10:13 +08:00

英语分词什么意思

SleipniR

2019-01-15 12:34:18 +08:00 via Android

英语不需要分词，默认空格已经分好了，但是要做词形还原。

yanaraika

2019-01-15 12:36:00 +08:00

nltk 不知道高到哪里去了结巴在技术上是在搞笑吗

yzc27

2019-01-15 18:58:02 +08:00 via iPhone

@liwl 結巴不是只針對中文的嗎？我個人只是聽說過結巴，沒去詳細了解。