https://github.com/cbdb-project/sentence-segmentation-for-chinese-historical-texts
这是基于 LSTM 的预训练模型。此模型可帮助您为汉语古文断句。任何人都可以在 CC BY-NC-SA 4.0 许可证下使用此预训练模型。
我们在 2018 年建立此模型。(Xu Han, Hongsu Wang, Sanqian Zhang, Qunchao Fu, and Jun S Liu. 2018. “Sentence Segmentation for Classical Chinese Based on LSTM with Radical Embedding.”)虽然模型已很老旧,我们发现当前并没有项目在 GitHub 上公开用于汉语古文断句的预训练模型。因此我们认为它仍能帮到一些项目。
此仓库并不是任何当下断句或者标点系统的竞争者。如果您有资金支持或者有其他选择,请选择那些当下的商业化断句、标点模型,或利用自己的资源训练合适的「现代」模型。
此仓库仅希望为以下项目、学者、爱好者提供帮助:1 )希望标记成千上万条语料记录,研究结论对标点正确率容忍度高。2 )无法建立自己的古汉语断句、标点模型。3 )无力支付付费模型。
在本仓库的 training-data/ 目录下,您可以找到我们用于训练此模型的语料。如果希望帮助上述项目、学者、爱好者,您亦可基于这些训练集训练自己的模型,或丰富训练集的内容。我们欢迎任何人向本仓库提交代码或无版权问题的语料。我们期待在中国历史研究中,未来会有更多的预训练模型开放给公众。
我们丢失了用于训练模型的源代码,但未来如果找到,第一时间更新在此仓库中。
来自作者之一的私话:
「安得广厦千万间」,这个 repo 服务的对象是「天下寒士」。能吃饱、穿暖的项目和研究者,请一定购买和支持商业化方案。买不起、用不起但是想一试的「寒士」,至少还有一个选择。这个模型的正确率,论文作者们当时就认为距离真正能帮助人文研究还远得多,所以一直也没有发布,更不要说到今天大量更优秀的模型发布。但是看到直到 2021 年,GitHub 上完全搜不到一个用来断句的预训练模型,心里就很不舒服。
如果能用这个项目来刺激一些组分享自己的预训练模型,快速淘汰这个老旧的模型。即便是这样,我自己也会很欣喜。
1
Chipmunker 2021-11-19 08:57:17 +08:00 1
好像训练数据集是简体的。那是不是不能直接用于繁体文本?
|
2
oopus OP @Chipmunker 谢谢你的细心观察,繁简都可以的
|