汉语古文断句预训练模型

2021-11-18 12:48:15 +08:00
 oopus

https://github.com/cbdb-project/sentence-segmentation-for-chinese-historical-texts

这是基于 LSTM 的预训练模型。此模型可帮助您为汉语古文断句。任何人都可以在 CC BY-NC-SA 4.0 许可证下使用此预训练模型。

我们在 2018 年建立此模型。(Xu Han, Hongsu Wang, Sanqian Zhang, Qunchao Fu, and Jun S Liu. 2018. “Sentence Segmentation for Classical Chinese Based on LSTM with Radical Embedding.”)虽然模型已很老旧,我们发现当前并没有项目在 GitHub 上公开用于汉语古文断句的预训练模型。因此我们认为它仍能帮到一些项目。

此仓库并不是任何当下断句或者标点系统的竞争者。如果您有资金支持或者有其他选择,请选择那些当下的商业化断句、标点模型,或利用自己的资源训练合适的「现代」模型。

此仓库仅希望为以下项目、学者、爱好者提供帮助:1 )希望标记成千上万条语料记录,研究结论对标点正确率容忍度高。2 )无法建立自己的古汉语断句、标点模型。3 )无力支付付费模型。

在本仓库的 training-data/ 目录下,您可以找到我们用于训练此模型的语料。如果希望帮助上述项目、学者、爱好者,您亦可基于这些训练集训练自己的模型,或丰富训练集的内容。我们欢迎任何人向本仓库提交代码或无版权问题的语料。我们期待在中国历史研究中,未来会有更多的预训练模型开放给公众。

我们丢失了用于训练模型的源代码,但未来如果找到,第一时间更新在此仓库中。


来自作者之一的私话:

「安得广厦千万间」,这个 repo 服务的对象是「天下寒士」。能吃饱、穿暖的项目和研究者,请一定购买和支持商业化方案。买不起、用不起但是想一试的「寒士」,至少还有一个选择。这个模型的正确率,论文作者们当时就认为距离真正能帮助人文研究还远得多,所以一直也没有发布,更不要说到今天大量更优秀的模型发布。但是看到直到 2021 年,GitHub 上完全搜不到一个用来断句的预训练模型,心里就很不舒服。

如果能用这个项目来刺激一些组分享自己的预训练模型,快速淘汰这个老旧的模型。即便是这样,我自己也会很欣喜。

1679 次点击
所在节点    分享创造
2 条回复
Chipmunker
2021-11-19 08:57:17 +08:00
好像训练数据集是简体的。那是不是不能直接用于繁体文本?
oopus
2021-11-19 10:46:23 +08:00
@Chipmunker 谢谢你的细心观察,繁简都可以的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/816263

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX