有没有懂泰语的 v 友

2020-02-27 11:14:52 +08:00
 Raven316
公司让做泰语的 ocr,现在用的是 crnn 模型,问题在于没有一个泰语的训练集。在网上查了下泰语的基础,见这两篇文章:
https://blog.csdn.net/cbbbc/article/details/47022337
https://blog.csdn.net/qiaojiongzeng6321/article/details/74857285

crnn 的训练集要求是一个序列图片,并给定相应的标签

由于泰语的复杂性,考虑了两种方案
1unicode 当做标签,这个方案已经被证明不可行,会输出很多不合法的泰语字符(如孤立的上标,下标等)
2 所有合成过的泰语字符当做标签(加上上标,下标之后的所有可能),问题在于不知道合成后的泰语合法字符有多少种。有没有 v 友指导一下
1391 次点击
所在节点    问与答
4 条回复
18115692244
2020-02-27 11:36:33 +08:00
这个问题一下子就触及了 v 友们的知识盲区
cuixiaoyan
2020-02-27 11:41:01 +08:00
萨瓦迪卡
Whsiqi
2020-02-27 11:45:43 +08:00
外包给泰国程序员吧
mikulch
2020-02-27 14:21:28 +08:00
?斧王头像竟然做的是这种活,还挺高端的。打破了我的印象。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/647962

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX