ocr 识别 latex 公式的难度是在哪？

我记得有款工具叫 math 什么，可以识别 latex 公式，挺好用的，现在好像收费了，免费客户端好像是一个月 50 次。

这个其实对于普通用户偶尔用一两次也是够了。

不过我的问题是，这种 ocr 功能的难度，或者说资源花费主要是在哪？感觉现在 AI 技术也发展得不错，再加上 latex 公式一般都是比较标准的字体，符号也有限，而且有很多人用，就有很多的训练集，感觉模型应该不是问题。

handuo

2022 年 4 月 2 日

我不是做这方面的，但是知道整个过程不只是 ocr, 需要预处理，文本检测，布局理解以及字符识别。感觉对于 latex 公式难点在于布局的多义性和歧义性，很多公式布局比较复杂。而主流学术界和工程界更重视复杂环境的文本检测，不同噪声下的字符识别，因此需要自己设计网络，采集数据和训练模型，有一定门槛

PeterD

2022 年 4 月 2 日

现在用 Transformer 已经可以实现很好的效果了，参考下面的项目

https://github.com/lukas-blecher/LaTeX-OCR

https://arxiv.org/abs/2007.02517

ynyounuo

2022 年 4 月 3 日

mathpix 刚涨价并且限制普通用户使用次数，我怀疑你是故意这个时候发的，哈哈哈

普通 LaTeX 数学公式 OCR 确实并不难，如果有扫描图形直接生成逻辑标准的对应 PGF/TikZ 代码才是厉害，目前 quiver 画图手动画图转换体验还行

thedrwu

2022 年 4 月 3 日

排版和布局（例如横纵位置、kerning 、断行和对齐的位置、math[clr]lap 的处理等等）才是 LaTeX 公式的灵魂。即使同一个公式内容，换成另一种字体也需要调整处理的方式。毕竟 LaTeX 不止是公式编辑器更是个排版软件。
生硬地 reproduce 布局最后只会成为各种手动的 box 。

thedrwu

2022 年 4 月 3 日

接上文，OCR 复杂一点公式可能需要算法根据上下文“理解”公式的内在意义，才能给出合理的等价排版代码

shadows

2022 年 4 月 3 日

mathpix 可以找一些调用它 api 的软件使用，api 的免费计划足够使用的，不处理 pdf 的话，就只有 rate limit （新开的 api 是 50/min ，我之前开的是 200/min ），没有次数限制

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/844635

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.