Demo

https://mp.weixin.qq.com/s/fZLibqedhrAUOpdyl0c4Ow

Demo 流程

这个 Demo 演示的大致处理流程是这样的：

先上传一份 demo 文件
完成一次框选，著录操作
上传一堆文件进行模型训练
后续上传的文件就可以自动著录了

疑问

对于这种固定版式的文档，是不是固定的文本框 bbox+OCR 就可以完成这样效果，为什么要加入机器学习的步骤呢？
如果机器学习的步骤可以帮助定位关键信息的位置，这个是用什么算法实现的？
为什么只标注一份就可以进行机器学习，有什么数据增广之类的技巧吗？

非常感谢大家能点进来看，有想法可以指导我一下就更好了

dier

2024-01-08 14:57:55 +08:00

我把视频看了一遍，我发现你理解的流程其实跟视频中有偏差。
你理解的流程第三步是上传了多个文件进行训练，但我看视频中并没有上传多个文件用来进行训练。
我甚至都怀疑语音讲解中提到的所谓“自动训练”只不过是他们的话术。可能这个加载的过程只是后台在基于前面框选的位置自动生成 OCR 识别后的处理脚本或程序。
因为文件内容格式基本一致，所以第一份标识完成之后，后面所有的文件都可以套用前面“自动训练”的程序来识别。

以上我的看法都是我根据视频内容推断的。不对准确性做保证

SuperMaskv

2024-01-08 19:10:21 +08:00

@dier #1 非常感谢你看完了这个视频。
我为什么说有训练的过程是因为这些文档大多是扫描出来的，数据质量受到扫描的影响，可能会有旋转，偏移之类的问题。我查了一些资料，是不是可以用目标检测来定位，训练数据的话从用户标注的这一份通过平移旋转来增广，不知道这样可不可行。

dier

2024-01-09 09:10:01 +08:00

@SuperMaskv 我不是 OCR 识别方面的技术人员，但我用过这种产品，之前用阿里云的车辆 VIN 码识别 OCR 时，我就发现照片中的内容不论是平、竖、斜。都可以识别，只要图片篇幅不是大得离谱，它也能在较大范围的图片中成功识别出其中的 VIN 码。所以这种识别算法肯定对选取的范围也会做一定的调整，用于适应扫描过程中纸张位置不固定导致的偏移。就像人在框选时一样，不会精确到字符的边缘，而是会尽量框大一点。

SuperMaskv

2024-01-09 09:32:24 +08:00

@dier #3 铭牌这一类的会有一些图像的预处理来定位，比如膨胀拉伸定位边框，我现在的场景不只是表格而已，这些方法不太适用。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1006775

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

想请教一下各位，这个 Demo 展示的文档理解的功能是怎么实现的？

Demo

Demo 流程

疑问