关于 OCR 识别截图问题

186 天前
 x1n04

看到市面上有很多上传基金页面截图,就能自动获取到买了哪些基金,收益率是多少。 想问下大佬们,这是通过 OCR 特定位置识别的嘛? 感觉实现起来很麻烦,有位置问题,字体问题,暗黑模式问题等等

1305 次点击
所在节点    问与答
9 条回复
Daimaogou
186 天前
上大模型
x1n04
186 天前
大模型没有 OCR 便宜吧。主要是个人产品
x1n04
186 天前
@Daimaogou #1 大模型没有 OCR 便宜吧。主要是个人产品
Mithril
186 天前
单纯背景下,印刷体的数字识别率很高的。特别是你如果是固定布局,还能用相对位置进一步限定识别内容。

基本的你找 Paddle 就可以了,大模型主要是能提高复杂背景,手写,或者多语言文本方面的识别率。
fredsunme
186 天前
如果你要从 0 开始 OCR ,考虑看看这个 base64: aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RtYWNmcmFuay9hcnRpY2xlL2RldGFpbHMvMTM4NDEzMjg0

原文我记得是 10 年前看的 也不确定是不是这个作者了
而且现在都是 python 处理,你可以搜对应的 python 版本的,思路应该还是 opencv 做高斯模糊灰度二值膨胀分割那一套
lower
186 天前
zhipu 的有个视觉模型 4v-flash 是免费的,白嫖吧
datocp
186 天前
之前看人家用 excel 做了一个 vba 抓取东方财富页面。后来不知道作者更新了什么,就出现了内存溢出问题。。。
东方财富就是纯静态页面,用网页抓取软件应该很容易采集自己需要的数据。
deacyn
185 天前
@x1n04 大模型很便宜,你这应该只是提取文字的需求吧
Solace202
185 天前
碰巧公司有个业务碰到过类似场景,解决办法是分两步走:
1. OCR 提取所有文字
2. 将所有文字和你的要求组成 promot 喂给 gpt 或者 claude ,获得结果。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1117281

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX