关于 OCR 识别截图问题

186 天前

x1n04

看到市面上有很多上传基金页面截图，就能自动获取到买了哪些基金，收益率是多少。想问下大佬们，这是通过 OCR 特定位置识别的嘛？感觉实现起来很麻烦，有位置问题，字体问题，暗黑模式问题等等

1305 次点击

所在节点

问与答

9 条回复

Daimaogou

186 天前

上大模型

x1n04

186 天前

大模型没有 OCR 便宜吧。主要是个人产品

x1n04

186 天前

@Daimaogou #1 大模型没有 OCR 便宜吧。主要是个人产品

Mithril

186 天前

单纯背景下，印刷体的数字识别率很高的。特别是你如果是固定布局，还能用相对位置进一步限定识别内容。

基本的你找 Paddle 就可以了，大模型主要是能提高复杂背景，手写，或者多语言文本方面的识别率。

fredsunme

186 天前

如果你要从 0 开始 OCR ，考虑看看这个 base64: aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RtYWNmcmFuay9hcnRpY2xlL2RldGFpbHMvMTM4NDEzMjg0

原文我记得是 10 年前看的也不确定是不是这个作者了
而且现在都是 python 处理，你可以搜对应的 python 版本的，思路应该还是 opencv 做高斯模糊灰度二值膨胀分割那一套

lower

186 天前

zhipu 的有个视觉模型 4v-flash 是免费的，白嫖吧

datocp

186 天前

之前看人家用 excel 做了一个 vba 抓取东方财富页面。后来不知道作者更新了什么，就出现了内存溢出问题。。。
东方财富就是纯静态页面，用网页抓取软件应该很容易采集自己需要的数据。

deacyn

185 天前

@x1n04 大模型很便宜，你这应该只是提取文字的需求吧

Solace202

185 天前

碰巧公司有个业务碰到过类似场景，解决办法是分两步走：
1. OCR 提取所有文字
2. 将所有文字和你的要求组成 promot 喂给 gpt 或者 claude ，获得结果。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1117281

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.