x1n04
V2EX  ›  问与答

关于 OCR 识别截图问题

  •  
  •   x1n04 · Mar 10, 2025 · 1978 views
    This topic created in 439 days ago, the information mentioned may be changed or developed.

    看到市面上有很多上传基金页面截图,就能自动获取到买了哪些基金,收益率是多少。 想问下大佬们,这是通过 OCR 特定位置识别的嘛? 感觉实现起来很麻烦,有位置问题,字体问题,暗黑模式问题等等

    9 replies    2025-03-11 08:55:55 +08:00
    Daimaogou
        1
    Daimaogou  
       Mar 10, 2025 via Android
    上大模型
    x1n04
        2
    x1n04  
    OP
       Mar 10, 2025
    大模型没有 OCR 便宜吧。主要是个人产品
    x1n04
        3
    x1n04  
    OP
       Mar 10, 2025
    @Daimaogou #1 大模型没有 OCR 便宜吧。主要是个人产品
    Mithril
        4
    Mithril  
       Mar 10, 2025
    单纯背景下,印刷体的数字识别率很高的。特别是你如果是固定布局,还能用相对位置进一步限定识别内容。

    基本的你找 Paddle 就可以了,大模型主要是能提高复杂背景,手写,或者多语言文本方面的识别率。
    fredsunme
        5
    fredsunme  
       Mar 10, 2025
    如果你要从 0 开始 OCR ,考虑看看这个 base64: aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3RtYWNmcmFuay9hcnRpY2xlL2RldGFpbHMvMTM4NDEzMjg0

    原文我记得是 10 年前看的 也不确定是不是这个作者了
    而且现在都是 python 处理,你可以搜对应的 python 版本的,思路应该还是 opencv 做高斯模糊灰度二值膨胀分割那一套
    lower
        6
    lower  
       Mar 10, 2025
    zhipu 的有个视觉模型 4v-flash 是免费的,白嫖吧
    datocp
        7
    datocp  
       Mar 10, 2025 via Android
    之前看人家用 excel 做了一个 vba 抓取东方财富页面。后来不知道作者更新了什么,就出现了内存溢出问题。。。
    东方财富就是纯静态页面,用网页抓取软件应该很容易采集自己需要的数据。
    deacyn
        8
    deacyn  
       Mar 11, 2025
    @x1n04 大模型很便宜,你这应该只是提取文字的需求吧
    Solace202
        9
    Solace202  
       Mar 11, 2025
    碰巧公司有个业务碰到过类似场景,解决办法是分两步走:
    1. OCR 提取所有文字
    2. 将所有文字和你的要求组成 promot 喂给 gpt 或者 claude ,获得结果。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3038 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 85ms · UTC 03:16 · PVG 11:16 · LAX 20:16 · JFK 23:16
    ♥ Do have faith in what you're doing.