V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
ztfot
V2EX  ›  程序员

分享一个 OCR 软件(基于 LLM 可识别 Latex)

  •  
  •   ztfot · 126 天前 · 2845 次点击
    这是一个创建于 126 天前的主题,其中的信息可能已经有所发展或是发生改变。
    • 首先为取代 mathpix (到期了,价格贵)
    • 发现大语言模型多模态具有识别 公式,代码块,甚至手写
    • 测试用的 qwen2.5-vl-7b 感觉已经可以媲美 mathpix
    • 价格便宜,平均 1¥可以识别 1000 张图
    • 自己用 swiftUI 开发了一个软件,仅 2M 大小,调用大模型进行 OCR ,可实时预览及修改
    • 项目地址 TextPix
    • 软件界面
    14 条回复    2025-05-05 01:30:42 +08:00
    ashing
        1
    ashing  
       126 天前
    看起来还不错,有空体验下。
    xuemian
        2
    xuemian  
       125 天前
    大佬
    SeaSaltPepper
        3
    SeaSaltPepper  
       125 天前
    歪个楼:有没有什么地方能看 LLM OCR 跑分排名的
    lchynn
        4
    lchynn  
       125 天前   ❤️ 1
    @SeaSaltPepper ocrBench ,ocrBenchV2 ,docVQA, infoVQA ,ChartQA ,TableVQA , 几个多模态指标都是看视觉模型对文字的识别理解能力的。 都有 leaderboard
    yjxjn
        5
    yjxjn  
       125 天前
    同楼咨询个问题。
    我目前在做的项目,也是关于 OCR 识别。但是要识别试卷内容。进行阅卷。现在有个问题,这种大模型可以识别出试卷之类的么?用了 paddleOCR ,客观题,直接就嘎了。
    lamses
        6
    lamses  
       125 天前
    loadingimg
        7
    loadingimg  
       125 天前 via iPhone
    自己基于 qwen vl 可以微调一下
    zggsong
        8
    zggsong  
       125 天前
    试了一下,prompt 识别公式效果还是蛮好的,理论上使用现有的类似 Bob 配置 llm 服务也能实现该效果

    ztfot
        9
    ztfot  
    OP
       125 天前 via iPhone
    @zggsong 是的,这只是做了个壳,方便用
    duzhuo
        10
    duzhuo  
       124 天前
    @lamses 好变态的字体
    lamses
        11
    lamses  
       124 天前
    @duzhuo 領會精神:)
    以現在 AI 能力,所有學科本該有手寫閱卷產品落地的。
    HaroldFinchNYC
        12
    HaroldFinchNYC  
       124 天前
    实际上我用 ocr 的机会不多
    但我知道有个行业用的比较多,就是教育行业
    ztfot
        13
    ztfot  
    OP
       123 天前 via iPhone
    @HaroldFinchNYC 害,学生用的多嘛
    guaike
        14
    guaike  
       123 天前
    @zggsong 这方法不错
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   943 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 21:24 · PVG 05:24 · LAX 14:24 · JFK 17:24
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.