请求各位大神，有没有知道拍照，然后实现做数学题开源方案

有没有知道拍照，然后实现做数学题开源方案，这块应该技术上怎么实现

FlytoSirius

2025 年 1 月 8 日

同样感兴趣

gitxuzan

2025 年 1 月 8 日

收费的也行吧，就是主要是专门解方程式这方面

ansemz

2025 年 1 月 8 日

deepseek 的 vl 模型应该可以

evan1

2025 年 1 月 8 日

理论上应该是先拍照，然后 OCR 识别内容，然后把内容塞给大模型，然后输出大模型的结果。

xiexiping

2025 年 1 月 8 日

@evan1 有现成的解决方案用来集成吗？ OCR 好像 bat 都有，解题的模型就不太清楚了，这样是不是可以自己做一个拍照解题应用了

evan1

2025 年 1 月 8 日

@xiexiping #5 这个没有具体研究过。

理论上接入其它模型最方便，说的直接一点就是直接去套壳。

找个开源模型然后再找些题库、公式数据集训练一下也可以，但是太麻烦了而且效果不一定好。

自己做一个拍照解题应用是可以，但是 google 搜一下"拍照解题"可以看到已经有很多类似产品了。如果只是自己研究的话可以搞搞，想要靠这个实现收入的话我觉得有点困难。

xiexiping

2025 年 1 月 8 日

@evan1 确实很多领域市场上都有比较成熟的产品了，但是还是有很多小公司做的小产品能从中吃到一小块蛋糕，我以前公司的产品就是这个思路，只是集成一下市场上现有的 SDK 提供的功能，做一个简单的产品，赚不了大钱但是能凭借比较简单的功能和低成本，能有一部分用户，所以我才有了这个想法，哈哈

LingXingYue

2025 年 1 月 9 日

我自己目前是拍照，然后传给支持视觉的大模型，让他以 markdown 输出，公式使用 latex 表示实现 OCR
然后再把输出的文字内容传给第二个大模型做题
优点是比直接传图片做题的正确率高，缺点是慢成本高没法做有图的题

gitxuzan

2025 年 1 月 9 日

@LingXingYue 麻烦贴下开源地址，谢谢

LingXingYue

2025 年 1 月 17 日

@gitxuzan 项目都没有 2333
就是单纯的先用提示词让大模型 OCR ，然后再让他做题

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1103577

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.