请求各位大神,有没有知道拍照,然后实现做数学题开源方案

241 天前
 gitxuzan

有没有知道拍照,然后实现做数学题开源方案,这块应该技术上怎么实现

1134 次点击
所在节点    问与答
10 条回复
FlytoSirius
241 天前
同样感兴趣
gitxuzan
241 天前
收费的也行吧,就是主要是专门解方程式这方面
ansemz
241 天前
deepseek 的 vl 模型应该可以
evan1
241 天前
理论上应该是先拍照,然后 OCR 识别内容,然后把内容塞给大模型,然后输出大模型的结果。
xiexiping
241 天前
@evan1 有现成的解决方案用来集成吗? OCR 好像 bat 都有,解题的模型就不太清楚了,这样是不是可以自己做一个拍照解题应用了
evan1
241 天前
@xiexiping #5 这个没有具体研究过。

理论上接入其它模型最方便,说的直接一点就是直接去套壳。

找个开源模型然后再找些题库、公式数据集训练一下也可以,但是太麻烦了而且效果不一定好。

自己做一个拍照解题应用是可以,但是 google 搜一下"拍照解题"可以看到已经有很多类似产品了。如果只是自己研究的话可以搞搞,想要靠这个实现收入的话我觉得有点困难。
xiexiping
241 天前
@evan1 确实很多领域市场上都有比较成熟的产品了,但是还是有很多小公司做的小产品能从中吃到一小块蛋糕,我以前公司的产品就是这个思路,只是集成一下市场上现有的 SDK 提供的功能,做一个简单的产品,赚不了大钱但是能凭借比较简单的功能和低成本,能有一部分用户,所以我才有了这个想法,哈哈
LingXingYue
241 天前
我自己目前是拍照,然后传给支持视觉的大模型,让他以 markdown 输出,公式使用 latex 表示实现 OCR
然后再把输出的文字内容传给第二个大模型做题
优点是比直接传图片做题的正确率高,缺点是慢 成本高 没法做有图的题
gitxuzan
240 天前
@LingXingYue 麻烦贴下开源地址,谢谢
LingXingYue
232 天前
@gitxuzan 项目都没有 2333
就是单纯的先用提示词让大模型 OCR ,然后再让他做题

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1103577

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX