试卷切割有啥好的方案吗,试过百度云和阿里云,效果都不太行。

4 天前
 zzz22333
1692 次点击
所在节点    问与答
17 条回复
zzz22333
4 天前
这个是原图,阿里切出来长这样 百度云切出来长这样 是要对图片提前处理吗?
jstony
4 天前
分解步骤,不要指望一句提示词搞定。
先 ocr ,获得文本和坐标,然后把文本扔给大模型,问他怎么拆题,根据大模型给的结果再去拿到每个题目对应的坐标,然后获得最终的拆题。ocr 的要求不用太高,识别错误没关系,大模型自己会理解。当然也可以直接把文本和坐标一起扔给模型,让他直接给你每个题目的坐标,你再去裁切图片。具体怎么做看你的需求和调试优化结果对比。
zzz22333
4 天前
@jstony #2 我试过用大模型,效果也一般,而且大模型有个问题,就是一致性较差。最开始用 gemini 2.0-flash ,效果很差, 后面换成 gemini 3.0-preview 就好一些。
wangwaner
4 天前
二楼正解,你需要做一个 agent ,
1.首先用 deepseek-ocr (一个用 DeepSeek 的 ocr 模型)对文字进行识别,
2.然后把步骤 1 识别出来的结果(带文字和坐标的)输给文字大模型,让他给你返回题目的分割
3.(可选)将最终的切割结果再次 ocr ,文本发给大模型,让他验证题目 shifowanzheng
(当然你上高级的多模态大模型也可就是数量多了有亿点费钱)
cryptovae
4 天前

这样?
haohaozaici
4 天前
试了下夸克和 wps ,都可以很精准按题目分割图片
zzz22333
4 天前
@cryptovae #5 是这个意思,怎么做到的呢
zzz22333
4 天前
@wangwaner #4 大概懂了,我是直接把图片发给 OCR ,让它输出坐标。没有第一步,所以精度不是很高。
cryptovae
4 天前
fadaixiaohai
4 天前
@cryptovae #9 这个感觉很专业啊
zzz22333
4 天前
@cryptovae #9 这个效果挺好的呀,我在思考怎么实现切割。
cryptovae
4 天前
@zzz22333 #11 和上面说的一样,ocr 出完整内容,让大模型切割就行了
zzz22333
4 天前
@wangwaner #4 AI 评价这个方案很靠谱,我试试。
wangwaner
4 天前
好的哇👍🏻
@zzz22333
zzz22333
4 天前
@cryptovae #12 用了 MinerU 这个基本满足我的需求了,比之前的阿里云,百度云强太多,甚至还是免费....
None2
4 天前
看标题就想到 MinerU 了
zzz22333
4 天前
@None2 #16 确实好用,还免费。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1191102

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX