试卷切割有啥好的方案吗，试过百度云和阿里云，效果都不太行。

zzz22333

2 月 6 日

这个是原图，阿里切出来长这样

百度云切出来长这样

是要对图片提前处理吗？

minibear2021

2 月 6 日

分解步骤，不要指望一句提示词搞定。
先 ocr ，获得文本和坐标，然后把文本扔给大模型，问他怎么拆题，根据大模型给的结果再去拿到每个题目对应的坐标，然后获得最终的拆题。ocr 的要求不用太高，识别错误没关系，大模型自己会理解。当然也可以直接把文本和坐标一起扔给模型，让他直接给你每个题目的坐标，你再去裁切图片。具体怎么做看你的需求和调试优化结果对比。

zzz22333

2 月 6 日

@jstony #2 我试过用大模型，效果也一般，而且大模型有个问题，就是一致性较差。最开始用 gemini 2.0-flash ，效果很差，后面换成 gemini 3.0-preview 就好一些。

wangwaner

2 月 6 日

二楼正解，你需要做一个 agent ，
1.首先用 deepseek-ocr （一个用 DeepSeek 的 ocr 模型）对文字进行识别，
2.然后把步骤 1 识别出来的结果（带文字和坐标的）输给文字大模型，让他给你返回题目的分割
3.（可选）将最终的切割结果再次 ocr ，文本发给大模型，让他验证题目 shifowanzheng
（当然你上高级的多模态大模型也可就是数量多了有亿点费钱）

cryptovae

2 月 6 日

这样？

haohaozaici

2 月 6 日

试了下夸克和 wps ，都可以很精准按题目分割图片

zzz22333

2 月 6 日

@cryptovae #5 是这个意思，怎么做到的呢

zzz22333

2 月 6 日

@wangwaner #4 大概懂了，我是直接把图片发给 OCR ，让它输出坐标。没有第一步，所以精度不是很高。

cryptovae

2 月 6 日

@zzz22333 #7 https://github.com/opendatalab/MinerU

zeex

2 月 6 日

@cryptovae #9 这个感觉很专业啊

zzz22333

2 月 6 日

@cryptovae #9 这个效果挺好的呀，我在思考怎么实现切割。

cryptovae

2 月 6 日

@zzz22333 #11 和上面说的一样，ocr 出完整内容，让大模型切割就行了

zzz22333

2 月 6 日

@wangwaner #4

AI 评价这个方案很靠谱，我试试。

wangwaner

2 月 6 日

好的哇👍🏻
@zzz22333

zzz22333

2 月 6 日

@cryptovae #12 用了 MinerU 这个基本满足我的需求了，比之前的阿里云，百度云强太多，甚至还是免费....

None2

2 月 6 日

看标题就想到 MinerU 了

zzz22333

2 月 6 日

@None2 #16 确实好用，还免费。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1191102

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.