请教各位个问题，如何实现类似小猿搜题的功能？

前提：学习性质的个人项目，准确度不必太高，能在乐观情况下匹配就可以。对机器学习不熟悉。

对于带配图问题的工业级别的方案是不是还要识别图片区域，对这块区域进行以图搜图？还是整个图(包含配图和文字题干)进行以图搜图？
现在只准备做 ocr 文本后匹配文本，对于比较大的数据量(200-300w 题目)，常用的方案都有哪些？比如 es/faiss(能做文本匹配吗，好像只看到图片)？
ocr 预处理时发现二值化(sauvola)后文字边缘有一定腐蚀，针对文本的二值化有什么更好的算法吗？
对于题目的 document layout analysis，有什么好的方案吗？搜索一些资料基本都是对论文和新闻文档做的分析，跟题目的排版还是有较大区别，自己训练后是否能达到较好的成果或者有专门的方案和思路吗？

问题较多，回答皆有金币感谢，thx

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.