之前 4 月中旬的时候我发过一个帖子,说我做了一个叫 Knowhere 的文档解析插件,专治非结构化数据。当时有老哥问后台用的是什么服务,我说准备开源出去,后面可以关注一下。
今天,它来了。
Knowhere 正式开源。
仓库在这里: https://github.com/Ontos-AI/knowhere
先说说我为什么做这个东西。
做 AI 应用开发的兄弟应该都有同感——模型越来越强了,但一碰到复杂文档,还是容易崩。
比如你丢一份几十页的财报 PDF 进去,AI 要么开始胡编,要么直接说没有这个内容。这叫“AI 幻觉”。
最开始我也以为是模型不行,换了 Claude 换 GPT ,折腾了一圈发现问题根本不在这里。
根本上,喂给 AI 的原材料就是烂的。
现在市面上绝大多数文档解析工具,处理方式简单粗暴:按固定字数一刀切,把所有内容打碎成碎片。问题是文档里的信息是有层级、有关联、有上下文的一刀切进去,逻辑全断了。AI 拿到一堆碎片,只能靠猜。
更要命的是 PDF 里的多级表头、Excel 里的复杂行列关系、PPT 里的图文混排,传统方案基本束手无策。
强行切下去的结果就是:解析不准 → 检索不到 → AI 脑补 → 你被气死。
Knowhere 是怎么搞的。
我们花了挺长时间,自研了一套 Tree-like 算法。这个名字的由来很直白——它做的事,是把每一份文档都解析成结构化的知识树,而不是一堆散落的碎片。
核心差异在于:
传统方案:按固定字数暴力切片,标题和内容的归属关系全断,跨页表格直接乱码。
Knowhere:在解析时就完整保留文档的层级结构和逻辑关联,标题、段落、表格、图片,各自的归属关系和上下文全部对齐。
这样做出来的数据切片,关联是自带的。AI 拿到之后不再需要在碎片间瞎猜,追问的时候也能精准溯源。
几个硬指标,给老哥们参考。
我们做了大量实测,几个关键数据可以分享:
多模态解析:PDF 、Word 、PPT 、Excel 、图片全支持,信息提取完整度 95%以上。
复杂表格:多级表头这类传统方案的死穴,Knowhere 准确率 90%以上,输出带完整属性的 HTML ,下游不需要额外修正。
Token 消耗:相比传统 RAG 方案降低 50%以上。
解析效率:提升 3 倍+,上百份文件扫描 10 分钟内完成。
溯源能力:每条输出都可精确回溯到源文档的具体位置,从根源上降低幻觉。
另外,我们已经在 OpenClaw 智能体生态里深度集成,作为原生文档解析引擎在跑。配置好 API Key 之后,Agent 会自动调用 Knowhere 处理文档,不需要学新命令。
这次开源的内容包括完整的文档摄入、解析链路。你可以选择:
SaaS 版:开箱即用,免费试用 14 天,不用绑卡 https://knowhereto.ai/?utm_source=v2ex
自托管:想自己部署的老哥可以直接拉仓库跑
pip install knowhere-self-hosted
# 或者作为 OpenClaw 插件安装
openclaw plugins install @ontos-ai/knowhere-claw
最后说点心里话。
市面上其实有一些 PDF 解析的开源方案,比如 MinerU Web 、Docling 、Marker 这些,各有千秋。但它们更多是通用文档解析工具,不是专门为 AI Agent 设计的。
Knowhere 的定位不太一样——它从一开始就是给 AI 和智能体啃的。解析只是第一步,后续我们会逐步加入检索 API ,进一步降低大模型调用成本,让数据真正可复用。
我们相信:大模型的能力上限,取决于你喂给它的数据质量。
如果你也在被 AI 幻觉折磨,欢迎来试试。有任何问题或者想法,直接提 issue ,或者评论区聊聊,我看到都会回。
最后,求个 Star ⭐ https://github.com/Ontos-AI/knowhere
开源的路很长,希望大家 PR/issue ,多多反馈~
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.