搞了大半年的文档解析引擎，今天终于开源了——专治 AI 幻觉，欢迎老铁们来试试

之前 4 月中旬的时候我发过一个帖子，说我做了一个叫 Knowhere 的文档解析插件，专治非结构化数据。当时有老哥问后台用的是什么服务，我说准备开源出去，后面可以关注一下。

今天，它来了。

Knowhere 正式开源。

先说说我为什么做这个东西。

做 AI 应用开发的兄弟应该都有同感——模型越来越强了，但一碰到复杂文档，还是容易崩。

比如你丢一份几十页的财报 PDF 进去，AI 要么开始胡编，要么直接说没有这个内容。这叫“AI 幻觉”。

最开始我也以为是模型不行，换了 Claude 换 GPT ，折腾了一圈发现问题根本不在这里。

根本上，喂给 AI 的原材料就是烂的。

现在市面上绝大多数文档解析工具，处理方式简单粗暴：按固定字数一刀切，把所有内容打碎成碎片。问题是文档里的信息是有层级、有关联、有上下文的一刀切进去，逻辑全断了。AI 拿到一堆碎片，只能靠猜。

更要命的是 PDF 里的多级表头、Excel 里的复杂行列关系、PPT 里的图文混排，传统方案基本束手无策。

强行切下去的结果就是：解析不准 → 检索不到 → AI 脑补 → 你被气死。

Knowhere 是怎么搞的。

我们花了挺长时间，自研了一套 Tree-like 算法。这个名字的由来很直白——它做的事，是把每一份文档都解析成结构化的知识树，而不是一堆散落的碎片。

核心差异在于：

传统方案：按固定字数暴力切片，标题和内容的归属关系全断，跨页表格直接乱码。

Knowhere：在解析时就完整保留文档的层级结构和逻辑关联，标题、段落、表格、图片，各自的归属关系和上下文全部对齐。

这样做出来的数据切片，关联是自带的。AI 拿到之后不再需要在碎片间瞎猜，追问的时候也能精准溯源。

几个硬指标，给老哥们参考。

我们做了大量实测，几个关键数据可以分享：

多模态解析：PDF 、Word 、PPT 、Excel 、图片全支持，信息提取完整度 95%以上。

复杂表格：多级表头这类传统方案的死穴，Knowhere 准确率 90%以上，输出带完整属性的 HTML ，下游不需要额外修正。

Token 消耗：相比传统 RAG 方案降低 50%以上。

解析效率：提升 3 倍+，上百份文件扫描 10 分钟内完成。

溯源能力：每条输出都可精确回溯到源文档的具体位置，从根源上降低幻觉。

另外，我们已经在 OpenClaw 智能体生态里深度集成，作为原生文档解析引擎在跑。配置好 API Key 之后，Agent 会自动调用 Knowhere 处理文档，不需要学新命令。

这次开源的内容包括完整的文档摄入、解析链路。你可以选择：

SaaS 版：开箱即用，免费试用 14 天，不用绑卡 https://knowhereto.ai/?utm_source=v2ex

自托管：想自己部署的老哥可以直接拉仓库跑

pip install knowhere-self-hosted
# 或者作为 OpenClaw 插件安装
openclaw plugins install @ontos-ai/knowhere-claw

最后说点心里话。

市面上其实有一些 PDF 解析的开源方案，比如 MinerU Web 、Docling 、Marker 这些，各有千秋。但它们更多是通用文档解析工具，不是专门为 AI Agent 设计的。

Knowhere 的定位不太一样——它从一开始就是给 AI 和智能体啃的。解析只是第一步，后续我们会逐步加入检索 API ，进一步降低大模型调用成本，让数据真正可复用。

我们相信：大模型的能力上限，取决于你喂给它的数据质量。

如果你也在被 AI 幻觉折磨，欢迎来试试。有任何问题或者想法，直接提 issue ，或者评论区聊聊，我看到都会回。

开源的路很长，希望大家 PR/issue ，多多反馈~