通过 dify 搭建了基于企业内部知识库的问答机器人，但是效果非常差

2025 年 3 月 3 日

maoqiucute

模型直接用的是 deepseek 官方 api 。

嵌入式模型选择的是 bge-m3.

知识库维护了企业内部的一些业务文档，但是使用 dify 的分段效果很差。

请问各位优化的方向是什么？优质的知识库文档应该是什么样的格式？

公司有一台价值 50 万的机器可供使用，如果用内部文档去自己训练效果会比外挂知识库好吗？

3161 次点击

所在节点

Local LLM

15 条回复

tool2dx

2025 年 3 月 3 日

你这种需要微调模型的，dify 只能算是搜索引擎，提交时上下文限制挺大的，要让 AI 全部理解知识库，怕是很有点难度。

你不如用官方 deepseek 的文档上传功能，我用下来没啥问题，基本都能理解。

zhywang

2025 年 3 月 3 日

不建议微调模型，一般企业的知识库数据量太小，容易把模型微调残了
优化方向应该还是从 RAG 知识库入手，试试其他的工具

maoqiucute

2025 年 3 月 3 日

@zhywang 有其他工具推荐吗

Goalonez

2025 年 3 月 3 日

巧了，这两天接盘的活也是这个，甚至模型还是公司自己跑的 ds ，麻了。

zj27

2025 年 3 月 4 日

自己简单试过 anythingLLM ，可以回答出文档的内容，但是文档很小，模型是本地部署的最小的 1.5B 的 DeepSeeK ，仅供参考，公司内部也有这个 ai 知识库的需求，希望多多交流

xsen

2025 年 3 月 7 日

前阵子刚刚做过类似的，要调惨与测试，
1. 父子分段
2. 联合检索，要用 rerank 模型做检索

maoqiucute

2025 年 3 月 7 日

@xsen 请教一下，知识库文档都是按照什么样的格式维护的，就普通 markdown 吗？还是说要转换为 Q&A 形式的

xsen

2025 年 3 月 8 日

@maoqiucute 我们直接上传的是 word 文档，关键是分段配置，还有检索模型要用 rerank——嵌入模型效果还是不太好

wwcxjun

2025 年 3 月 8 日

试试 ragflow ？知识库效果应该比 dify 好。

maoqiucute

2025 年 3 月 10 日

@wwcxjun 目前尝试用了 dify 的父子分段，手动指定分段标识符有一些效果

maoqiucute

2025 年 3 月 10 日

@Goalonez 怎么样兄弟，有什么经验分享吗？

maoqiucute

2025 年 3 月 10 日

@zj27 有什么经验分享吗？

aaronlam

2025 年 4 月 9 日

楼主有相关的经验分享吗？最近刚好也在做这方面的工作。

XyIsMy

2025 年 4 月 14 日

@aaronlam +1 ，我也是，头太

cshaptx4869

2025 年 6 月 19 日

上排序模型效果会好一点

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1115570

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.