通过 dify 搭建了基于企业内部知识库的问答机器人,但是效果非常差

184 天前
 maoqiucute

模型直接用的是 deepseek 官方 api 。

嵌入式模型选择的是 bge-m3.

知识库维护了企业内部的一些业务文档,但是使用 dify 的分段效果很差。

请问各位优化的方向是什么?优质的知识库文档应该是什么样的格式?

公司有一台价值 50 万的机器可供使用,如果用内部文档去自己训练效果会比外挂知识库好吗?

2231 次点击
所在节点    Local LLM
15 条回复
tool2dx
184 天前
你这种需要微调模型的,dify 只能算是搜索引擎,提交时上下文限制挺大的,要让 AI 全部理解知识库,怕是很有点难度。

你不如用官方 deepseek 的文档上传功能,我用下来没啥问题,基本都能理解。
zhywang
184 天前
不建议微调模型,一般企业的知识库数据量太小,容易把模型微调残了
优化方向应该还是从 RAG 知识库入手,试试其他的工具
maoqiucute
184 天前
@zhywang 有其他工具推荐吗
Goalonez
184 天前
巧了,这两天接盘的活也是这个,甚至模型还是公司自己跑的 ds ,麻了。
zj27
183 天前
自己简单试过 anythingLLM ,可以回答出文档的内容,但是文档很小,模型是本地部署的最小的 1.5B 的 DeepSeeK ,仅供参考,公司内部也有这个 ai 知识库的需求,希望多多交流
xsen
180 天前
前阵子刚刚做过类似的,要调惨与测试,
1. 父子分段
2. 联合检索,要用 rerank 模型做检索
maoqiucute
180 天前
@xsen 请教一下,知识库文档都是按照什么样的格式维护的,就普通 markdown 吗?还是说要转换为 Q&A 形式的
xsen
179 天前
@maoqiucute 我们直接上传的是 word 文档,关键是分段配置,还有检索模型要用 rerank——嵌入模型效果还是不太好
wwcxjun
179 天前
试试 ragflow ?知识库效果应该比 dify 好。
maoqiucute
177 天前
@wwcxjun 目前尝试用了 dify 的父子分段,手动指定分段标识符 有一些效果
maoqiucute
177 天前
@Goalonez 怎么样兄弟,有什么经验分享吗?
maoqiucute
177 天前
@zj27 有什么经验分享吗?
aaronlam
147 天前
楼主有相关的经验分享吗?最近刚好也在做这方面的工作。
XyIsMy
142 天前
@aaronlam +1 ,我也是,头太
cshaptx4869
76 天前
上排序模型效果会好一点

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1115570

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX