请教知识库搭建

2025 年 2 月 18 日
 blackbookbj277

最近 DS 火了,领导说本地化部署一个,把单位的相关文档、材料、制度、规则等各类乱七八糟的材料吧,都放上去,然后让大模型学习,通过问答来应用。 我大概了解了下,这种应该训练大模型的方式,只是应用大模型吧。 我下载的 DS 部署的离线版本,搭建的知识库也只是对上传文档内容的分析,大模型无法通过我提供的数据分析给适合我们的答案吧。 语言组织有点混乱,见谅。

3199 次点击
所在节点    问与答
11 条回复
lzoje
2025 年 2 月 18 日
RAG 知识库
murmur
2025 年 2 月 18 日
正规的知识库要拆段的,拆的越细越好,问题 答案 问题 答案这样,如果让 AI 去理解效果不好
lthon
2025 年 2 月 18 日
搜索一下 RAG 了解下
ihainan
2025 年 2 月 18 日
你可以拿一个现成的 RAG 框架,比如 Dify 、RAGFlow 搭建一套 RAG 系统,把你的数据传上去建立知识库,设置 LLM 、Embedding 和 Rerank 模型的地址,用提供的 RAG 工作流模板快速搭建,试试看效果如何,有更高的要求再考虑修改工作流或者自己开发。
mumbler
2025 年 2 月 18 日
deepseek.flashai.com.cn
在这里直接下载一个包,解压,运行就可以在本地自动部署大模型+知识库,不需要任何配置

mark.flashai.com.cn
测测一下你的电脑能跑什么大模型
uprit
2025 年 2 月 19 日
大多数领导想要的:资料扔给大模型让他学,然后多了个内部专家给你们用。
一般人实际能实现的:检索资料库,检索结果追加到提示词里,一起扔给大模型。
前者实际操作需要微调训练,成本巨高,技术难度也大,最终效果不一定好。对的数据集要求很高。
后者实际是个退而求其次的思路,搞 RAG ,成本低,容易操作,但实际并没改变大模型原本的性能,每次都得引用,而且没“记忆”,同时搞这个事情对资料库的整理要求极高,实际性能也不咋地,大概率搞了之后效果稀烂。
结论:别对 AI 期望过高。
lyping
2025 年 2 月 19 日
@uprit 如果是一些标准文件,国家标准,里面有各种条款。。这种用什么方案比较好呢
halobugTurbo
2025 年 2 月 19 日
别期望太高了。前段时间有个类似需求,数据比较杂有文本,图片,PDF ,视频等。数据清洗后,永远达不到领导预期的,说的最多的问题:回答的内容为什么不准?为什么不全?这个问题回答应该包含某个内容!
uprit
2025 年 2 月 19 日
@lyping 如 2L 所说,拆成问答对,越细越好。这个工作量很庞大。
RAG 的效果依赖于检索,如果每次都能检索出少量且精准的内容,一起提供给模型参考,效果会好一些。
supuwoerc
2025 年 2 月 19 日
dify 差不多就满足了
registerrr
2025 年 2 月 24 日
@uprit #9 这不就真成“人工”智能了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1112354

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX