基于 LangChain 的开源 GPT 向量 + 知识数据库,帮助个人或企业实现自己的专属 AI 问答助手

2024-03-11 10:32:55 +08:00
 veotax

Casibase ( https://github.com/casibase/casibase )是一套开源的基于 Web 的 AI 知识数据库,适合个人或者组织作为自己的专属内部 AI 知识库来使用。GitHub 已达到 1600+ stars ,欢迎体验~

主要功能如下:

在线体验:

源码:

社区反馈:

124543 次点击
所在节点    分享创造
126 条回复
unco020511
2024-08-13 15:35:12 +08:00
@ddddd0 #29 试用了下,确实产品做的不错啊,完成度很高.如果能开放用自己的 apikey 和模型就更好了,目前检索和生成的能力似乎还有待加强,但产品流程和设计是没问题的
janda
2024-08-29 09:32:58 +08:00
问下佬你们这向量数据库用的哪个、主要是文本处理吗?索引类型和参数用的什么,Embedding 和 rerank 可选吗?
willzzz
2024-09-03 09:55:46 +08:00
后台登不进
wangxiaoer
2024-09-23 06:50:20 +08:00
@veotax 请教下,pg 的向量数据库支持中文的分词和全文检索吗
veotax
2024-09-25 15:05:07 +08:00
@janda 向量数据库目前就用的 mysql 这种普通数据库

@wangxiaoer 支持中文分词和全文检索,中英都支持
jackerbauer
2024-09-30 15:24:34 +08:00
@veotax #60 怎么个先进法?
manhere
2024-10-08 14:50:17 +08:00
milvus 随便搞搞就有了,RAG 赛道确实是烂大街了。。。
xiaoz
2024-10-21 15:15:41 +08:00
使用 SQLite3 作为数据库,数据库文件要提前创建吗?用 docker 安装,并用 SQLite3 作为数据库,可有配置案列,自己挂载数据库目录无法启动。
follow
2024-10-22 09:35:44 +08:00
和 fastgpt 比,有何特色?
sukidesuka
2024-10-22 10:43:54 +08:00
我做过半年,纯余弦效果十分差,特别是搜索没有语义的 UUID 、故障码,几乎搜索不到。要配合多种方法搜索再整合回答,这方面我还申请了专利
yusf
341 天前
我很好奇,为什么我每天都能刷到这个老帖子
fy
326 天前
@zdw189803631 根据名字来说的话 怕不是 casbin 同款推广策略,那个也经常刷到,几年了
veotax
250 天前
@unco020511 提供商菜单里可设置自己的模型和 API key ,RAG 算法近期还在优化中,感谢建议~
veotax
250 天前
@xiaoz 目前还需要提前创建好 sqlite 数据库文件,后期会优化,感谢建议~

@follow 和 FastGPT 相比,Casibase 的后台管理能力更强大一些
dzdh
247 天前
市面上的所有通用化解决方案都大同小异,效果也都大差不差,要有的问题,大家都有,没有的功能大家也都没有。这是为啥呢。

谁能一句话总结 rag 的底层逻辑呢。
npe
247 天前
根据我短期的学习经验,RAG 想要做好很难,要做复杂文档的识别和向量化很难的,另外还要做长上下文记忆,等等。 最终还是要自己训练模型和微调的。
blushyes
247 天前
@dzdh 最近稍微了解了一下,我理解它大概就是把知识库里的文档都向量化,再把用户的问题向量化,然后通过用户的问题的向量去通过各种相似算法去检索匹配知识库里的向量,拿到之后再转回文本,然后跟用户问题的原文本一起拼接 Prompt 扔给大模型,让大模型通过这些文档片段,根据用户问题总结一个回答。
dzdh
246 天前
@blushyes #97 所以这个东西本身就是换汤不换药。仅仅通过大家都知道的东西,毫无竞争力。除非有人说,敢担保知识库里的数据理解和用户问题语义高度契合。要不然就是一个智障。
terranboy
243 天前
几乎试了了市面上全部的 RAG 解决方案, 包括 graphyRAG, KAG, 比较满意的就 RAGFLOW 强一点, 其他的准确率都不高, 实在搞不懂,全部专注在开发各种应用的平台, 最基本的 RAG 都很烂, 根本不准, 也就是数据不准 ,去做应用有啥用
SimonZhong
240 天前
@terranboy +1 这几天做企业内部的知识库技术调研,用了 AnythingLLM ,Dify ,RAGFlow ,确实就 RAGFlow 强一点,但复杂文档在知识库里面数量一多,就不行了,向量化太碎了。甚至还试了 Text 2 SQL 这条路子,也不行。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1022439

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX