基于 LangChain 的开源 GPT 向量 + 知识数据库，帮助个人或企业实现自己的专属 AI 问答助手

2024-03-11 10:32:55 +08:00

veotax

Casibase （ https://github.com/casibase/casibase ）是一套开源的基于 Web 的 AI 知识数据库，适合个人或者组织作为自己的专属内部 AI 知识库来使用。GitHub 已达到 1600+ stars ，欢迎体验~

主要功能如下：

支持 OpenAI GPT-4 模型、GPT Vision 图片解析、DALL-E 画图等功能；
支持最新的 Claude 3 Opus 、Sonnet 等模型，超越 GPT-4 ；
国际模型支持：Azure OpenAI 、Google Gemini Pro 、HuggingFace 、Cohere 等；
国内模型支持：文心一言、通义千问、ChatGLM 、Minimax 、讯飞星火等；
支持多种 Embedding 嵌入 API 接口，如 OpenAI V3, Ada V2, 百度文心一言等；
支持多种通用文档格式：TXT, Markdown, Docx, PDF 等，支持 PDF 文件智能解析；
支持以会话或消息为单位，计算所有大模型 API 的 Token 数和价格（美元或人民币），方便管理员进行 API 成本统计；
支持 AI 小助手通过右下角弹框嵌入到应用网站，进行在线实时聊天，支持聊天会话人工接入；
知识库文档存储支持本地存储，或云端存储（阿里云 OSS 、Amazon S3 、群晖 NAS 等几乎所有主流云存储都有支持）；
支持多用户、多租户，支持管理员进行用户管理、角色管理、权限管理，既适合个人使用，也适合组织使用；
支持 QQ 、微信、企业微信、钉钉、Google 、GitHub 等多种第三方登录，支持短信登录、邮箱验证码登录登；
支持谷歌 reCAPTCHA 、hCaptcha 、阿里云、GEETEST 极验、Cloudflare Turnstile 等多种人机验证方式，专业防盗刷；
聊天会话云端存储，所有设备实时消息同步，随时可查看，不会丢失；
支持中文、英文等在内的十几种界面语言。

在线体验：

机器人聊天（前台）： https://demo.casibase.com/
后台管理（后台）： https://demo-admin.casibase.com/

源码：

GitHub： https://github.com/casibase/casibase
官网文档： https://casibase.org

社区反馈：

Discord: https://discord.gg/devUNrWXrh
QQ 群：963536134

124543 次点击

所在节点

126 条回复

unco020511

2024-08-13 15:35:12 +08:00

@ddddd0 #29 试用了下,确实产品做的不错啊,完成度很高.如果能开放用自己的 apikey 和模型就更好了,目前检索和生成的能力似乎还有待加强,但产品流程和设计是没问题的

janda

2024-08-29 09:32:58 +08:00

问下佬你们这向量数据库用的哪个、主要是文本处理吗？索引类型和参数用的什么，Embedding 和 rerank 可选吗？

willzzz

2024-09-03 09:55:46 +08:00

后台登不进

wangxiaoer

2024-09-23 06:50:20 +08:00

@veotax 请教下，pg 的向量数据库支持中文的分词和全文检索吗

veotax

2024-09-25 15:05:07 +08:00

@janda 向量数据库目前就用的 mysql 这种普通数据库

@wangxiaoer 支持中文分词和全文检索，中英都支持

jackerbauer

2024-09-30 15:24:34 +08:00

@veotax #60 怎么个先进法？

manhere

2024-10-08 14:50:17 +08:00

milvus 随便搞搞就有了，RAG 赛道确实是烂大街了。。。

xiaoz

2024-10-21 15:15:41 +08:00

使用 SQLite3 作为数据库，数据库文件要提前创建吗？用 docker 安装，并用 SQLite3 作为数据库，可有配置案列，自己挂载数据库目录无法启动。

follow

2024-10-22 09:35:44 +08:00

和 fastgpt 比，有何特色？

sukidesuka

2024-10-22 10:43:54 +08:00

我做过半年，纯余弦效果十分差，特别是搜索没有语义的 UUID 、故障码，几乎搜索不到。要配合多种方法搜索再整合回答，这方面我还申请了专利

yusf

341 天前

我很好奇，为什么我每天都能刷到这个老帖子

fy

326 天前

@zdw189803631 根据名字来说的话怕不是 casbin 同款推广策略，那个也经常刷到，几年了

veotax

250 天前

@unco020511 提供商菜单里可设置自己的模型和 API key ，RAG 算法近期还在优化中，感谢建议~

veotax

250 天前

@xiaoz 目前还需要提前创建好 sqlite 数据库文件，后期会优化，感谢建议~

@follow 和 FastGPT 相比，Casibase 的后台管理能力更强大一些

dzdh

247 天前

市面上的所有通用化解决方案都大同小异，效果也都大差不差，要有的问题，大家都有，没有的功能大家也都没有。这是为啥呢。

谁能一句话总结 rag 的底层逻辑呢。

npe

247 天前

根据我短期的学习经验，RAG 想要做好很难，要做复杂文档的识别和向量化很难的，另外还要做长上下文记忆，等等。最终还是要自己训练模型和微调的。

blushyes

247 天前

@dzdh 最近稍微了解了一下，我理解它大概就是把知识库里的文档都向量化，再把用户的问题向量化，然后通过用户的问题的向量去通过各种相似算法去检索匹配知识库里的向量，拿到之后再转回文本，然后跟用户问题的原文本一起拼接 Prompt 扔给大模型，让大模型通过这些文档片段，根据用户问题总结一个回答。

dzdh

246 天前

@blushyes #97 所以这个东西本身就是换汤不换药。仅仅通过大家都知道的东西，毫无竞争力。除非有人说，敢担保知识库里的数据理解和用户问题语义高度契合。要不然就是一个智障。

terranboy

243 天前

几乎试了了市面上全部的 RAG 解决方案，包括 graphyRAG, KAG, 比较满意的就 RAGFLOW 强一点，其他的准确率都不高，实在搞不懂，全部专注在开发各种应用的平台，最基本的 RAG 都很烂，根本不准，也就是数据不准，去做应用有啥用

SimonZhong

240 天前

@terranboy +1 这几天做企业内部的知识库技术调研，用了 AnythingLLM ，Dify ，RAGFlow ，确实就 RAGFlow 强一点，但复杂文档在知识库里面数量一多，就不行了，向量化太碎了。甚至还试了 Text 2 SQL 这条路子，也不行。

第 5 页／共 7 页

上一页下一页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1022439

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX