利用清华 ChatGLM 做了基于本地知识的问答应用

2023-04-06 08:33:48 +08:00
 littlepanda0716

💡 利用 langchain + ChatGLM-6B 开发了可以基于本地文件内容进行对话的应用,具体形式类似 chatpdf 等利用 chatgpt API 与文件对话的应用。

✅ 实现过程中 embedding 与 LLM 模型均使用开源 HuggingFace 模型,因此可在下载模型参数文件后进行离线部署。

🔗 项目地址:github.com/imClumsyPanda/langchain-ChatGLM

5573 次点击
所在节点    编程
19 条回复
perfectar
2023-04-06 08:45:51 +08:00
不错,顶一个!
magicalwz
2023-04-06 09:01:10 +08:00
感谢分享~
daddyLi
2023-04-06 09:03:00 +08:00
顶,已 star
hellojay
2023-04-06 09:06:31 +08:00
如果要本地跑起来这个 LLM ,大概需要的配置能说下吗
infinityv
2023-04-06 09:11:28 +08:00
是不是类似 gpt index
littlepanda0716
2023-04-06 09:38:13 +08:00
@infinityv 之前有考虑用 gpt index 做实现,但是后面发现 gpt index 不太灵活,就直接利用 langchain 做实现了,本质上类似于用 gpt index 做的应用。
littlepanda0716
2023-04-06 09:41:02 +08:00
@hellojay LLM 方面占用资源可以参考 ChatGLM 硬件需求: https://github.com/THUDM/ChatGLM-6B/blob/main/README.md#%E7%A1%AC%E4%BB%B6%E9%9C%80%E6%B1%82

embedding 模型在本项目中选用 GanymedeNil/text2vec-large-chinese ,在 GPU 上运行时约需要 3GB 显存,也可修改为 CPU 上运行或替换为其他 huggingface 中的 embedding 模型
elppa
2023-04-06 09:44:51 +08:00
不错,顶一个,电脑配置要求多少 ?
WEAlex
2023-04-06 10:55:18 +08:00
这个是可以训练本地专业方向知识的模型?没看到哪里可以学习本地知识的地方呢
uilvn
2023-04-06 12:59:55 +08:00
已 star
cwyalpha
2023-04-06 13:05:20 +08:00
是不是理论上 colab 也行
uilvn
2023-04-06 13:36:22 +08:00
@littlepanda0716 在 colab 上运行失败了,装载模型时内存容量超过 12G 被干掉了。有 colabPro 的兄弟可以试试
niuzhuang
2023-04-06 21:17:03 +08:00
👍 很棒,关注了
littlepanda0716
2023-04-07 00:02:47 +08:00
@WEAlex 不是再训练 是利用本地文档+embedding 构建索引,然后用问句语义到索引中匹配相近段落,再把段落作为上下文和问题一起提供给 llm
littlepanda0716
2023-04-07 00:05:12 +08:00
@elppa chatglm 硬件需求可参考 https://github.com/THUDM/ChatGLM-6B#%E7%A1%AC%E4%BB%B6%E9%9C%80%E6%B1%82

除此之外 embedding 如果也在 gpu 上运行也需要 3G 左右的显存
littlepanda0716
2023-04-07 00:07:01 +08:00
@uilvn @cwyalpha 可以参考 github.com/THUDM/ChatGLM-6B#%E7%A1%AC%E4%BB%B6%E9%9C%80%E6%B1%82 选择适合显存资源的模型,除此之外 embedding 模型目前选用占用 3G 显存的版本,可以替换为其他小模型。
littlepanda0716
2023-04-12 08:03:09 +08:00
本项目已于昨日增加 Web UI Demo 和多文件导入支持,欢迎大家持续关注😁

🔗 https://github.com/imClumsyPanda/langchain-ChatGLM
superbai
343 天前
歪个楼,请问 github readme 里的流程图是用什么画的呀🤣
kanchi240
320 天前

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/930123

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX