本地 GPT,开发实现本地文档库的自动学习和类 CHATGPT 回答

2023-05-01 18:24:44 +08:00
 ljlljl0
现在的 CHATGPT 更多是在线学习和解答,但我想也会有一部分人希望能实现本地化的效果。

设想实现功能:
1 、产品可支持离线化(训练可在云上),考虑到本地文档内容相对互联网信息是非常少的,训练所需要资源也更少,但是需要解答更精确。
2 、可对设定的文件夹内进行内容自动学习,支持多种格式,如 word 、excel 、ppt 、以及文档内容路径、的学习,对于图片和视频我觉得目前不大可能有产品实现就先忽略。
3 、满足日常打工人的快速信息汇总、资料查询、内容输出。

产品定位:
本地资料库的处理

类似产品:
也看到一些可以提交文档实现,效果不是很好。距离本地资料库的全部内容学习还是差别比较大。

希望以后出现离线的 chatgpt 产品.
1540 次点击
所在节点    问与答
9 条回复
szxczyc
2023-05-01 19:45:52 +08:00
我也想实现这个功能,但是不想把数据放到网上,太敏感了
Aloento
2023-05-01 20:23:59 +08:00
neosfung
2023-05-01 23:30:25 +08:00
好巧,我最近基于清华的 chatglm 在做
likunyan
2023-05-01 23:41:30 +08:00
看都看不懂,等日后再说吧
xupefei
2023-05-02 03:49:16 +08:00
ljlljl0
2023-05-02 10:03:49 +08:00
@Aloento @xupefei 两位的虽然看不太懂,但是接近了,只不过还没有很好的贴近普通人使用,还需要企业级显卡来处理。
ljlljl0
2023-05-02 10:04:56 +08:00
@neosfung 看到有通过 chatlm 实现的,使用难度还是有的,还没有做到类似网盘这种,即拖即用的层度。
t41372
2023-05-02 10:47:58 +08:00
看不是很懂, 不过我知道有不少开源的语言模型, 像是上面有人提到的 OpenAssistant, chatGLM, dolly2, 以及 alpaca 模型和多模态的 miniGPT 。另外许多这些模型是基于 llama 模型进行调整的。我知道 llama.cpp 已经可以用 cpu 运算, 起码我的 m1 用 cpu 跑也很流畅, 好像也有人移植到手机上跑。其他模型我想可能还需要一点时间。感觉如果要学习资料夹中的本地数据, 感觉会用 fine-tuning, 也可以就直接把这些文档转换成文字, 然后再丢进 prompt 里面。我最近在看 langchain, 或许这玩意儿也会对你有帮助
ljlljl0
2023-05-02 12:48:27 +08:00
@t41372 嗯嗯,谢谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/936745

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX