开源了 Chatfiles,上传你的文件,然后与之对话!构建自己的语料库!

2023-04-06 09:28:11 +08:00
 ligz

目前已实现的功能:

目前还没有公开使用的网站,我怕我的账单爆掉。构建语料库比较消耗 token ,大家可以用 5M 以下的文档试试看。

所以需要大家本地启动,使用起来比较简单,下载仓库,然后修改环境变量,docker compose up 即可!!

目前项目还在初期,大家可以多多提提 bug 。项目地址: https://github.com/guangzhengli/ChatFiles

附:不要再聊鸭头的事了....

7303 次点击
所在节点    程序员
66 条回复
ligz
2023-04-06 11:23:51 +08:00
@Clash 这些后续都考虑支持
NicholasZhan
2023-04-06 12:10:56 +08:00
可以让 chatgpt 基于上传的内容进行二次创作吗?感觉现在基本都是问答的模式
cheng6563
2023-04-06 12:22:34 +08:00
请问语料库是什么?有什么资料参考吗?
justin2018
2023-04-06 12:28:37 +08:00
大佬 请教下 同一文档 后期增加内容了 是不是只用投喂新增的内容就行 还是得重新在喂一次
ligz
2023-04-06 12:32:52 +08:00
@NicholasZhan 对,因为现在创建出来的 embeddings 还是差点意思,所以大多是问答模式,后续看看怎么优化。
ligz
2023-04-06 12:33:30 +08:00
@cheng6563 语料库就是你自己的材料,比如你上传一本书的内容,可以问 ChatGPT 这本书写了什么
ligz
2023-04-06 12:34:32 +08:00
@justin2018 还需要重新投喂,生成新的 embedding 。并且最好换个名字,因为现在是按照文件名创建的 embedding 。后续这个也可以优化。
metalvest
2023-04-06 12:37:06 +08:00
File: Error: PyPDF2 is required to read PDF files: `pip install PyPDF2`
metalvest
2023-04-06 12:48:50 +08:00
EPUB 也是要手动安装,是不是都加到 requirements.txt 里比较好?
ligz
2023-04-06 12:59:25 +08:00
@metalvest 不好意思,应该是我最后清理依赖的时候删掉了,已加。谢谢提醒🙏
zhengxiaowai
2023-04-06 13:21:58 +08:00
支持下代理呀!!!!!封号那么严重直接本地跑不是 gg 了
metalvest
2023-04-06 13:36:15 +08:00
最好加个界面能够加载和管理之前已经上传过的文档
aapeli
2023-04-06 13:42:13 +08:00
Can it support multiple OPENAIs_ API_ Load balancing between KEY?
能否支持在多个 OPENAI_API_KEY 之间负载均衡?
jZH
2023-04-06 14:16:46 +08:00
出错了~
[root@104 ChatFiles]# docker compose up
[+] Running 2/0
✔ Container chatfiles Created 0.0s
✔ Container chatfiles-ui Created 0.0s
Attaching to chatfiles, chatfiles-ui
chatfiles | exec /usr/local/bin/python3: exec format error
chatfiles exited with code 1
chatfiles-ui | exec /usr/local/bin/docker-entrypoint.sh: exec format error
chatfiles-ui exited with code 1
huguadao
2023-04-06 14:18:07 +08:00
其实要是这个能在群晖上跑个自己的小 chatgpt 豆号了,没事儿喂点资料给它慢慢吃,逐渐培训成自己的私人助理
beiwei2008
2023-04-06 16:15:53 +08:00
请教下,这个是什么原理?
ZSeptember
2023-04-06 16:51:29 +08:00
效果咋样,有朋友试过这个思路,好像效果不行
cheng6563
2023-04-06 17:36:57 +08:00
> 语料库就是你自己的材料,比如你上传一本书的内容,可以问 ChatGPT 这本书写了什么

主要问题是 API 接口的 Tokens 不是只有 4097 个吗,直接发一个 PDF 过去肯定不够的吧。一直搞不懂这些分析大文件的场景是怎么完成的。
B1ock
2023-04-06 17:51:07 +08:00
@cheng6563 之前看到的思路:先把大文件分块做 embedding, 查询的时候本地会先在 embedding 向量数据库里检索,相关的分块内容再带到 GPT 的上下文里提问。
nyakoy
2023-04-06 18:01:42 +08:00
先 start ,公司有需求场景。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/930140

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX