开源了 Chatfiles，上传你的文件，然后与之对话！构建自己的语料库！

2023-04-06 09:28:11 +08:00

ligz

目前已实现的功能：

与 GPT-3.5 对话。
与你上传的文件对话。
文件支持 TXT,PDF,Epub...后续陆续加上更多支持。

目前还没有公开使用的网站，我怕我的账单爆掉。构建语料库比较消耗 token ，大家可以用 5M 以下的文档试试看。

所以需要大家本地启动，使用起来比较简单，下载仓库，然后修改环境变量，docker compose up 即可！！

目前项目还在初期，大家可以多多提提 bug 。项目地址： https://github.com/guangzhengli/ChatFiles

附：不要再聊鸭头的事了....

8371 次点击

所在节点

程序员

66 条回复

ligz

2023-04-06 11:23:51 +08:00

@Clash 这些后续都考虑支持

NicholasZhan

2023-04-06 12:10:56 +08:00

可以让 chatgpt 基于上传的内容进行二次创作吗？感觉现在基本都是问答的模式

cheng6563

2023-04-06 12:22:34 +08:00

请问语料库是什么？有什么资料参考吗？

justin2018

2023-04-06 12:28:37 +08:00

大佬请教下同一文档后期增加内容了是不是只用投喂新增的内容就行还是得重新在喂一次

ligz

2023-04-06 12:32:52 +08:00

@NicholasZhan 对，因为现在创建出来的 embeddings 还是差点意思，所以大多是问答模式，后续看看怎么优化。

ligz

2023-04-06 12:33:30 +08:00

@cheng6563 语料库就是你自己的材料，比如你上传一本书的内容，可以问 ChatGPT 这本书写了什么

ligz

2023-04-06 12:34:32 +08:00

@justin2018 还需要重新投喂，生成新的 embedding 。并且最好换个名字，因为现在是按照文件名创建的 embedding 。后续这个也可以优化。

metalvest

2023-04-06 12:37:06 +08:00

File: Error: PyPDF2 is required to read PDF files: `pip install PyPDF2`

metalvest

2023-04-06 12:48:50 +08:00

EPUB 也是要手动安装，是不是都加到 requirements.txt 里比较好？

ligz

2023-04-06 12:59:25 +08:00

@metalvest 不好意思，应该是我最后清理依赖的时候删掉了，已加。谢谢提醒🙏

zhengxiaowai

2023-04-06 13:21:58 +08:00

支持下代理呀！！！！！封号那么严重直接本地跑不是 gg 了

metalvest

2023-04-06 13:36:15 +08:00

最好加个界面能够加载和管理之前已经上传过的文档

aapeli

2023-04-06 13:42:13 +08:00

Can it support multiple OPENAIs_ API_ Load balancing between KEY?
能否支持在多个 OPENAI_API_KEY 之间负载均衡?

jZH

2023-04-06 14:16:46 +08:00

出错了~
[root@104 ChatFiles]# docker compose up
[+] Running 2/0
✔ Container chatfiles Created 0.0s
✔ Container chatfiles-ui Created 0.0s
Attaching to chatfiles, chatfiles-ui
chatfiles | exec /usr/local/bin/python3: exec format error
chatfiles exited with code 1
chatfiles-ui | exec /usr/local/bin/docker-entrypoint.sh: exec format error
chatfiles-ui exited with code 1

65r4Zgm364TDg652

2023-04-06 14:18:07 +08:00

其实要是这个能在群晖上跑个自己的小 chatgpt 豆号了，没事儿喂点资料给它慢慢吃，逐渐培训成自己的私人助理

beiwei2008

2023-04-06 16:15:53 +08:00

请教下，这个是什么原理？

looplj

2023-04-06 16:51:29 +08:00

效果咋样，有朋友试过这个思路，好像效果不行

cheng6563

2023-04-06 17:36:57 +08:00

> 语料库就是你自己的材料，比如你上传一本书的内容，可以问 ChatGPT 这本书写了什么

主要问题是 API 接口的 Tokens 不是只有 4097 个吗，直接发一个 PDF 过去肯定不够的吧。一直搞不懂这些分析大文件的场景是怎么完成的。

B1ock

2023-04-06 17:51:07 +08:00

@cheng6563 之前看到的思路：先把大文件分块做 embedding, 查询的时候本地会先在 embedding 向量数据库里检索，相关的分块内容再带到 GPT 的上下文里提问。

nyakoy

2023-04-06 18:01:42 +08:00

先 start ，公司有需求场景。

第 2 页／共 4 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/930140

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.