一个让 ChatGPT API “学习”超过 4096 tokens 上下文的思路

2023-03-03 09:59:01 +08:00
 chuangbo
想要将 ChatGPT 应用到某个领域,让它学习专有的上下文是必不可少的。例如,想让 OpenAI 成为智能客服,需要让它学习常见问题的回答。

然而,ChatGPT API 有一个限制,即一次只能处理 4096 个 tokens 的上下文。这意味着,在每一个对话中都无法将完整的上下文传递给 ChatGPT 。即使 4096 个 tokens 对于放置上下文来说足够,控制成本也是个问题。

下面介绍的一个开源项目,提供了一个思路。这个项目让 AI 学会了所有 Paul Graham 的文章内容,共计 605,870 个 tokens 。借助这个项目,你可以自由提问,进行自然回答。

这个项目的基本原理是,通过 Embedding 模型和数据库在大量物料中搜索可能与用户回答相关的段落,然后从这些段落中生成 prompt ,以便 ChatGPT 进行聊天式的回答。如果你对该项目感兴趣,可以在下面的链接中了解更多信息。

作者介绍项目的 tweet: https://twitter.com/mckaywrigley/status/1631328308116996097

项目地址: https://github.com/mckaywrigley/paul-graham-gpt
6661 次点击
所在节点    OpenAI
15 条回复
rajesh941
2023-03-03 10:14:57 +08:00
本地有 100 篇文章,能让它学习下吗?
chuangbo
2023-03-03 10:30:11 +08:00
@rajesh941 可以的,这个项目的思路相当于让 OpenAI “学习”了 60 万字的文章,成本只有 0.24 美元。
shuxiaokai
2023-03-03 11:49:56 +08:00
可以做智能客服,训练好数据集。
hanbing135
2023-03-03 11:59:38 +08:00
这个思路很猛啊
vToExer
2023-03-03 12:45:29 +08:00
这个思路看起来和 gptindex 相似,都是在外部存放一份数据供 chatgpt 读取使用,以突破 4096 的上下文限制
leimao
2023-03-03 12:53:24 +08:00
这个做法很早就有人做了,比如说 BERT 时期的 Universal Sentence Encoder ,可以用来做检索。
kongkongye
2023-03-03 13:23:16 +08:00
amazing!!!
rajesh941
2023-03-03 13:39:55 +08:00
@chuangbo 感觉挺适合给公务员用的
mrgeneral
2023-03-03 13:46:55 +08:00
ChatGPT 官方提供了这个解决方案的,我上周刚研究完,主要是数据安全不太好解决。

官方提供的思路是:通过关键词对物料进行关联度匹配(官方给的例子是余弦算法),选择关联度高的来做 prompt 。
chuangbo
2023-03-03 14:51:34 +08:00
mrgeneral
2023-03-03 17:39:13 +08:00
@chuangbo 是的
xiabill
2023-03-04 20:57:13 +08:00
这个有人在实践了嘛
wodema
2023-03-05 11:22:14 +08:00
@xiabill 这个 chatpdf.com 处理 PDF 文件的方式应该就是这样的
chuangbo
2023-03-05 12:21:17 +08:00
@wodema 感觉 ChatPDF 的功能,llama-index 已经实现了,包括提取 PDF 文字,创建索引和查询功能。
Ervin
2023-04-27 09:51:00 +08:00
embedding 模型有 8191 的 token 限制,我丢了一堆 pdf 进去,就报这个限制

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/920720

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX