一个让 ChatGPT API “学习”超过 4096 tokens 上下文的思路

想要将 ChatGPT 应用到某个领域，让它学习专有的上下文是必不可少的。例如，想让 OpenAI 成为智能客服，需要让它学习常见问题的回答。

然而，ChatGPT API 有一个限制，即一次只能处理 4096 个 tokens 的上下文。这意味着，在每一个对话中都无法将完整的上下文传递给 ChatGPT 。即使 4096 个 tokens 对于放置上下文来说足够，控制成本也是个问题。

下面介绍的一个开源项目，提供了一个思路。这个项目让 AI 学会了所有 Paul Graham 的文章内容，共计 605,870 个 tokens 。借助这个项目，你可以自由提问，进行自然回答。

这个项目的基本原理是，通过 Embedding 模型和数据库在大量物料中搜索可能与用户回答相关的段落，然后从这些段落中生成 prompt ，以便 ChatGPT 进行聊天式的回答。如果你对该项目感兴趣，可以在下面的链接中了解更多信息。

作者介绍项目的 tweet： https://twitter.com/mckaywrigley/status/1631328308116996097

项目地址： https://github.com/mckaywrigley/paul-graham-gpt

mrgeneral

2023 年 3 月 3 日

ChatGPT 官方提供了这个解决方案的，我上周刚研究完，主要是数据安全不太好解决。

官方提供的思路是：通过关键词对物料进行关联度匹配（官方给的例子是余弦算法），选择关联度高的来做 prompt 。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/920720

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.