我做了一个 AI 辅助小说阅读系统,可以从 1000 万字里推理出跨越全书的身世谜题

4 月 30 日
 lerry

《医道官途》,1296 章,1000 万字。我问 AI:乔梦媛的亲生父亲究竟是谁?说说前因后果。书里从来没有直接说过答案。AI 自己搜原文、追线索、识破了一个贯穿全书的误导,最后推理出来了。整个过程大概两分钟。

没有任何一段原文直接说出这个答案。AI 是从四个跨度超过 200 章的片段里拼出来的。


为什么两年前做不到

大概两年前我做过一个小说 RAG 系统,当时效果很差。旧文在这里:小说 RAG 问答系统实现

两个问题:

一是 RAG 的核心问题是召回不准。语义相似不等于信息相关。

二是当时的模型推理能力不够,拿到片段很容易被误导或者就此打住。

这次重新做,用的是全文检索,精准命中加上下文。搜到一个片段,AI 能顺着线索继续搜下一个,推理链自然就串起来了。


系统是什么

本质上是一组围绕 EPUB 的 CRUD API ,但核心是搜索。找书、读目录、按章节取内容、全文搜索(支持精确短语/智能模糊)、按段落取上下文、记 memory 。

这套东西和我别的代码耦合比较深,不太方便直接开源,所以干脆把提示词整理出来单独开源了。感兴趣的话,可以让自己的 agent 照着在自己的项目里生成一套:books-insight


想自己试试的

书库里有《三体》,可以直接跑:

你现在可以访问一个 EPUB 书库 API: https://nbme.top/api/books_api
先 GET 该地址查看可用方法,然后完成以下任务:

找到三体这本书,回答罗辑的咒语到底是什么?他是怎么想到的?
书里没有直接说,请通过搜索原文,自己推理出答案。
顺便告诉我这套系统能做什么。

请直接开始,不用问我。

需要支持联网和脚本执行的 Claude 或 ChatGPT agent 。


这次能做成,一半靠工程,另一半是因为这一代模型的理解能力确实比两年前强太多了。

953 次点击
所在节点    分享创造
2 条回复
zq11211277
4 月 30 日
那么乔梦媛的亲生父亲究竟是谁呢
lerry
4 月 30 日
@zq11211277
其实是薛世纶,萧国成设计的,为了侮辱乔家。

让 AI 直接读 1000w 字,现在根本不现实,我现在把各种东西都 api 化,AI 可以直接操作。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1209566

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX