一个想法,使用大模型作为数据库的极简服务模型

213 天前
 meeop

使用大模型替代数据库,推荐算法,内容检索,等全部后端数据服务。

只有前端+支持各种业务接口数据查询的 promot

数据和状态变更喂给大模型,作为增量训练数据更新大模型来实现

目前技术条件下都能实现,目前瓶颈是数据写入延迟高

感觉这个方案可以使用极简的服务架构支持海量以及通用互联网应用,好像很有意思

3507 次点击
所在节点    奇思妙想
26 条回复
jejwe
213 天前
用 Gemini 200 万上下文?
看到这个我又想之想有人开发的项目,postgres 直接开发 web 程序,postgres 某个字段是 sqlite
cheng6563
213 天前
“增量训练数据更新大模型”,你猜训练一次要花多少钱
meeop
213 天前
和上下文无关,直接将增量用户数据作为训练内容,训练入大模型。

比如说各大模型模型训练数据都包含 github ,那么在这个架构下的 ai-githug 可能这么运作:
1 张三发布了一个代码库
2 大模型每天增量训练,收纳张三的代码库
3 用户搜索/查看/下载张三的代码库,提交 promot 类似(查询张三的代码库最新内容/检索关于张三的代码库),获取和查看代码库数据
meeop
213 天前
@cheng6563 这确实是个问题,但是看 deepseek 这趋势,成本和耗时降低到可以接受程度只是时间问题,而且可以打包多个应用训练啊,无所谓多少应用,成本都是一样的,大模型本来也要定期训练
paopjian
213 天前
大模型增量训练? 要能增量训练大模型不就成 超忆症 万能搜索工具了
sillydaddy
213 天前
“大模型替代数据库”,“目前技术条件下都能实现”
没有这回事吧。大模型跟数据库是两回事:大模型是不精确的,不能用来作为数据库。很简单就可以证明。假设大语言模型的参数是 6B 的,那么它所能存储的信息容量,最大也就是 6B ,超过了 6B 的信息肯定是无法存储到里面的。况且大模型也不像数据库一样能精确记住每个字段。

说到这儿,聊点有意思的。人脑的进化很能说明这个问题。人脑没有进化出像照相机那样的精确还原细节的能力,这应该是有理由的。能耗、存储量、性价比都决定了这一点。倒不是说神经网络做不到,我们偶尔能听到谁谁过目不忘,拥有闪存记忆的奇人异事,这说明神经网络其实是可以做到的,但是进化决定了不要它变成这样。
meeop
213 天前
@paopjian 现在的大模型就是万能搜索工具,各种知识库都是这么用的
meeop
213 天前
@sillydaddy 你说的没错,大模型有局限性
但是在大模型背景下的 app 会有新的定义和要求,也没必要和现有 app 能力对齐

比如你问大模型 xx 是什么,它回答虽然没有词典,专业教材定义精准,但是绝大多数场景也够用
比如我发了当前这篇帖子,然后使用模型查询回来,就算有误差,只要意思和内容大体正确,也不影响信息分发和别人阅读效果
marquina
213 天前
你把数据作为大模型的训练预料,只会模型的输出风格越来越接近数据。
而且你不可能生产一条数据就训练一次模型,总是要攒一批数据再训练。而这攒出来的数据放哪呢?还是得用数据库。有点脱裤子放屁的感觉了。
marquina
213 天前
@marquina #9 说得不够准确,我举个例子。
现有的数据库,存放的都是结构化的数据,比如{"name": "xxx", "age": 25},而大模型的输出是人类对齐的自然语言,将这种结构化的数据作为大模型的训练语,就会极大干扰大模型的输出:比如日常聊天场景突然给你蹦出来半段 json 。

当然你也可以说,将所有的数据都按照非结构化的自然语言处理,直接扔给大模型。如果是这样的话,就算不考虑大模型的幻觉问题,光自然语言和结构化数据之间的信息差就足够头疼了。
zjsxwc
213 天前
只有几百万字的窗口,你怎么做数据库啊
marquina
213 天前
meeop
213 天前
@marquina 按照模型的说法其实这些瓶颈完全能接受,比如咱现在的 v 站,一天的数据都不会有 1gb ,发帖后更新掩饰 1 分钟,页面加载时间 1000ms ,一天的模型成本小于$50,完全够用了

不过实践层面我还没试,阿里云千问是支持增量训练的,其他模型比如 deepseek 好像还没有封装好的服务
neteroster
213 天前
> 数据和状态变更喂给大模型,作为增量训练数据更新大模型来实现

持续学习某种程度上是机器学习和 LLM 领域的“圣杯”,目前研究距离这个目标还远的很。除去成本因素还有一些更本质的问题,例如[灾难性遗忘]( https://arxiv.org/abs/2308.08747)。

另外,目前的大模型没法直接从预训练文本泛化到各种任务,例如通用 QA 。例如你预训练代码库,不做其他处理的情况下模型根本没法回答/检索关于这个代码库的问题。这些都是要靠数据管线做的,甚至还需要很多“智能工人”。
shadowyue
213 天前
应该是你让大模型学习你业务的表结构,然后每次查询和更新,都让大模型按需求来生成 sql 语句。
这样你就有一个万能数据库层了。
8355
213 天前
按照你说的这样如果能实现,相当于解决了幻觉问题,对机器学习领域的影响力跟拿诺贝尔奖差不多吧。
毕竟数据本身是不能有错误的
givenge
213 天前
前端->大模型->数据库,去掉数据库还是不太现实
sampeng
212 天前
做不到同一个提示词返回结果是 100%一样,哪怕是 99.99999999999999999999999999999%都不行。。除非 100%。那倒是可能去掉数据库
meeop
212 天前
@sampeng 为啥不行啊,很多场景应该都可以吧

比如信息分发类网站,帖子内容只要意思对,有一些错别字和增删不影响阅读吧
搜索引擎类网站,只要查全率和查准率达标就行

规避掉涉及法律责任,金融的场景就行了
sampeng
212 天前
@meeop 你说的是替代亲,不要自己给自己叠甲,这没法聊了。我说的是不能接受的点,这是在产品里面几乎不可接受的,(研发:所以出 bug 了锅我背?)。所以就没人敢这样落地。全文搜索、数据库成本是一次性成本。真的,很多领导都是拍脑袋上 AI 。。。不是说没有,是成本和收益比其实非常非常差,刷 kpi 还行。做正常 to C 业务。原先的成熟技术成本已经非常低。

当然,自己做玩具没问题。比如做个记账系统。反正不影响别人,也不涉及钱。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1111112

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX