全文检索+AI 的疑惑

210 天前
 a526796017
最近在调研全文检索和 AI 如何进行结合,
目前只是用过市面上的 AI 模型,没有深入了解过,请教下各位懂行的大佬
目前的场景:
目前有一亿辆车,不同车牌,不同品牌,不同颜色,不同车型
现有实现逻辑:
通过代码进行采集车辆数据,然后录入 elasticsearch 引擎中,然后进行组合查询
如果引入 AI 的话,能否做到,通过对话的方式将需要过滤的车子信息获取到,
例如:
问 AI:给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息,并通过 excel 导出
然后 AI 将数据搜索后进行导出

疑惑:
1 、现在有没有这种 AI 模型?
2 、如果没有这种 AI 模型,那么有没有办法自己训练出来?
3 、自己训练的话有没有什么业内可行的方案?
4020 次点击
所在节点    程序员
31 条回复
cheng6563
210 天前
你可以让 LLM 优化搜索关键字
lekai63
209 天前
你把数据库字段给 ai 让 ai 生成 sql 通过 functioncall 取数返回
a526796017
209 天前
@cheng6563 这样训练的模型回答的会不会出现不准确的数据?
@lekai63 就是底层还是通过 SQL ?有没有将这些数据直接训练到模型的方式?
iyiluo
209 天前
已经有了,ERP 行业很多企业在做这一块,原理大概是通过大模型 function call 去调用 elasticsearch 接口,返回结构化数据
zonde306
209 天前
随便选个智商在线的 LLM 就行,不需要特定模型,除非需要用图片来搜索才需要多模态的
这种一般用 Agent 实现,向 LLM 提问,然后 LLM 调用工具,查询数据库,再让 Agent 执行查询生成表格文件
iyiluo
209 天前
我猜你是想让 AI 直接输出搜索结果,这是不可能实现的,现在的大模型只存储了一堆权重的数字,他的输出是根据概率,随便找找一篇大模型原理讲解看看就知道了
bixinhaner
209 天前
"给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息",感觉这个需求是 AI+SQL 的场景?让 LLM 根据语言要求生成 sql ,再访问数据库查询出来准确信息
a526796017
209 天前
@iyiluo 懂了,就是大量的数据查询最终到底层还是得用数据库这类工具才能进行处理,看来目前还没有符合我需求的 AI 产品
KingHL
209 天前
纯 AI 不能做到对长尾记忆的准确性,无法精确搜索,我理解你这个合理的是让 ai 辅助做查询转换,最终查询数据还是在 es 中。或者可以试下 RAG 方案
ChoateYao
209 天前
这是 知识库 的功能,将你的数据向量化,提问的时候先搜索你的数据,在将你的数据喂给 Ai ,让 Ai 重新总结并输出。
CodeAllen
209 天前
AI 是黑盒系统,不稳定的系统,数据分析,尤其是需求明确的分析,是通过 AI 构建稳定的脚本或者后台服务进行准确的数据查询拿到确定的结果,而不是让 AI 在记忆中自己查询,AI 本身的幻觉问题就没法解决,类比人类就是认知偏差或者需求理解偏差,人都会记错或者理解错哪怕 AI 呢。
AI 、服务、数据,这三个本来就是独立的,各自迭代升级。
mightybruce
209 天前
你这个属于多模态大模型交互,不存在直接就能用的模型,一定是要和你的系统本身写好的 API 接口交互的,
你的想法错误,那么现在有没有类似的交互模型例子,是有的,比如 openai 出的 operator, 国内智谱的 glm-pc, 你训练就不要想了,你自己做不到的,基于国内 cogagent 的几个小模型 做一些 GUI 界面交互 是可行的,不过你先多研究研究吧。
312ybj
209 天前
通过指令模型,将你输入的“给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息” 推理出特定的槽位信息:省份 颜色 品牌 , 在得到信息去数据库检索, 能做的就是收集指令数据,进行训练,然后进行 case 回归
mightybruce
209 天前
前面的多数人的回答基本都是答复所问, 有能力开发的用 cogagent , 没能力的问问 glm-pc 合作。
annilq
209 天前
应该是可以的,而且现在大模型都有 Tool Call 功能,也有些 text-to-sql 模型
或者也可以看看 claude 出的 mcp 协议例子,可以直连 sql 的,但是查出的数据的准确性和提示词关系很大
hss01248
209 天前
你就说快不快吧....
hss01248
209 天前
@hss01248 回复错帖子了...
JoJoWuBeHumble
209 天前
@a526796017 因为你对数据要求百分百准确,function call 反而是靠谱的方式。
fano
209 天前
你需要调用大模型构建 Agent ,dify.ai 等工具就是满足这类需求的。
自然语言的问题提交给 AI ,AI 理解后返回调用 ES API 的参数,本地程序执行,获得执行结果。
可以参考 Google 的 Agent 白皮书。

https://ppc.land/content/files/2025/01/Newwhitepaper_Agents2.pdf
Haku
209 天前
不要通过 AI 进行这种需要准确数据统计的活。
你可以让 AI 通过写代码的方式去查询你需要的条件。哪怕不写 SQL ,直接写 python 、c++、java 然后运行去查都比让他全文检索靠谱。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1110628

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX