求助:大模型如何处理大量工单数据

112 天前
 KingCoding
本地部署的是 DeepSeek-R1-Qwen-32B ( 32B 满血),每月的工单数量也就 1 万条左右,要生成月报,月报中要统计热点集中诉求,热点集中诉求的判断标准是被诉主体和被诉内容要保证一致,前端只请求一次,传递查询参数,其他的都交给后端来处理啦
问题:循环把工单传递给大模型,每次传递 120 条工单,传递数据使用的格式是 MD ,预留模型的上次分析结果的 token 数,120 条应该是可以传递的最大 token 数,然后保存上次的分析结果带到下次分析,不断循环,由于还有其它业务在用模型算力,调用一次大模型返回结果需要 1 分钟左右,一万条数据跑下来需要 80 多分钟,需要的时间长也就算了,数据还不准确

采用的方案:
方案一:写完提示词和使用上面方法循环调,效果不好(打算把每次大模型反馈的结果进行压缩 token,再带到下一次的请求中)
方案二:对工单数据进行预处理,分析工单有一定的规律,进行筛选,然后截取 top3 ,然后再交给大模型去分析,只需要调用一次大模型,最终结果相对于方案一结果上确实有所提高,但还是不准确(打算使用 hanpl 对工单进行预处理,仔细想了想可能效果还是不太理想)(本来之前准备用 spark 进行预处理的,但是部署和维护问难,引入成本太高)

想请教各位大佬,对于模型调用这方面和提高准确度这方面有什么建议没?真是技穷啦
算力现阶段是没有提高的打算的
2619 次点击
所在节点    程序员
34 条回复
sentinelK
112 天前
我看楼主的需求场景,真正需要大模型能力的其实就只是“被诉主体和被诉内容要保证一致”,也就是借用于语义分析?
那完全没有必要使用大模型来进行统计。

难道这个工单是非格式化的(比如整个工单是一个文字叙述)?

非精确数据要求一个精确的结果这也不合理啊。
listen2wind
112 天前
我靠,甲方也要我们接入 DeepSeek 然后对工单进行总结。
z1829909
112 天前
如果大前提是一定要用大模型
不是特别明白为什么要批量请求,每个工单请求一次,做一些分析,分析结果做成结构化的数据保存起来。这样即使工单再多处理完也只是时间问题。不得不使用批量请求的原因是什么呢
crazychang
112 天前
"prompt": "分析工单,输出 JSON 格式,其中 is_consistent 判断标准:被诉主体和被诉内容是否匹配一致":
{
"ticket_id": "工单 ID",
"is_consistent": true/false,
"complaint_type": "收费争议/服务质量/虚假宣传/合同违约等"
}

我选择自费 671B......32B 输出感觉想约束其标准化输出有点难
cowcomic
112 天前
先用大模型对每条数据进行结构化或者分类
再在这个基础上用 BI 进行统计,或者封装成指标,前端直接调用
StarUDream
112 天前
上下文设置了多少,每次 120 条工单,还带着上次的结果。
KingCoding
112 天前
@sentinelK 每个工单就是数据库存储的一条用户反馈的问题,还要生成工作建议、总体情况还有敏感诉求和突发事件等,最终生成月报 word
encro
112 天前
多跑几次就可以了,
第一次跑出主要诉讼类别,
然后人工总结类别,
第二次跑让他按照你要求分类。
KingCoding
112 天前
@z1829909 由于算力限制和有其它业务也在调用大模型,不可能每个工单去调用一次,一次喂给大模型 120 条,1 万条左右的数据也需要 80 分钟,而且还是频繁调用大模型,对其他业务造成了影响,对数据做预筛选的原因就是尽可能少的去调用大模型
encro
112 天前
分类后,
然后总结变化,
然后让他根据变化再总结。
sentinelK
112 天前
@KingCoding 如果如此的话,万级 token 的上下文可能都不太够

每 120 条生成的“部分月报”和后面数据,并不是相同精度、相同层级的数据。这会导致误差累积和前后矛盾。而且你的误差累积是指数级别的。

所以我觉得有两条路来优化:

1 、要么像楼上说的,通过提示词建立一个评级标准,然后通过大模型对每条数据逐条分析,相当于对数据进行精简处理。然后最终靠大模型一次请求一万条数据获取结果。(前提是你的 token 数量得够)

2 、根据你 token 的大小限制,搞抽样。
qieqie
112 天前
找一个最小体积的模型比如 qwen 0.6B/ 1.7B ,拿你历史上跑过的数据微调一下
KingCoding
112 天前
hoythan
112 天前
随机从 1 万条抽 120 条出来总结,剩下的算运气不好。
zhifubao
112 天前
@hoythan 高手
Lambdua
112 天前
其实思路应该向上泛化一层。
将工单转为结构化的数据库表结构。然后针对表数据,使用大模型来进行数据分析和报表生成,这样可以降低幻觉和提高数据的准确性以及效率。

不过细节是魔鬼,我给你的思路肯定是可行的。
z1829909
112 天前
@KingCoding 用大模型跑数据反而是少量多次更好,相比较模型生成内容的时间,中间的网络消耗可以忽略不计。
影响模型算力的消耗最直接的因素是你上下文的长度,假设你 8k 的上下文能跑 50 并发,16k 上下文可能 20 都没有。之所以你需要等这么久也是因为上下文比较长。
另外我突然想到一件事,你们为啥要自己部署呢,打线上有些 mini 模型跑个 1w 条不要钱一样。
DefoliationM
112 天前
没法,大小就是有限制,建议不要考虑用来干这个。
qbuer
112 天前
数据不能出域么,1w 条也不多呀
YsHaNg
112 天前
你这个是上下文召回率问题 r1-672b 都不怎么样 32b 更别想了 fiction.live/stories/Fiction-liveBench-April-29-2025/oQdzQvKHw8JyXbN87

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1135123

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX