求助:大模型如何处理大量工单数据

114 天前
 KingCoding
本地部署的是 DeepSeek-R1-Qwen-32B ( 32B 满血),每月的工单数量也就 1 万条左右,要生成月报,月报中要统计热点集中诉求,热点集中诉求的判断标准是被诉主体和被诉内容要保证一致,前端只请求一次,传递查询参数,其他的都交给后端来处理啦
问题:循环把工单传递给大模型,每次传递 120 条工单,传递数据使用的格式是 MD ,预留模型的上次分析结果的 token 数,120 条应该是可以传递的最大 token 数,然后保存上次的分析结果带到下次分析,不断循环,由于还有其它业务在用模型算力,调用一次大模型返回结果需要 1 分钟左右,一万条数据跑下来需要 80 多分钟,需要的时间长也就算了,数据还不准确

采用的方案:
方案一:写完提示词和使用上面方法循环调,效果不好(打算把每次大模型反馈的结果进行压缩 token,再带到下一次的请求中)
方案二:对工单数据进行预处理,分析工单有一定的规律,进行筛选,然后截取 top3 ,然后再交给大模型去分析,只需要调用一次大模型,最终结果相对于方案一结果上确实有所提高,但还是不准确(打算使用 hanpl 对工单进行预处理,仔细想了想可能效果还是不太理想)(本来之前准备用 spark 进行预处理的,但是部署和维护问难,引入成本太高)

想请教各位大佬,对于模型调用这方面和提高准确度这方面有什么建议没?真是技穷啦
算力现阶段是没有提高的打算的
2621 次点击
所在节点    程序员
34 条回复
qbuer
114 天前
“热点集中诉求的判断标准是被诉主体和被诉内容要保证一致”,楼主意思是想对每类投诉做个计数吧。可以先划分投诉类别,让后用模型做个分类么
aminobody
114 天前
LLM 仅用来将非结构化数据进行结构化, 分析处理用其他工具实现. 最终写个 summary 也可以用 LLM.
KingCoding
113 天前
@z1829909 政务内网
KingCoding
113 天前
@qbuer 是的,主要是不知道如何划分,工单涵盖范围广泛,自定义划分规则肯定是不能覆盖完的
KingCoding
113 天前
@Lambdua 不错,我准备打标签,落库啦
conn457567
113 天前
R1 的模型本来就不擅长结构化输出,擅长解决需要深入思考的复杂问题。我记得官方也说过这一点。你这个只是简单的数据提取,换 V3 的模型试试
StarUDream
113 天前
我之前碰到过类似的问题,R1 要思考,在很多文本处理上 32B 的模型并不是很好用,偶尔还会出现无限思考的情况( think 内一直在重复同一段话),这种问题目前只在自己部署的 32B 模型上看到过。
要不试试 Qwen3-32B no_think ,有时候思考带来的确实会有副作用。

然后建议 prompt 让大模型返回 0-100 之间的数,然后定一个阈值,大于多少为满足要求。
shadowyw
113 天前
如果让我做的话:
1. 换 qwen3-32B (或者 qwen3-30B-A3B) 关闭思考模式,
2. 将工单原始内容通过消息队列依次提交给模型分析打标, 生成格式化数据写入数据库
3. 全部工单打标完成后, 模型用 MCP 连接数据库, 查询目标标记, 汇总分析
dualist
113 天前
这以前不是大数据干的吗 BI ES 栈就可以完成吧
rogerer
113 天前
没必要用推理模型,推理模型对不需要推理的场景,可能并不能比得过普通的模型。
KingCoding
113 天前
@shadowyw 产品已经上线,甲方要求要有思考过程
KingCoding
113 天前
@StarUDream 确实存在,我们是通过提示词不断优化去尽可能控制的
shadowyw
109 天前
@KingCoding 需要保留思考过程, 可以考虑换成新鲜出炉的 deepseek-r1-0528-qwen3-8b, 据说其能力与 Qwen3-235B-thinking 相当. 每次推理的过程也保存到数据库中当作分析日志
KingCoding
109 天前
@shadowyw 已经上线了,不好改了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1135123

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX