llm 训练最 dirty work 的就是数据处理!

1 天前
 jununhsu

大堆的文件解析、无用数据的过滤等等。。。。。。。。 还有更繁琐的吗,说出来让我平衡平衡

586 次点击
所在节点    问与答
6 条回复
jifengg
1 天前
ai help ai

让 ai 帮你干活
LifeDesigner
1 天前
有多少人工,就有多智能
woctordho
1 天前
别急,等你处理完数据开始训练就要对付梯度爆炸了
freevioce
1 天前
大模型微调吗 我现在找不到场景(微调>> RAG+提示词)
1. 在模型底座不强的时候 微调>> RAG+提示词 如果模型底座比较强,这个差距就不明显,因为微调的场景就是模型+提示词+RAG+MCP 不好用,现在大模型这么强,微调的投入回报率不高了
2. 微调除了私有化+特定场景拔高(速度、省 token )还有其他场景吗
你们是什么场景需要微调
paopjian
1 天前
这就是为啥数据标注公司都能拿到好几亿融资, 都有人直接去 meta 当领导了, 数据比架构还重要了
CaptainD
1 天前
是的,我就在做这种脏活,感觉是 DS 们的保姆

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1196092

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX