尝试梳理了从预训练到 RAG 的数据工程架构,希望大家指点技术栈是否有坑

11 小时 23 分钟前
 xuxin123122

大家好。

最近一段时间,发现一个痛点:网上的资料大都是教怎么微调、怎么写 Prompt ,但真到了一线,面对几十 TB 的预训练数据怎么清洗?多模态怎么对齐?怎么搭一个高可用的 RAG 数据流水线?网上的系统性实战资料极其匮乏,大家基本都在摸着石头过河。

为了打破这种“信息碎片化”,我和几个伙伴尝试把我们踩过的坑、摸索出的主流方案整理成了一本开源的《大模型数据工程》指南。

但毕竟我们的视野和应用场景有限,很多架构设计可能还不够成熟。所以特别发出来,希望能得到各位行业前辈和一线大佬的点评。

GitHub 地址: https://github.com/datascale-ai/data_engineering_book/

我们在项目中做了以下尝试,:

项目采用 MIT 协议,支持中英双语。

现阶段我们最渴望的是真实的反馈——无论是架构上的探讨、技术选型的建议,还是直接提 Issue 吐槽,对我们来说都非常宝贵。如果大家觉得这个方向是有价值的,顺手点个 Star ⭐️ 也是对我们极大的鼓励!感谢大家!

533 次点击
所在节点    程序员
5 条回复
lusi1990
5 小时 49 分钟前
感谢分享
BestPix
4 小时 42 分钟前
感谢分享!
Danswerme
3 小时 6 分钟前
感谢分享!
NoobNoob030
2 小时 38 分钟前
感谢分享
zyqbit
2 小时 36 分钟前
感谢分享!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1195600

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX