尝试梳理了从预训练到 RAG 的数据工程架构，希望大家指点技术栈是否有坑

大家好。

最近一段时间，发现一个痛点：网上的资料大都是教怎么微调、怎么写 Prompt ，但真到了一线，面对几十 TB 的预训练数据怎么清洗？多模态怎么对齐？怎么搭一个高可用的 RAG 数据流水线？网上的系统性实战资料极其匮乏，大家基本都在摸着石头过河。

为了打破这种“信息碎片化”，我和几个伙伴尝试把我们踩过的坑、摸索出的主流方案整理成了一本开源的《大模型数据工程》指南。

但毕竟我们的视野和应用场景有限，很多架构设计可能还不够成熟。所以特别发出来，希望能得到各位行业前辈和一线大佬的点评。

GitHub 地址： https://github.com/datascale-ai/data_engineering_book/

我们在项目中做了以下尝试，：

技术栈选型： 我们选择了 Ray Data 、Spark 和 WebDataset 做分布式处理和存储。想请教下真正处理 PB 级数据的大佬，这套组合在当前的一线业务中还有哪些深坑？有更推荐的现代替代方案吗？
场景覆盖是否有遗漏： 目前我们的内容梳理了四大块：文本预训练数据清洗、多模态处理（图文/音视频）、对齐与合成数据（ SFT ）、以及应用级 RAG 。这套流水线在大家的实际业务中，还缺失了哪块关键拼图？

项目采用 MIT 协议，支持中英双语。

现阶段我们最渴望的是真实的反馈——无论是架构上的探讨、技术选型的建议，还是直接提 Issue 吐槽，对我们来说都非常宝贵。如果大家觉得这个方向是有价值的，顺手点个 Star ⭐️ 也是对我们极大的鼓励！感谢大家！