📚 《大模型数据工程》指南：从预训练到 RAG 的完整数据流水线

大家好！

最近我和团队（datascale-ai）集中精力维护了一本关于大模型数据工程（ Data Engineering for LLMs ）的开源书。目前内容已经基本成型，这是我们近期开源输出的核心项目，特此分享给社区的小伙伴们。

现在行业内公认 "Data-centric AI" 是核心，但现实情况是网上的资料极其碎片化。

痛点：多数教程集中在调 API 或写 Prompt ，但一线开发者真正面对的是：如何清洗几十 TB 的预训练数据？多模态数据如何高效对齐？如何搭建一个稳定不翻车的 RAG 数据流水线？
初衷：我们发现系统性的实战资料极度稀缺，因此决定将实际工作中的经验和主流方案沉淀下来，帮助大家从“摸着石头过河”转向建立完整的底层逻辑。

项目遵循 “基础设施 -> 专项场景 -> 端到端实战” 的结构，拒绝“玩具框架”，直接对接企业级技术栈：

全书包含 5 个端到端的实战代码，可直接复用落地：

目前项目仍在不断完善中。如果你对 LLM 数据流水线感兴趣，或者正在进行大模型相关业务，非常欢迎来逛逛！

欢迎交流：请在 Repo 里提 Issue 或提交 PR 参与共建。如果觉得内容对你有帮助，求个 Star ⭐️ 支持，感谢大家！

[分享] 《LLM 数据工程》指南：从预训练到 RAG 的完整数据流水线（希望大佬指点）