[分享] 《LLM 数据工程》指南:从预训练到 RAG 的完整数据流水线(希望大佬指点)

3 月 16 日
 xuxin123122

📚 《大模型数据工程》指南:从预训练到 RAG 的完整数据流水线

大家好!

最近我和团队(datascale-ai)集中精力维护了一本关于大模型数据工程( Data Engineering for LLMs )的开源书。目前内容已经基本成型,这是我们近期开源输出的核心项目,特此分享给社区的小伙伴们。


💡 为什么要做这个项目?

现在行业内公认 "Data-centric AI" 是核心,但现实情况是网上的资料极其碎片化。


📖 本书核心内容

项目遵循 “基础设施 -> 专项场景 -> 端到端实战” 的结构,拒绝“玩具框架”,直接对接企业级技术栈:

🛠 企业级技术栈

🎯 四大核心场景全覆盖

  1. 文本预训练数据工程:采集、清洗、去重。
  2. 多模态数据工程:图文对、重描述、音视频处理。
  3. 对齐与合成数据:指令微调( SFT )、偏好数据构建。
  4. 应用级流水线:文本 RAG 与多模态 RAG 。

💻 5 个直接可跑的实战项目

全书包含 5 个端到端的实战代码,可直接复用落地:


🤝 写在最后

目前项目仍在不断完善中。如果你对 LLM 数据流水线感兴趣,或者正在进行大模型相关业务,非常欢迎来逛逛!

欢迎交流:请在 Repo 里提 Issue 或提交 PR 参与共建。如果觉得内容对你有帮助,求个 Star ⭐️ 支持,感谢大家!

828 次点击
所在节点    分享创造
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1198618

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX