大家好!
最近我和团队(datascale-ai)集中精力维护了一本关于大模型数据工程( Data Engineering for LLMs )的开源书。目前内容已经基本成型,这是我们近期开源输出的核心项目,特此分享给社区的小伙伴们。
现在行业内公认 "Data-centric AI" 是核心,但现实情况是网上的资料极其碎片化。
项目遵循 “基础设施 -> 专项场景 -> 端到端实战” 的结构,拒绝“玩具框架”,直接对接企业级技术栈:
全书包含 5 个端到端的实战代码,可直接复用落地:
Mini-C4 预训练集构建SFT 数据集RAG目前项目仍在不断完善中。如果你对 LLM 数据流水线感兴趣,或者正在进行大模型相关业务,非常欢迎来逛逛!
欢迎交流:请在 Repo 里提 Issue 或提交 PR 参与共建。如果觉得内容对你有帮助,求个 Star ⭐️ 支持,感谢大家!
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.