多机异构显卡组合推理

做了个项目，代码还在改，发出来是想听听各位的看法。

项目作用

我手头有几张不同型号的显卡，平时大部分时间都是闲着。想跑大模型，结果单张显存放不下，就想着能不能把它们拼起来用。

项目叫 织云 Loom，做的事情不复杂：就是把几张显卡在内网里连起来，变成一台机器跑大模型，对外接口兼容 OpenAI 的格式。如果某张卡突然挂了，服务也不会断。

我没在跟 vLLM 比。vLLM 解决的是确定硬件上怎么把模型跑快，做得很好，我们也经常看它的代码。和我想解决的问题不太一样：几张型号不同的卡，可能随时掉线，这种情况下怎么稳定把服务撑住。关注点不同，不冲突。

一开始我是想做公网的。想法挺简单，把不同地方的卡凑一起用。跨省推理我确实跑通过，当时觉得这事有戏。

后来才发现不行。

公网上跨省的延迟是物理层面的，代码怎么都消不掉。这个延迟到了推理流水线里会被放大，我连着改了好几个晚上，能试的优化都试了，没用。最后认了，公网这条线整个砍掉，回到内网。

这个决定当时很难，但现在回头看是对的。

数字是我自己测的，不同阶段跑的，不是统一基准，各位看个大概就行：

还不能。源码没发，文档先公开了。发这个帖子就是想问问：你们觉得这东西有用吗？在你的场景下，最需要它解决什么问题？

请给我讲讲大家的需求，或者纯粹的评价一下项目——好话坏话都直说。我会认真考虑大家的问题的。

如果这个方向你踩过坑、或者刚好也在折腾类似的玩意—— 评论区说说你现在是怎么处理的，我都会认真回。

3 replies

coefu

3h 45m ago

《 hands-on llm serving and optimization 》看完过这本书没？

看完了你再想一下，你这个项目的难点在哪里，你准备怎么解决这些点。

NorthGod

11 mins ago

感谢提醒，我大概了解了一下这本书，过后会仔细阅读的。

NorthGod

Just Now

@coefu 大概理解了，我参考的更多是 vllm 、sglang 、llamacpp 等源码，还有公开的博客、论文等（虽然绝大部分是 AI 帮我实现的）。书中的内容大多也都有讲到，这样看倒是没什么区别了。而且我们项目最主要的异构多机书中并没有展示，你知道有这方面现成的资料或者文献吗