
为 Hopper GPU 设计的高效 MLA 解码内核,针对可变长度序列进行了优化,并且投入了生产环境。
✅ 支持 BF16 精度
✅ 使用分页 KV 缓存(块大小为 64 )
⚡ 在 H800 GPU 上实现 3000 GB/s 的内存带宽和 580 TFLOPS 的计算性能

为 Hopper GPU 设计的高效 MLA 解码内核,针对可变长度序列进行了优化,并且投入了生产环境。
✅ 支持 BF16 精度
✅ 使用分页 KV 缓存(块大小为 64 )
⚡ 在 H800 GPU 上实现 3000 GB/s 的内存带宽和 580 TFLOPS 的计算性能