fuhanfeng

DeepSeek 开源周第一天: FlashMLA

  •  
  •   fuhanfeng · Feb 24, 2025 · 1544 views
    This topic created in 472 days ago, the information mentioned may be changed or developed.

    为 Hopper GPU 设计的高效 MLA 解码内核,针对可变长度序列进行了优化,并且投入了生产环境。

    ✅ 支持 BF16 精度

    ✅ 使用分页 KV 缓存(块大小为 64 )

    ⚡ 在 H800 GPU 上实现 3000 GB/s 的内存带宽和 580 TFLOPS 的计算性能

    Github: https://github.com/deepseek-ai/FlashMLA

    X: https://x.com/deepseek_ai/status/1893836827574030466

    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5084 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 36ms · UTC 01:12 · PVG 09:12 · LAX 18:12 · JFK 21:12
    ♥ Do have faith in what you're doing.