Home
Sign Up
Sign In
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member
Sign In
V2EX
›
jingle
›
全部回复第 1 页 / 共 1 页
回复总数
2
5 月 3 日
回复了
stefwoo
创建的主题
›
Local LLM
›
github 看到一个项目, 3090 跑 27B, 129tps,最高 207tps
DFlash 简单说就是用了个专用小模型并行预估多个 token ,如果预估得对,就会提速;如果猜错了(比如 thinking 模式就有多种不同的思考路径,从中选最优的,这个时候 DFlash 就容易跪);然后 DDtree 的思路就是对多种不同路径的结果进行择优,因此效果是对 DFlash 选错路径风险的补充;本质上都是对 llm 自回归预估的并行加速,与输入问题的类型强相关,不是所有的场景都会被加速,比如上述那种思考路径多的情况,就浪费计算还不讨好——个人理解,仅供参考
2013 年 2 月 7 日
回复了
Alex_L
创建的主题
›
分享发现
›
Jeff Atwood的新项目,开源论坛Discourse
看着感觉v2ex,就跑回来了
About
·
Help
·
Advertise
·
Blog
·
API
·
FAQ
·
Solana
·
1492 Online
Highest 6679
·
Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 11ms ·
UTC 16:58
·
PVG 00:58
·
LAX 09:58
·
JFK 12:58
♥ Do have faith in what you're doing.
❯