V2EX › lithiumii 的所有回复 › 第 3 页 / 共 91 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 91

❮

❯

2025 年 5 月 20 日

回复了 Fdyo 创建的主题 › Windows › Windows 11 即将推出新的命令行编辑器 Edit

你还真别说，有时候 ssh 到 win 里面想改个配置文件，都不知道该用啥

2025 年 4 月 14 日

回复了 Debug1998 创建的主题 › 宽带症候群 › 大家推荐一个千兆口稳定跑旁路由的设备？

千兆旁路由我是树莓派 4b ，感觉绰绰有余

2025 年 3 月 17 日

回复了 zcm3579 创建的主题 › Local LLM › 如何估算一个大模型需要用到什么性能配置的硬件？

理论上最低限度的跑起来：显存 + 内存 + 硬盘 > 模型 + context
但是比较傻瓜的软件（比如 ollama ）一般不能直接把硬盘当缓存用，所以比较傻瓜的一键跑起来：显存 + 内存 > 模型 + context
人的阅读速度大概是 5 token 每秒，所以跑起来并且速度勉强能用：每秒 token 数 > 5
因为速度主要瓶颈是内存或显存的带宽，普通家用双通道 < 服务器 4 通道 < 中低端显卡、苹果统一内存 < 高端显卡，所以模型放到显卡的比例越大，速度越快。另外就是做推理的时候模型不同的层可以放进不同的显卡，不走 nvlink 仍然速度很快，因为不同的层之间通信要求没有那么高，所以多个 PCIe 槽直接插多显卡就可以放下更大的模型并且获得更快的速度。
最后是计算模型体积，一般的完整模型 fp16 每 B 近似 2G ，量化到 q4 的模型近似 0.5G 每 B ，但是这样算太粗糙了可以再加个 20% 当余量。context 计算很麻烦，不同参数的模型需要的不一样，而且可以自己调高调低，ollama 默认给得非常低只有 2k （很多模型支持到 128k ），所以再加个 10% 当余量。
那就是显存 + 内存 > 1.3 × 模型体积。

2025 年 3 月 16 日

回复了 886106 创建的主题 › Apple › Studio M4max 128G 是否合适跑大模型

能，但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ，往下 70B 之类的魔改显卡也能了，还更快。

2025 年 3 月 8 日

回复了 nexmoe 创建的主题 › 分享创造 › Free QWQ - 世界首个免费无限制分布式 QwQ API

petals 比你们早吧，而且是小显存的卡分布式部署大于单卡显存的模型。可惜免费节点已经没人跑了。

2025 年 2 月 10 日

回复了 abcfreedom 创建的主题 › 生活 › 求分享砍价技巧

跟父母学了点，就很简单，一直问能不能再便宜点

2025 年 2 月 7 日

回复了 geligaoli 创建的主题 › 问与答 › zerotier-one 可能偷偷做小动作限制自建 moon 了

是的，有一阵子不稳定，就改自建 planet 了，ztncui