V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  lithiumii  ›  全部回复第 3 页 / 共 91 页
回复总数  1812
1  2  3  4  5  6  7  8  9  10 ... 91  
2025 年 5 月 20 日
回复了 Fdyo 创建的主题 Windows Windows 11 即将推出新的命令行编辑器 Edit
你还真别说,有时候 ssh 到 win 里面想改个配置文件,都不知道该用啥
2025 年 4 月 14 日
回复了 Debug1998 创建的主题 宽带症候群 大家推荐一个千兆口稳定跑旁路由的设备?
千兆旁路由我是树莓派 4b ,感觉绰绰有余
2025 年 3 月 17 日
回复了 zcm3579 创建的主题 Local LLM 如何估算一个大模型需要用到什么性能配置的硬件?
理论上最低限度的跑起来:显存 + 内存 + 硬盘 > 模型 + context
但是比较傻瓜的软件(比如 ollama )一般不能直接把硬盘当缓存用,所以比较傻瓜的一键跑起来:显存 + 内存 > 模型 + context
人的阅读速度大概是 5 token 每秒,所以跑起来并且速度勉强能用:每秒 token 数 > 5
因为速度主要瓶颈是内存或显存的带宽,普通家用双通道 < 服务器 4 通道 < 中低端显卡、苹果统一内存 < 高端显卡,所以模型放到显卡的比例越大,速度越快。另外就是做推理的时候模型不同的层可以放进不同的显卡,不走 nvlink 仍然速度很快,因为不同的层之间通信要求没有那么高,所以多个 PCIe 槽直接插多显卡就可以放下更大的模型并且获得更快的速度。
最后是计算模型体积,一般的完整模型 fp16 每 B 近似 2G ,量化到 q4 的模型近似 0.5G 每 B ,但是这样算太粗糙了可以再加个 20% 当余量。context 计算很麻烦,不同参数的模型需要的不一样,而且可以自己调高调低,ollama 默认给得非常低只有 2k (很多模型支持到 128k ),所以再加个 10% 当余量。
那就是 显存 + 内存 > 1.3 × 模型体积。
2025 年 3 月 16 日
回复了 886106 创建的主题 Apple Studio M4max 128G 是否合适跑大模型
能,但是容量尴尬吧。跑不了最大的那些 671B 或者 405B ,往下 70B 之类的魔改显卡也能了,还更快。
2025 年 3 月 8 日
回复了 nexmoe 创建的主题 分享创造 Free QWQ - 世界首个免费无限制分布式 QwQ API
petals 比你们早吧,而且是小显存的卡分布式部署大于单卡显存的模型。可惜免费节点已经没人跑了。
2025 年 2 月 10 日
回复了 abcfreedom 创建的主题 生活 求分享砍价技巧
跟父母学了点,就很简单,一直问能不能再便宜点
2025 年 2 月 7 日
回复了 geligaoli 创建的主题 问与答 zerotier-one 可能偷偷做小动作限制自建 moon 了
是的,有一阵子不稳定,就改自建 planet 了,ztncui
2025 年 1 月 26 日
回复了 readman 创建的主题 NAS 突然想不通了,做备份的意义是什么?
小姐姐:没 raid ,直接分盘存,炸了拉倒
收藏的影视作品:raid1 ,万一炸了一个盘还有一个,万一都炸了就认倒霉
重要数据:在各种地方都复制了一份
2025 年 1 月 1 日
回复了 sleepingdog 创建的主题 NAS 硬盘容量不够,除了买买买,还有没其他方案?
20T 硬盘也就两三千吧,够你全家拍十年了吧,除非是 24 小时录像
2025 年 1 月 1 日
回复了 hapsinge 创建的主题 Apple 苹果 Vision Pro 真的会停产吗?
去店里修手机要等,就给我弄了个试用。效果是真的好,比家里的 q2 不知高到哪里去了。希望苹果持续烧钱,把整个供应链成本拉下来,然后我们买竞争对手的平替
倍怎么发财,比特币不可能再翻一百倍了
1  2  3  4  5  6  7  8  9  10 ... 91  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5651 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 58ms · UTC 08:47 · PVG 16:47 · LAX 01:47 · JFK 04:47
♥ Do have faith in what you're doing.