$V2EX
Solana
Give SOL to Copy Address
使用 SOL 向 slowgen 打赏,数额会 100% 进入 slowgen 的钱包。
 slowgen 最近的时间轴更新
slowgen

slowgen

V2EX 第 83209 号会员,加入于 2014-11-23 14:34:54 +08:00
根据 slowgen 的设置,主题列表只有在你登录之后才可查看
二手交易 相关的信息,包括已关闭的交易,不会被隐藏
slowgen 最近回复了
@yifangtongxing28 大显存 + 凑多张,比如 4 张 4090 魔改的 48G ,或者 4 张 5090 32G ,或者 RTX PRO 6000 96G 。
算力差不多就够用了,举个例子,5 秒总帧数 81 帧的 480x480 视频,在 M2 Ultra 要 1 小时,一张 2080ti 22g 要 120 秒,一张 7900XTX 也是 120 秒左右,一张 5090 就只需 20 多秒,一张 H20 也是 20 多秒。
但是如果你要做 1080x720 分辨率的视频,差距就更大了,因为一张卡的显存可能会爆,比如你用 LTX2 这个能同时生成声音的模型,一张卡也不够用了,除非用社区的量化方案。不同量化程度的方案出来的画质也不一样,需要自己去评估的。
我现在做短剧,一人用一张 H20 ,做 5 秒的精细镜头,单张显卡的显存占用就来到了 70G 。
16g 在 AI 眼里是电子垃圾,你这个价格买两张 2080ti 22g 或者 7900xtx 24g 都更好,能退就退了。不信邪的话去 autodl 租个 4090 或者 5090 跑 comfyui 生成 720p 规格,一秒 15 帧,持续 5 秒的视频,看 nvidia-smi 显存占用。

目前买 API 便宜的只针对 LLM 和图片类,要是玩视频那是贵上天的,重度使用要么租卡要么自己买卡。
9 天前
回复了 after1990s 创建的主题 Local LLM intel b60 48G 可以买吗
这个售价飘了,不如 2 张 AMD 的 7900XTX
A4YJGZtiFZJywxC3vmK7aJngFJWCotVLbfFQ5TgvaAwx 感谢
2025 年 12 月 3 日
回复了 fingers 创建的主题 问与答 AI 分析视频的底层逻辑是什么,成本有多高?
2025 年 12 月 3 日
回复了 street000 创建的主题 Node.js Anthropic 收购 Bun
其实是不太利好 Deno 的一集,Deno 那个 compile 只是把代码无脑合并成一个文件(连压缩都没,注释还保留着)再嵌入 Deno 里,Bun 的 compile 虽然也是合并代码后嵌入到 Bun ,但是还可以 minify + bytecode ,比 Deno 小个几十 MB 。

虽然 Bun 的稳定性一般,但是拿来做客户端工具太爽了,不去和 Deno 、Node 在服务端领域竞争的话没对手
2025 年 12 月 3 日
回复了 cnhongwei 创建的主题 Local LLM 各位 AI 大佬,请教一下私有化部署 AI 模型的问题?
https://chat.qwen.ai/https://chat.z.ai/ 选择带 V 型号的模型,把脱敏或者不重要的图片丢进去问,如果能满足需求就可以按照这些模型大小买硬件。

OCR 能力可以体验 https://huggingface.co/spaces/tencent/HunyuanOCR ( https://huggingface.co/tencent/HunyuanOCR ) 和 https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo ( https://huggingface.co/PaddlePaddle/PaddleOCR-VL ) ,不到 1B ,是个电脑都能跑。

5w 以内能买的性价比最高就是 192GB 的官方翻新的 Mac Studio Apple M2 Ultra (24 核 CPU + 60 核的 GPU)那款,跑个 gpt-oss-120B 和 Qwen3-Next-80B-A3B 都很轻松,再跑一个带视觉能力的模型就可以了,2 个模型同时加载也不会爆显存,一起干活挺快的,难度高点就跑 Qwen3-VL-235B-A22B 。192GB 统一内存的好处是未来出了新模型大概率也能跑,不像 4090 48GB,5090 32GB 这种要凑多卡容易爆预算加爆显存。

AMD 的 Max+ 395 这些的瓶颈在于内存带宽,太弱鸡了,能跑但是跑不快,速度只有 M2 Ultra 的 1/3 ,也就跑个 Qwen3-VL-30B-A3B ,如果你体验下来能满足的话,倒也不是不行。
2025 年 11 月 21 日
回复了 wenerme 创建的主题 程序员 LLAMA CPP 比 Ollama 快得多
ollama 就是个废物,在 r/LocalLLaMA 都被喷了好多回了,精准控制参数贼麻烦,还不如直接去 llama-server 看参数 https://github.com/ggml-org/llama.cpp/tree/master/tools/server

而且现在 llama.cpp 自带的 webui 也挺好用的,越来越强大了,缺点就是多个模型加载有点麻烦,要开多个命令。
在 mac 上用 llama.cpp 是最方便的,去 release 页下载编译好的文件就好了,只有 15MB ,追新模型很方便。
举个例子:我跑 gpt-oss-120b 模型,开中等级别推理,这个命令就搞定

/Users/admin/llama/build/bin/llama-server \
-m /Volumes/RC20/lmstudio-community/gpt-oss-120b-GGUF/gpt-oss-120b-MXFP4-00001-of-00002.gguf \
--host 0.0.0.0 \
--port 50505 \
-fa on \
-np 4 \
-ub 2048 -b 2048 \
-c 131072 \
--presence-penalty 1.1 \
--n-gpu-layers 99 \
--jinja \
--alias openai/gpt-oss-120b \
--chat-template-kwargs '{"reasoning_effort": "medium"}' \
--temp 1.0 \
--top-p 1.0 \
--top-k 0

Windows 上同理,下载对应的文件解压就用

Linux 上也很方便,N 卡的话直接 cuda13 驱动一装,docker 配置一下 nvidia 作为 runtime 完事

docker run --gpus all \
-v /home/slowgen/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf:/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-p 12345:12345 \
ghcr.io/ggml-org/llama.cpp:server-cuda \
-m /models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-c 40960 \
-np 4 \
--jinja \
--n-gpu-layers 99 \
--temp 0.7 \
--min-p 0.0 \
--top-p 0.8 \
--top-k 20 \
--presence-penalty 1.05 \
--port 12345 \
--host 0.0.0.0 \
--mlock \
-mg 0
2025 年 11 月 20 日
回复了 crocoBaby 创建的主题 Local LLM 折腾了一晚上大模型,索然无味
5060 太丐了,全新也掩盖不了丐的事实,你这个就像“新买了一个 500MB 容量的托管虚拟主机然后部署了一个 WordPress ,玩了一下主题和插件之后索然无味”,能怪 WordPress 太弱吗?
2025 年 11 月 3 日
回复了 zungmou 创建的主题 互联网 虎嗅网被撤销了证书
通配符证书被吊销,那大概率是和测试环境证书共用一个证书,然后被喜欢用 GitHub 做笔记的猪队友把测试环境配置打包下来放笔记里,然后被扫描到了
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2716 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 16ms · UTC 07:27 · PVG 15:27 · LAX 23:27 · JFK 02:27
♥ Do have faith in what you're doing.