有人实际部署过 GPT-OSS-20b 么? 需要什么配置能跑得比较流畅?

9 小时 20 分钟前
 totty

做萌翻翻译的时候,想用来本地部署做语言检测,AI 翻译和 AI 词典都可能用到,传统的库都不够准确,如果是多语言的话。

722 次点击
所在节点    程序员
19 条回复
chiaf
9 小时 7 分钟前
官方说 16G 的 Mac 就能跑。我自己的 64G 跑起来 毫无压力。

做个参考
totty
9 小时 5 分钟前
@chiaf 你测试的时候主要就是对话不?流畅嘛
chiaf
9 小时 2 分钟前
@totty 我的配置还是非常流畅。不过没咋测试,20b 还是小
YsHaNg
8 小时 48 分钟前
不如 qwen3 30b
totty
8 小时 44 分钟前
@YsHaNg 但是我用 qwen 30b 有一种说不出来幻觉感啊,很多时候有点无语,答非所问占比很高。
totty
8 小时 44 分钟前
@chiaf 不过你的配置令人羡慕!!!
YsHaNg
7 小时 47 分钟前
@totty 这个级别幻觉很难避免 但是 qwen3 快很多 gpt-oss 架构 graph 部分内存占用也更大
chiaf
7 小时 25 分钟前
@totty 当初为了跑本地的模型买的😂

后面就都是用商业的了。

现在也就是个高配的 Mac ,开发挺爽的🌝
bearqq
7 小时 22 分钟前
24g 内存 8845HS 集显跑 14.17 token/s 。
我还是更喜欢用 qwen3-32b ,显卡跑。
katsusan
7 小时 21 分钟前
16G 能跑的前提是需要英伟达 50 系 blackwell 的 FP4 ,其它平台应该要更多
privil
7 小时 6 分钟前
@chiaf #1 跑个量化的字节开源模型 seed-oss-36b 试试,其实比 gpt-oss-20b 还给力点。
totty
7 小时 5 分钟前
@YsHaNg 我再去试试判断语言,幻觉在这个场景下感觉还好。
totty
7 小时 3 分钟前
@bearqq 这个速度感觉有点压力,一次翻译文本输入就得大几百 token ,用户要等太久
totty
7 小时 3 分钟前
@privil 问对地方了
Pteromyini
6 小时 44 分钟前
翻译最好还是用字节专门的 seed 或者用翻译数据集微调一个小规模的模型。小规模的通用模型包括 gpt-oss 实在不太行,激活参数本身也太小了,幻觉难免。
tomclancy
6 小时 39 分钟前
我是 9900x 3090 ,思考的时候 GPU 直接满负荷狂转,思考完直接安静了
totty
6 小时 15 分钟前
totty
6 小时 15 分钟前
@tomclancy 火星子既视感
kennylam777
6 小时 13 分钟前
@katsusan 不用, 我試過用 3090 + Llama.cpp 能直接跑 FP4 的 GGUF, 速度也不錯, 100tps

而 5090 可以滿血跑 context 128k, 160tps 以上

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1156379

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX