gemma:2b 这个模型想要流畅运行起来需要什么配置的电脑

在 2c2g 的服务器上部署了个 gemma:2b ，响应太慢了，如果用家用台式机带 GPU 跑这个模型，什么样的配置才能流畅的进行问题交流？

13240284671

2024-03-01 18:33:14 +08:00

2b 要求很低的，有个 6g 显卡就可以了

noahlias

2024-03-01 19:07:48 +08:00

我看了一下在我的 8G 3060TI 上推理速度

在我的 m1. pro 16g

看来还是 cuda🐮

yankebupt

2024-03-01 20:05:46 +08:00

@noahlias instruct 模型和 base 模型使用感觉上有什么差距么？ 7b 能进行简单中文任务么？

noahlias

2024-03-01 20:28:42 +08:00

@yankebupt 中文你用 qwen 模型吧那个效果好，instruct 在一些问题回答上会更好啊当然也是答辩

想看比较,自己去 llm leaderboard 看吧 ,
https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

gongquanlin

2024-03-01 20:43:17 +08:00

2b 的模型能干什么工作呀？感觉有点太笨了用起来

hutng

2024-03-01 21:34:44 +08:00

ollama 普通 cpu 也能跑 7b ，但是感觉好垃圾呀，和 chatgpt 差十万八千里，类似于小爱同学这样的，也不知道是不是我用的姿势不对。

Fish1024

2024-03-01 21:47:22 +08:00

内存大点就行，13b 也能跑，就是慢点，能用。

abcfreedom

2024-03-02 00:28:34 +08:00

@coinbase 正好我也有太 m1pro ，回头试试

abcfreedom

2024-03-02 00:29:47 +08:00

@noahlias 话说 amd 的卡能跑吗，手上有张 amd6900xt

abcfreedom

2024-03-02 00:30:56 +08:00

@noahlias 如果用作中英文翻译，哪个模型比较合适呢

abcfreedom

2024-03-02 00:31:41 +08:00

@gongquanlin 其实我也不太清楚，只知道这个模型对资源要求比较低，所以想着部署着玩一下

noahlias

2024-03-02 09:53:06 +08:00

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.