无需量化，在树莓派上运行 LLaMA2 70B 模型

想必大家对 transformer 模型的认识已经非常深刻了，这里就不多做介绍了。今天我用纯 go 语言实现了一个项目来做 LLaMA2 模型的推理，其实要在小内存设备上运行大语言模型方法很简单，只需要在运行到某一层时将该层的参数加载到内存中进行计算即可。

项目地址: https://github.com/lwch/llama2.go

各规格模型所需内存大小：

Model	Precision	Memory	Memory(Cached Params)
7B	bf16	600M+	25G+
13B	bf16	1G+	43G+
70B	bf16	3G+	untest

模型推理方式:

cat << EOF | ./llama2 text-completion -m 7B.model [--cache]
Translate English to French:

sea otter => loutre de mer
peppermint => menthe poivrée
plush girafe => girafe peluche
cheese =>
EOF

.... 此处省略一堆中间过程

Translate English to French:

sea otter => loutre de mer
peppermint => menthe poivrée
plush girafe => girafe peluche
cheese => fromage

Traanslate French to English:

lait => milk

推理提速:

可通过分布式集群来实现矩阵运算达到 tensor 并行
可通过量化手段减少模型大小并提高计算速度

lwch

2023-10-18 12:05:46 +08:00

@GeekGao 你可以这么计算，载入 70B 模型需要 130G 显存，按 4090 的 24G 显存计算，载入整个模型需要至少 7 张卡，换算成成本就是 14W+，这些钱总共可以买 200 多个树莓派，每个 8G 内存总共 1.6T 以上，如果组起集群的话计算效率并不会比 4090 慢多少

kneo

2023-10-19 10:00:52 +08:00

@lwch

第一，关于 Google 搜索核心代码也是 Go ，是否有信息来源？ Google 内部代码量巨大，模块众多，连所谓的核心代码指的是哪一部分都很难确定。

第二，Google 的数据量巨大，集群性能远比单机单核性能重要。和你的应用场景截然相反。

第三，作为通用语言，Go 并不慢。但是 AI 相关代码的性能大量依赖 CPU （就不提 GPU 了）指令优化。需要大量的经验和技巧。性能想赶上业界 c/cpp 版本，甚至 Python 的混合版本，我觉得需要相当的经验和技巧。我简单搜了一下你的项目，没发现有 SIMD 之类的代码，我对性能不是很乐观。

第四，没有实测而谈性能实属嘴炮。我不应该因为开发语言否认你的劳动。我本人这几年也是用 Go 开发比较多，提 Go 和性能纯粹是路过多了一嘴。用 Go 做 AI 并非完全不靠谱，只是需要想当的工作量。如果 OP 能努力把这件事做好对圈子也是一件幸事。不过性能比对十分重要，建议有时间考虑在主页加上与各版本的实测对比。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/982794