有没有产线拿 llama.cpp 跑大模型的案例？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 712 days ago, the information mentioned may be changed or developed.

可能是我做过三年的优化重构，又主持过一些创业项目，特别重视节能减排。
我拿 llama.cpp 在集显笔记本上跑 llama3 中文-4bit ，毫无压力。
准备将来有机会产线也这么干。
求问有没有这样的产线案例，服务器是怎么样的，体验如何？

2 replies • 2024-05-18 18:38:19 +08:00

june4

May 18, 2024

多大的模型，我的闲置老机上用 cpu 跑好慢，本来想用于给文章打标签，全文是肯定不行，但哪怕就标题和简介，也要要 20 秒一个。

Solix

May 18, 2024 via iPhone

得看有多少人访问，并发 token 多少，再决定上多少 gpu 服务器