AI（大模型）本地化项目和部署设备

shuimugan

121 天前

客户端
https://lmstudio.ai/ 界面布局合理，功能也 ok 。
https://github.com/oobabooga/text-generation-webui/ 界面不太好用但功能丰富，适合丢公网加个密码访问。
都支持上下文不足被截断时那个 continue 继续续写，都支持多种显卡加速，都支持开 OpenAI 格式的接口方便你拿其它客户端去调用。

模型
https://huggingface.co/TheBloke 下载量化后的 GGUF 格式，一般看自己内存多大下载对应的规格，Q8 是损耗最小的但是最占资源速度也最慢，Q4_K_M 相对平衡。我现在喜欢下载 Q5_K_M 以上玩

设备
m2 ultra 76-core 192gb 官翻版

推荐模型
https://huggingface.co/TheBloke/Phind-CodeLlama-34B-v2-GGUF CodeLlama 的微调版，我拿来写代码还可以，Q4_K_M 规格量化速度 23token/s
https://huggingface.co/TheBloke/Mixtral-8x7B-Instruct-v0.1-GGUF Mixtral-8x7B：混合专家模型，速度很快准确率也 ok ，Q4_K_M 规格量化速度 50token/s ，Q5_K_M 是 37token/s
https://huggingface.co/TheBloke/Yi-34B-200K-GGUF 零一万物，中文能力不错，有黄文的模型是基于它做的微调，而且有 200k 的上下文，Q8 规格开启 20w 字上下文，内存不放模型占用 48GB ，内存也放模型占用 83GB ，真微服务的话整个服务丢进去问问题也可以
https://huggingface.co/TheBloke/vicuna-13B-v1.5-GGUF 刚出来的时候一鸣惊人，很小很强悍，中文能力也不错，能写黄文能写代码。

其它推荐
https://www.reddit.com/r/LocalLLaMA/ 上面玩本地模型的很多，讨论热度高。
https://github.com/SJTU-IPADS/PowerInfer 灵活使用 cpu 和 gpu 的内存，让更小显存的设备跑大模型有更快的速度，todo 里有多 GPU 和 M 系列芯片的计划，值得期待，我的 2 个 2080ti 22g 有望在今年跑 70B 规格嗖嗖快了。
https://github.com/ml-explore/mlx-examples 不喜欢跑量化的要满血的，可以用苹果的 mlx 框架来驱动模型，按说明先转换格式就可以跑起来了，我现在也期待其它客户端把它也整合进去。

shawndev

121 天前

能用 cuda 还是用 cuda ，以下转自自己的推特：

换 M2 Max 的 Mac Studio 后和 13700K+4090 做了下机器学习的对比。在 BERT 文本分类场景，13700K 1it/s ，4090 30it/s ，M2 Max 6it/s 。均使用 huggingface 的 Pytorch 实现，其中 M2 Max 使用 mps 后端（但未验证是否所有 operator 都支持 mps ）。

MonTubasa

121 天前

曾经我也很苦恼这个问题，大部分时间用的云服务器。直到有一天我老婆送了我一张 4090

Alias4ck

121 天前

mac 有个傻瓜的,原理是基于 llama.cpp 和 docker ,偏命令行,对命令行情有独钟的可以试试(它也支持 linux

ollama( https://ollama.ai/)

Lockroach

121 天前

llama.cpp ，直接配合其他文件运行大模型

Int100

121 天前

@shuimugan 这是我在 v2 上看到的质量最高的回复！感谢分享！

@shawndev @MonTubasa @Lockroach @Alias4ck 谢谢分享，我这去试试。

AI（大模型）本地化项目 和 部署设备

AI（大模型）本地化项目和部署设备