领导要求将大模型部署到无 GPU 的机房服务器,模型规模为个位数 B (如 7B ),后续会处理输出过来的信息。 领导明确不要 Ollama ,用啥部署呢?求推荐
|  |      1NoahBishop      222 天前 via Android 你要不看看 llama.cpp ,自己写个兼容的吧。 | 
|  |      2coefu      219 天前 鸟领导很难伺候啊,就这硬件成本还挑三拣四,能搞出来就不错了。 | 
|  |      3coefu      219 天前 老弟你运气不错,刚才我搜了下方案,还真被我找到了。 https://github.com/intel/ipex-llm/blob/main/docs/mddocs/DockerGuides/vllm_cpu_docker_quickstart.md | 
|      4Daybyedream OP @coefuqin 专业!我前两天沟通过了最后搭了 ollama+dify |