之前玩 8b 左右的,在电脑上用 llama.cpp 跑,还流畅。
然后越玩越大,35b 、70b 、120b
要么直接跑不起来,要么几十分钟生成
要求除了能跑各个知名的开源大模型,比如 qwen2 ,还要能跑 cohere 之类稍冷门的
因为后面可能要生产部署,最好得是国内的。
体验和生产部署分开也行。
目前看,微调的可能行不大。不需要支持微调或者自定义。简单地说:有 api 调就行。
不知道 huggingface space pro 、colab(pro)、openrouter 之类能否满足需求?
还是说需要 vps 型的?
然后越玩越大,35b 、70b 、120b
要么直接跑不起来,要么几十分钟生成
要求除了能跑各个知名的开源大模型,比如 qwen2 ,还要能跑 cohere 之类稍冷门的
因为后面可能要生产部署,最好得是国内的。
体验和生产部署分开也行。
目前看,微调的可能行不大。不需要支持微调或者自定义。简单地说:有 api 调就行。
不知道 huggingface space pro 、colab(pro)、openrouter 之类能否满足需求?
还是说需要 vps 型的?