用贵的国产大模型 API 是否效果堪比 GPT4？

最近想用 qwen 来协助开发，但感觉总是答非所问，还给人一种懒惰不肯干活的感觉

研究了一下，发现我用的是 qwen-turbo ，单价 0.008 元，而通义千问又提供了 0.12 元的 qwen-max ，切换之后，效果果然棒棒的，唯一缺点就是价格高了，有些贵

再想起各位吐槽国产大模型，我在想是不是因为目前客户端提供的都是菜鸡 qwen-turbo ，而真正高能力的大模型没有被普遍大众体验到，所以导致有种错觉国产不如 GPT4 ？

理性探讨，不要带有情绪，谢绝一切情绪发泄

免责声明，不为 qwen 或者任何其他国产大模型站台，只是开源项目想探讨一下 AI 编程的可行性而已

JeriffCheng

2024-04-23 11:30:09 +08:00

@xxfye 下单和发货是两回事啊，制裁出来之后，很多单都被砍了，不发货了。真正到手的很少。而且很多银行之类的国企买显卡过来并不是干正事的，就是丢在库房里，应付检查的，或者加价倒卖出去，好像还没有哪个银行或者国企发布什么大模型吧。

marquina

2024-04-23 11:42:25 +08:00

@JeriffCheng [激战大模型，云厂商到底拼什么？]( https://m.thepaper.cn/newsDetail_forward_24447179)
“尤其是字节的顶级显卡最多，A100 和 V100 总数接近 10 万块。阿里巴巴集团也拥有大约 10 万块顶级显卡，这些显卡也是阿里云的底气。”
冷知识，大模型火起来之前，各大厂商就已经出于自身业务需要/客户需要采购了大量显卡；大模型火起来后、美国制裁前，各大厂商也在积极向英伟达下单；美国制裁后，各大厂商还在向英伟达下单未被制裁的型号（ A800/H800/L20 等等）

neteroster

2024-04-23 11:44:43 +08:00

客观来看，国内目前还没有大模型能和 GPT4 Turbo 能力上对位。

不过 OpenAI 现在也就 4Turbo 能拿得出手了，3.5-turbo-0125 烂成什么样子就不多说了，属于是 Chatbot Arena 上要翻好几下才能看到的水平。价格也并不能算得上低。

NXzCH8fP20468ML5

2024-04-23 11:45:38 +08:00

@JeriffCheng 为啥要应付检查丢库房？那不买不就好了。要买还得走长长的采购流程。
银行为啥要发布大模型，银行是讲究效益的地方，连大模型都不想从头训练，都是采购外面的大模型，微调一下就用的。
你以为 A100 除了大模型就没有别的事情可以干么。

marquina

2024-04-23 11:52:13 +08:00

国内最近发布的第一梯队大模型在跑分上已经接近 gpt4 这样的第一梯队了（至少是 gpt4 的早期版本）。但成本/算力限制了这些大模型的使用范围，而且 gpt4 本身也在不停的演进。
比如：minimax 的 abab6.5 （宣称万亿参数 moe ，gpt4 同等级规模）、天工 3.0 （ 4000 亿参数 moe ）

JeriffCheng

2024-04-23 11:55:54 +08:00

@xxfye 因为有 ZZ 任务，目标考核，必须拥有多少张显卡。而且也是一门生意，过个把月涨价了就倒卖出去了。（不过最近好像强制买华为的显卡了，买来就丢库房）

JeriffCheng

2024-04-23 11:59:19 +08:00

@a302800411 除了显卡算力限制以外，语料同样关键。Finetune 的话，只需要准备少量的针对性的中文预料，比如抖音那个就是不停的问 chatgpt 获得语料。从 0 开始 train ，那需要的语料是海量的。中文互联网高质量语料并不多，大概率训练出来的是一本正经的胡说八道。所以我不大相信国产大模型是自己从 0 开始 train 的。

goodryb

2024-04-23 12:00:02 +08:00

模型再大，能力再强，也鉴定不出来前面某些人智商的下限在哪里，一本正经的胡说八道

qwen 应该是目前国内能力最强的一批，之前看有个国际测试排行榜，qwen 是国内唯一上榜的

Greenm

2024-04-23 12:01:59 +08:00

@JeriffCheng 你的结论太草率了，喷国内大模型能力不行是没问题的，但是妄下结论纯臆断得出“所有国内大模型中文语料二次训练 finetune ” 是完全错误的。

Vtwoguest

2024-04-23 12:56:41 +08:00

先说结论差远了国产的连对于中文的语义分析和分词都比不过用了文言一心 4.0 和 chatgpt4.0 通义千问我有时候打字快不加标点符号语序错乱错别字懒得改有时候话里还夹杂着大量代码 chatgpt 都能通通识别其他的要不然说：对不起我还没有这个功能要不然答非所问不过国产模型对于一些特定语言中文的翻译还行

Vtwoguest

2024-04-23 12:58:23 +08:00

当然了我上面说的不只是国产模型还有那个 gemini pro 以及其他国外模型之类的也一样也不知道 chatgpt 怎么做的语义分析比中国厂商都懂中文…..

barbery

2024-04-23 13:53:19 +08:00

国产的大模型优势在于长上下文，非常擅长于长文档类的任务，缺点是通用能力和 gpt4 比还是差一点。。。评论里最让我震惊的是，居然有人认为国产大模型是用开源来 finetune 的。。。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1034834

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.