用贵的国产大模型 API 是否效果堪比 GPT4?

2024-04-23 09:58:33 +08:00
 lstz

最近想用 qwen 来协助开发,但感觉总是答非所问,还给人一种懒惰不肯干活的感觉

研究了一下,发现我用的是 qwen-turbo ,单价 0.008 元,而通义千问又提供了 0.12 元的 qwen-max ,切换之后,效果果然棒棒的,唯一缺点就是价格高了,有些贵

再想起各位吐槽国产大模型,我在想是不是因为目前客户端提供的都是菜鸡 qwen-turbo ,而真正高能力的大模型没有被普遍大众体验到,所以导致有种错觉国产不如 GPT4 ?

理性探讨,不要带有情绪,谢绝一切情绪发泄

免责声明,不为 qwen 或者任何其他国产大模型站台,只是开源项目想探讨一下 AI 编程的可行性而已

12166 次点击
所在节点    OpenAI
75 条回复
NXzCH8fP20468ML5
2024-04-23 11:24:44 +08:00
@JeriffCheng 银行早在 A100 发布之初就买了一大堆了,后续搞国产化就收手不买了,哪里还等到制裁和黑市
flynnlemon
2024-04-23 11:29:22 +08:00
@Azure99 数据不太准哈
JeriffCheng
2024-04-23 11:30:09 +08:00
@xxfye 下单和发货是两回事啊,制裁出来之后,很多单都被砍了,不发货了。真正到手的很少。而且很多银行之类的国企买显卡过来并不是干正事的,就是丢在库房里,应付检查的,或者加价倒卖出去,好像还没有哪个银行或者国企发布什么大模型吧。
iden
2024-04-23 11:37:48 +08:00
本帖回复是 V2EX 用户对技术与社会认知真实水平的体现
SkyEcho
2024-04-23 11:40:36 +08:00
你可以说国产大模型的逻辑能力不如国外的,但你说几个大厂的大模型是 ft 出来的,只能说明是一知半解,强行装懂
marquina
2024-04-23 11:42:25 +08:00
@JeriffCheng [激战大模型,云厂商到底拼什么?]( https://m.thepaper.cn/newsDetail_forward_24447179)
“尤其是字节的顶级显卡最多,A100 和 V100 总数接近 10 万块。阿里巴巴集团也拥有大约 10 万块顶级显卡,这些显卡也是阿里云的底气。”
冷知识,大模型火起来之前,各大厂商就已经出于自身业务需要/客户需要采购了大量显卡;大模型火起来后、美国制裁前,各大厂商也在积极向英伟达下单;美国制裁后,各大厂商还在向英伟达下单未被制裁的型号( A800/H800/L20 等等)
neteroster
2024-04-23 11:44:43 +08:00
客观来看,国内目前还没有大模型能和 GPT4 Turbo 能力上对位。

不过 OpenAI 现在也就 4Turbo 能拿得出手了,3.5-turbo-0125 烂成什么样子就不多说了,属于是 Chatbot Arena 上要翻好几下才能看到的水平。价格也并不能算得上低。
NXzCH8fP20468ML5
2024-04-23 11:45:38 +08:00
@JeriffCheng 为啥要应付检查丢库房?那不买不就好了。要买还得走长长的采购流程。
银行为啥要发布大模型,银行是讲究效益的地方,连大模型都不想从头训练,都是采购外面的大模型,微调一下就用的。
你以为 A100 除了大模型就没有别的事情可以干么。
jlkm2010
2024-04-23 11:48:10 +08:00
qwen-max 确实不错
marquina
2024-04-23 11:52:13 +08:00
国内最近发布的第一梯队大模型在跑分上已经接近 gpt4 这样的第一梯队了(至少是 gpt4 的早期版本)。但成本/算力限制了这些大模型的使用范围,而且 gpt4 本身也在不停的演进。
比如:minimax 的 abab6.5 (宣称万亿参数 moe ,gpt4 同等级规模)、天工 3.0 ( 4000 亿参数 moe )
JeriffCheng
2024-04-23 11:55:54 +08:00
@xxfye 因为有 ZZ 任务,目标考核,必须拥有多少张显卡。而且也是一门生意,过个把月涨价了就倒卖出去了。(不过最近好像强制买华为的显卡了,买来就丢库房)
JeriffCheng
2024-04-23 11:59:19 +08:00
@a302800411 除了显卡算力限制以外,语料同样关键。Finetune 的话,只需要准备少量的针对性的中文预料,比如抖音那个就是不停的问 chatgpt 获得语料。从 0 开始 train ,那需要的语料是海量的。中文互联网高质量语料并不多,大概率训练出来的是一本正经的胡说八道。所以我不大相信国产大模型是自己从 0 开始 train 的。
goodryb
2024-04-23 12:00:02 +08:00
模型再大,能力再强,也鉴定不出来前面某些人智商的下限在哪里,一本正经的胡说八道


qwen 应该是目前国内能力最强的一批,之前看有个国际测试排行榜,qwen 是国内唯一上榜的
Greenm
2024-04-23 12:01:59 +08:00
@JeriffCheng 你的结论太草率了,喷国内大模型能力不行是没问题的,但是妄下结论纯臆断得出“所有国内大模型中文语料二次训练 finetune ” 是完全错误的。
2kCS5c0b0ITXE5k2
2024-04-23 12:03:38 +08:00
是的 所有国内大模型中文语料二次训练 finetune. 我是 qwen 我承认
NXzCH8fP20468ML5
2024-04-23 12:06:57 +08:00
有些人的幻觉比大模型强多了。
也许这就是为什么大模型永远比不过人的原因。
Vtwoguest
2024-04-23 12:56:41 +08:00
先说结论 差远了 国产的连对于中文的语义分析和分词都比不过 用了文言一心 4.0 和 chatgpt4.0 通义千问 我有时候打字快 不加标点符号 语序错乱 错别字 懒得改 有时候话里还夹杂着大量代码 chatgpt 都能通通识别 其他的要不然说: 对不起我还没有这个功能 要不然答非所问 不过国产模型对于一些特定语言 中文的翻译还行
Vtwoguest
2024-04-23 12:58:23 +08:00
当然了 我上面说的 不只是国产模型 还有那个 gemini pro 以及其他国外模型 之类的 也一样 也不知道 chatgpt 怎么做的语义分析 比中国厂商都懂中文…..
barbery
2024-04-23 13:53:19 +08:00
国产的大模型优势在于长上下文,非常擅长于长文档类的任务,缺点是通用能力和 gpt4 比还是差一点。。。评论里最让我震惊的是,居然有人认为国产大模型是用开源来 finetune 的。。。
mohyz
2024-04-23 14:12:07 +08:00
...这哥们已经逻辑自洽了,真离谱

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1034834

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX