最近测试了几款 AI 国产模型，结果比我想象的还复杂

48 天前

catwalk

最近这两周，我一直在使用 cc + ccr 对不同 AI 模型的能力测试，想了解它们在实际应用中的表现。通过这些测试，我对几个热门模型有了一些使用上的心得和体会。

首先是 Kimi 和 DeepSeek。官网版，但体验并不理想。两者在执行时都显得有些“力不从心”，不仅效果不如预期，而且余额很快消耗光，主要都限速（要充钱才能变快），几乎没能完成什么有价值的输出。Kimi 我用于写代码较多，Deepseek 用推理较多，尽管如此，我还是持续关注它们，期待能有所改进。

后续出的 DeepSeek-V3.1 在最初测试时，竟然出现了“极”这样的异常情况，后面好像修复更新，也是拿来推理用。

接着，我试了 GLM-4.5。令我意外的是，GLM-4.5 的表现超出了我的预期：它的速度相对更快，且能够产出不错的效果。在与其他模型对比时，GLM-4.5 无疑给了我更多的惊喜，它的稳定性和表现让我觉得性价比更高。缺点就是上下文有点短。好消息是有包月套餐，算是 cc 的平替版，但在隔壁站传出扣费问题，写的文档不清晰等问题。

现在又有两个新模型发布了——qwen3-max-preview 和 kimi-k2-0905256K。我首先测试了 kimi-k2-0905256K，发现它在前端的表现似乎不如 GLM-4.5，虽然其他方面的性能还没来得及详细测试，但初步使用下来，给我的感觉并不算太突出。

接着，测试 qwen3-max-preview，这次的体验可以用“崩溃”来形容。测试过程中，速度极慢，不仅如此，出错了还说修复问题，结果还把生成的文件都删掉了。这个过程让我产生了强烈的幻觉感，似乎 AI 开始“自己”不知道该生成什么了，完全没有方向。介绍写着这次版本减少了幻觉的现象，但从实测结果来看，幻觉问题依然存在，甚至比之前的 qwen 版本还要明显。

这两个新模型，目前的体验并没有带来太多突破。像 GLM-4.5 这样的模型，稳定性不错，另外据说 GPT-5 的效果有惊喜，后面再测试其他模型看看。综合来看，目前最好的效果还是 cc 。

各位都用哪些模型？

5462 次点击

所在节点

53 条回复

catwalk

48 天前

对了，最近折腾下来，发现还是不要太折腾的好，以上测试只是研究学习为主，真正应该专注于业务，毕竟折腾花的时间不太值得

haiku

48 天前

体验就用各种服务商的免费版
Cerebras 是个做专用推理芯片和服务的，上面的 qwen 3 coder 480b 速度快有免费额度，写写 Python 脚本、SQL 还行

yannxia

48 天前

国产模型在 Coding 方面都差点意思，Qwen Coder & K2 算是最好了，和 Gemini Pro 的差距还很大，就不提 Cluade opus 了

catwalk

48 天前

@haiku 现在测试 qwen 3 coder 是要比 qwen3-max-preview 快点还好点，写脚本基本上都不差，要看综合能力，毕竟拿来干活的

catwalk

48 天前

@yannxia 已经在进步了，其实有惊喜的，差距是有的

Clay0620

48 天前

我用的都是官方的 API + Claude code ，KIMI token 消耗的是真快，我一天花了 60 多块，之后换到了 deepseek ，感觉好多了，至少 tokens 消耗没那么多了

catwalk

48 天前

@CY4suncheng 花钱不办事才是关键，deepseek 比 kimi 好点，综合能力不错

lucifer9

48 天前

qwen max 还没试过。前几天 A 社疯狂封号的时候用高粱米做代餐效果还行: 质量好不好不说，起码人家够快

catwalk

48 天前

@lucifer9 很早就封号了，只不过现在更加疯狂，目前还在综合测试，glm4.5 确实在国产模型中（目前情况），看 glm 的营销也是目标明确，就是做 cc 的平替

Clay0620

48 天前

@catwalk #7 我觉得如果没有 anthropic 的订阅，Claude code 用哪家的都会效果打折的，所以要不就花钱上订阅，要不就干脆用其他的好了

xctcc

48 天前

glm 那个官网购买套餐要支付宝刷脸实名直接把我劝退了

yellowbean

48 天前

qwen 那个上下文仅是谷歌的 1/4 不知道怎么想的编程这种场景感觉上下文特别影响实际体验尤其项目稍微复杂点

catwalk

48 天前

@yellowbean 芯片问题？

kongkx

48 天前

deepseek 3.1 + grok-code-fast 简单任务还行。复杂点还是 grok 4 + grok-code-fast 。蹭 cline 的免费额度。感觉 Claude code 有点费 token ，纯 deepseek 3.1 都用不起。

xaxb

48 天前

问了个 24 点游戏，Kim 一直说找到答案了然后给了个错误答案，唠叨了 5 分钟突然中断，感觉是到输出 token 的上限被系统强制终止回话

234ygg

48 天前

综合实力没一个能打网页版 gpt5thinking 的，而且全都遥遥落后，真没什么好折腾的，用美区 Apple store 直接订阅难度也很低。
顺带一提，很多人用的 api 都是假的，要么就是 ip 太脏被降智的，要么就是共享账号被降智的，所以简中圈 gpt 风评不太好

lieliew

48 天前

gpt5high 用得舒服

haiku

48 天前

@234ygg GPT 的 API 我只敢用官方和 Azure 的
Azure 的水平对比官方、Cursor 里的，看起来思考时间够长，回答也没打折扣

XuanYuan

48 天前

用了一圈，我现在是 Grok 的忠实用户。

icyalala

48 天前

现在我看到楼主这种排版和标点良好，有加粗和分段，格外喜欢用引号，说话文邹邹的风格，
就有一种很明显的不似人写的感觉。。。

第 1 页／共 3 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1157569

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX