感觉 Kimi tinking 吹的很厉害,使用起来差强人意

50 天前
 fingerxie

一直以来都用 claude code ,今天听说 kimi thinking 很强,甚至高于 gpt5,我就去付费试了试。

试完以后的结论就是:

  1. 他的指令遵循能力很差,比如说我定义好的 claude.md ,对他而言没有作用。
  2. 代码能力还行,修改东西还算可以接受
  3. 工具运用能力不太行,明明要给我展示一段代码,但是用成了修改代码的工具,吓得我赶紧拒绝

这是我使用了一段时间的个人感受,不代表任何客观情况。

希望国产 AI 越做越好

6063 次点击
所在节点    程序员
40 条回复
xiaoming1992
49 天前
没感觉“差强人意”错多少啊,用在这里表达“勉强还行、过得去、一般般”也说得过去吧
rick13
49 天前
上午用了下,跟 gemini 简单对比下,差了点,但没差太多,不过都是免费我肯定用更好的
xiaoming1992
49 天前
gpt 给的例句:
这次考试成绩差强人意,比上次稍微好一些,但还不是很理想。
他的表演差强人意,总体还可以,但还有提升空间。
跟本 post 语意基本相符。
PrinceofInj
49 天前
@daweii 空穴来风很容易根据语境来判断正确的意思,但是差强人意就不一样了。本意和误用本来就是达不到预期的意思,只不过本意是基本上还凑活,误用是完全不行。这种没办法根据语境来判断的不可能成为约定俗成的惯用。就像阀值永远不可能成为阈值异体一样。
clarkethan
49 天前
刷分高手
usVexMownCzar
49 天前
目前别对国产 ai 抱太大希望。有钱还是 Claude openai Gemini 。国产 ai 目前只能替补,做做简单的工作。
lisongeee
49 天前
- 差强人意
- 因为 XXX 的原因

我每隔几天就在互联网上能看到这俩
r6Vm94FFk9u3W6XI
49 天前
我今天也用了一天,我觉得不错,写代码的质量,跟 claude4.5 sonnet 和 gemini 2.5pro 差不多
RandyLuo
49 天前
你确定开了 thinking?目前感觉还挺好用的(之前一直用 gpt-5-high 和 claude-opus 4.1 )。工具调用能力也很强
cue
49 天前
V 站卧龙凤雏真多,很多成语就是在使用过程中改变了意思的啊,央视体育频道就经常说一个球员表现不佳说是差强人意,也就比如卧龙凤雏,语言就是用来沟通的,知道表达什么就 OK 了,天天纠结今非昔比、差强人意这些不觉得蛋疼?

另外,kimi 和 minimax 俩真的烂得大相径庭呢。(狗头)
orangleliu624
49 天前
知道了 不太行
FlashEcho
49 天前
你是不是看了很多营销号被骗了,kimi k2 刚出来确实有一堆这种宣传,还有 claude 开了 max plan 不直接用 claude code 改用 kimi k2 这种搞笑案例

下次建议看下稍微客观点的评测:

https://livebench.ai/#/

https://lmarena.ai/leaderboard
johnnyyeen
49 天前
有没有觉得最近更新的 codex 已经开始要超过 claude code 了。
saymoon
49 天前
还有一个点是国内这些厂商的编程套餐看似定价便宜,例如 kimi 49/月档对标 CC $20/月档,实际赠送的可以在 Claude 或它自家 Cli 工具的使用额度( Kimi For Coding API Key ) 1024 次/周(还是限时优惠),实际使用不了多长时间,如果中等强度使用大概 1-2 天就用完了,还有 qwen 这个价格刺客。实际算下来并不比 CC 便宜,综合使用成本反而更高。
bingfengfeifei
48 天前
@xiaoming1992 #21 主要是这个词语误用占大多数,所以当看到这个词的时候,不太清楚作者本意到底想要表达什么。
bwnjnOEI
48 天前
月之暗面好像没出过 Kimi tinking 这个模型,最近出的是 kimi k2 thinking
visper
48 天前
差强人意我感觉起来也没觉得用错啊。勉强来说,要求不太高的话,大致上还行。但是没有吹的那么厉害。
sagnitude
48 天前
让他翻译几个 java bean 到 c++,我已经等了 50 分钟,现在扣了 5 块钱,还没蹦出 10 行有效代码

再等会,等到一个小时再不出东西就关掉换回 cc 了
815377546
47 天前
@FlashEcho #32 我也怀疑是这些大 up 都收钱了。 不过国外好像还真评价不错? 不知道怎么回事
haoxiaoru
45 天前
@FlashEcho livebench 上看,跟 DeepSeek V3.2 得分差不多,稍差一丢丢:71.64 vs 71.56 ,国内的 top2

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1171379

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX