Claude 依然是编程最强, ChatGPT 跟 Gemini 在 Bash 这种常见语言的最基础的地方依然犯错

149 天前
 superhot

在 Bash 里面比较反直觉的一点是,&&|| 的优先级是相同的,所以会有:

$ true && { echo "foo"; true; } || echo "bar" && echo "baz"
foo
baz
$ true && { echo "foo"; false; } || echo "bar" && echo "baz"
foo
bar
baz

这不是什么八股,而是日常工作中会出现的基本用法,然而只有 Claude 3.7 答对了,GPT 4o 跟 Gemini 2.5 pro 还在那 && 的优先级高于 || 且有短路,即 A && B || C && D 等价于 (A && B) || (C && D),所以给出第一个的结果是 foo

冷门技术就不提了,本以为发展到今天 LLM 已经不会在 Bash 这种常见技术上出现低级的事实错误了,看来还是会有。

2009 次点击
所在节点    程序员
6 条回复
MonikaCeng
149 天前
GPT 你不能拿 4o 写代码,用 o1 或者 o3-mini-high
doraemonki
149 天前
试了一下 Gemini 2.5 pro 两个都回答对了
deplives
149 天前
tywtyw2002
149 天前
又不是面试,没事问这些问题其实没多大意义。
与其让 ai 执行 code ,不如找个 bash 自己跑下。

vibing code 都要求生成可读性的 code ,如果出现这类 code ,直接重新生成就行了。目前 vibing code 的意义还是在于提升了生产效率。

以前写个 bash 脚本 不得 10 分钟起步吧,复杂一点的一个小时没了,现在 vibing code 提升效率 10 倍以上。
4UyQY0ETgHMs77X8
149 天前
o3 中思路写的是
superhot
149 天前
@MonikaCeng
@FlorentinoAriza
确实 o3-mini 会好些,4o 还是不行

@doraemonki 我新开了一个重新试了一下,这回对了,有点不稳定

@tywtyw2002 是因为我在看别人代码的时候也有点记不清了,想用 LLM 确认一下,结果发现三个模型答案不一致,又专门翻了一下手册。用来生成代码处理简单任务确实好用,但如果在这种程度的问题上都能发生事实错误,还需要对比及二次确认的话,整个过程并没有提效很多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1124420

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX