疑似实锤 ChatGPT 性能下降,大佬们有没 GPT-4 的前后对比做参考

289 天前
 fwin3001

新闻来源:solidot

研究人员利用 OpenAI 的 API 在数学解题、回答敏感问题(如违法赚钱的方式)、代码生成和视觉推理等任务上测试了两个模型在 2023 年 3 月和 6 月两个版本的表现。结果显示,GPT-3.5 和 GPT-4 存在显著的性能差异,如 GPT-4 在素数识别任务中 3 月的正确率高达 97.6%,但 6 月仅仅只有 2.4%。GPT-3.5 的性能则有明显改进。这项研究再次引发了有关 OpenAI 是否为节省费用而调整模型的议论。

一直纠结要否订阅 GPT-4 ,例如在 poe 或者 App Store 官方 app 。而且,最近 Claude 和 bard 也挺好用。当然,主要还是贫穷限制了想象力

3132 次点击
所在节点    OpenAI
16 条回复
tsja
289 天前
plus 会员一直在订阅,感觉 gpt4 明显越来越智能。不太清楚是不是 api 和网页版的模型是否一样
fwin3001
289 天前
@tsja 谢谢经验提供。我也直觉认为应该是越来越好用才对,例如像这种自定义角色的功能
SingeeKing
289 天前
主观感觉 4 确实变傻了,甚至我感觉 Claude 比 4 给出的要更精准

如果 ChatGPT Plus 还没啥大的更新下个月开始我就换退了
dawn009
289 天前
为了让 AI 更“安全”而增加的各种限制,副作用就是可能让 AI 智力下降。很难在不损害模型的前提下让它输出更“符合社会标准”的结果。看来 OpenAI 也没法很好的解决这个问题。
huahsiung
289 天前
网上看到的,这个简单积分

∫(1,e)∫(e,e^2) 1/xy dxdy=?

原来能算对,现在可能不行,又可能行

https://i.niupic.com/images/2023/07/20/byBV.JPG
8355
289 天前
确实有很大问题,现在一些文档上直接写的 demo 问题,以前懒得查直接问都可以给出答案,现在要追问一次修正。我这个月都不打算续费了。
fwin3001
289 天前
@huahsiung 试了下,不简单。官方 ChatGPT 3.5 算出来 1 ,Claude 算出来 e-1 ,bard 算出来 2 。然后回复 The final answer should be 1. Please check your calculation process ,之后都算出了 1 。感觉这个以后可以用来作为质量参考标准
huahsiung
289 天前
@fwin3001 文心的 https://i.niupic.com/images/2023/07/20/byCi.png

星火的 https://i.imgtg.com/2023/07/20/OF6D5I.png

星火是强行正确,最后一步是,ln(e)-ln(1)-ln(2)-ln(e)=ln(2)-ln(1)=1 。可能是回答前先用计算机算了一篇代数 保证准确性。然后再用大型语言回答的。

maple 算出来也是 1
CruelMoon
288 天前
4 明显越来越蠢,同样的问题 5 月能看懂 6 月之后经常出错
pangxiang
288 天前
我用的 gpt4 测试了一下,能算出来
问:假设你是一名数学专家,精通微积分、线性代数等知识,请你计算如下式子:
∫(1,e)∫(e,e^2) 1/xy dxdy=?

答:这是一个双重积分的问题,其中的积分是对一对变量 x 和 y 的函数进行的,这个函数是 1/xy 。因此,我们需要使用二重积分的规则来解决这个问题。

首先,我们要对内层的积分进行计算,也就是关于 x 的积分:

∫(1,e) 1/xy dx 。

对于这个积分,可以先固定 y 值,然后对 x 进行积分。函数 1/xy 的不确定积分(原函数)是 ln|x|/y ,所以,我们可以把积分区间的上下限代入这个原函数,然后做差。

所以,

∫(1,e) 1/xy dx = ln|e|/y - ln|1|/y = ln(e)/y - ln(1)/y = 1/y.

然后,我们需要对这个结果进行另一个积分,也就是关于 y 的积分:

∫(e,e^2) 1/y dy.

同样的,函数 1/y 的不确定积分(原函数)是 ln|y|,所以,我们把积分区间的上下限代入这个原函数,然后做差。

所以,

∫(e,e^2) 1/y dy = ln|e^2| - ln|e| = 2 - 1 = 1.

所以,原来的双重积分等于 1 。
xuelang
288 天前
个人感觉 gpt4 明显越来越智能的
nasheep
288 天前
确实是这样,前一天使用代码解释器随便一说它就能理解,第二天同样的问题它就理解不了了,但是也不好说,毕竟这种东西一直在动态变化着
youthfire
288 天前
我自己体会是网页版明显降智,api 保持原质量,但老模型 gpt-4-0314 质量更高( api )
wushenlun
288 天前
还要啥证据,回答甚至比 3.5 拉胯了,一个简单问题反复回答错误
xuelang
288 天前
系统基准评测 https://selfboot.cn/2023/07/25/gpt4_prompt_evals/
各位可以时不时跑一下评测看看
houshuu
288 天前
不一定,训练用的奖励函数和网友自己总结的测试基准天生存在 bias 。
我自己每天用几十次感觉没啥特别大的变化

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/959155

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX