疑似实锤 ChatGPT 性能下降，大佬们有没 GPT-4 的前后对比做参考

新闻来源：solidot

研究人员利用 OpenAI 的 API 在数学解题、回答敏感问题（如违法赚钱的方式）、代码生成和视觉推理等任务上测试了两个模型在 2023 年 3 月和 6 月两个版本的表现。结果显示，GPT-3.5 和 GPT-4 存在显著的性能差异，如 GPT-4 在素数识别任务中 3 月的正确率高达 97.6%，但 6 月仅仅只有 2.4%。GPT-3.5 的性能则有明显改进。这项研究再次引发了有关 OpenAI 是否为节省费用而调整模型的议论。

一直纠结要否订阅 GPT-4 ，例如在 poe 或者 App Store 官方 app 。而且，最近 Claude 和 bard 也挺好用。当然，主要还是贫穷限制了想象力

tsja

2023 年 7 月 24 日

plus 会员一直在订阅，感觉 gpt4 明显越来越智能。不太清楚是不是 api 和网页版的模型是否一样

fwin3001

2023 年 7 月 24 日

@tsja 谢谢经验提供。我也直觉认为应该是越来越好用才对，例如像这种自定义角色的功能

SingeeKing

2023 年 7 月 24 日

主观感觉 4 确实变傻了，甚至我感觉 Claude 比 4 给出的要更精准

如果 ChatGPT Plus 还没啥大的更新下个月开始我就换退了

dawn009

2023 年 7 月 24 日

为了让 AI 更“安全”而增加的各种限制，副作用就是可能让 AI 智力下降。很难在不损害模型的前提下让它输出更“符合社会标准”的结果。看来 OpenAI 也没法很好的解决这个问题。

huahsiung

2023 年 7 月 24 日

网上看到的，这个简单积分

∫(1,e)∫(e,e^2) 1/xy dxdy=?

原来能算对，现在可能不行，又可能行

https://i.niupic.com/images/2023/07/20/byBV.JPG

8355

2023 年 7 月 24 日

确实有很大问题，现在一些文档上直接写的 demo 问题，以前懒得查直接问都可以给出答案，现在要追问一次修正。我这个月都不打算续费了。

fwin3001

2023 年 7 月 24 日

@huahsiung 试了下，不简单。官方 ChatGPT 3.5 算出来 1 ，Claude 算出来 e-1 ，bard 算出来 2 。然后回复 The final answer should be 1. Please check your calculation process ，之后都算出了 1 。感觉这个以后可以用来作为质量参考标准

huahsiung

2023 年 7 月 24 日

@fwin3001 文心的 https://i.niupic.com/images/2023/07/20/byCi.png

星火的 https://i.imgtg.com/2023/07/20/OF6D5I.png

星火是强行正确，最后一步是，ln(e)-ln(1)-ln(2)-ln(e)=ln(2)-ln(1)=1 。可能是回答前先用计算机算了一篇代数保证准确性。然后再用大型语言回答的。

maple 算出来也是 1

CruelMoon

2023 年 7 月 24 日

4 明显越来越蠢，同样的问题 5 月能看懂 6 月之后经常出错

pangxiang

2023 年 7 月 24 日

我用的 gpt4 测试了一下，能算出来
问：假设你是一名数学专家，精通微积分、线性代数等知识，请你计算如下式子：
∫(1,e)∫(e,e^2) 1/xy dxdy=?

答：这是一个双重积分的问题，其中的积分是对一对变量 x 和 y 的函数进行的，这个函数是 1/xy 。因此，我们需要使用二重积分的规则来解决这个问题。

首先，我们要对内层的积分进行计算，也就是关于 x 的积分：

∫(1,e) 1/xy dx 。

对于这个积分，可以先固定 y 值，然后对 x 进行积分。函数 1/xy 的不确定积分（原函数）是 ln|x|/y ，所以，我们可以把积分区间的上下限代入这个原函数，然后做差。

所以，

∫(1,e) 1/xy dx = ln|e|/y - ln|1|/y = ln(e)/y - ln(1)/y = 1/y.

然后，我们需要对这个结果进行另一个积分，也就是关于 y 的积分：

∫(e,e^2) 1/y dy.

同样的，函数 1/y 的不确定积分（原函数）是 ln|y|，所以，我们把积分区间的上下限代入这个原函数，然后做差。

所以，

∫(e,e^2) 1/y dy = ln|e^2| - ln|e| = 2 - 1 = 1.

所以，原来的双重积分等于 1 。

xuelang

2023 年 7 月 24 日

个人感觉 gpt4 明显越来越智能的

nasheep

2023 年 7 月 24 日

确实是这样，前一天使用代码解释器随便一说它就能理解，第二天同样的问题它就理解不了了，但是也不好说，毕竟这种东西一直在动态变化着

youthfire

2023 年 7 月 24 日

我自己体会是网页版明显降智，api 保持原质量，但老模型 gpt-4-0314 质量更高（ api ）

wushenlun

2023 年 7 月 25 日

还要啥证据，回答甚至比 3.5 拉胯了，一个简单问题反复回答错误

xuelang

2023 年 7 月 25 日

系统基准评测 https://selfboot.cn/2023/07/25/gpt4_prompt_evals/
各位可以时不时跑一下评测看看

fang2hou

2023 年 7 月 25 日

不一定，训练用的奖励函数和网友自己总结的测试基准天生存在 bias 。
我自己每天用几十次感觉没啥特别大的变化

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/959155

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.