Gemini 3 Pro 这么牛吗

39 条回复 • 2025-11-20 13:06:30 +08:00

1

wsseo

1 天前

领先 50%

2

jamos

1 天前

在哪试用

3

usn

PRO

1 天前 via iPhone

数值怪，智商比 chatgpt 高，但情商还不够，不会有追问

4

street000

1 天前 via Android

2

感觉大模型 benchmark 参考价值很低了，多少分全靠 ai 公司自觉，grok 和 claude 就是两个对立的例子。目前用下来问了一些非技术性的问题，感觉就是常规升级，问题还不少。知识库太旧不说，幻觉问题感觉比 2.5 pro 严重，问个 2.5 pro 都在那信誓旦旦说没有这个模型，最新的 gemini 是 1.5 pro ，问 2.5 pro 至少它会还会先联网查。长上下文性能有人说也有问题，退化速度很快，超过 100k 几乎没法用了。

5

charmToby

23 小时 35 分钟前

@jamos https://aistudio.google.com/prompts/new_chat?model=gemini-3-pro-preview
我在这里测试的，感觉很强，生成的代码一次成功

6

Nanosk

23 小时 32 分钟前

@street000 确实问他 coding 最强的模型给我蹦出来 gpt4o 和 sonnet3.5 ，让他联网查第一回查出来个 o1 ，第二回才正确

7

jhdxr

23 小时 24 分钟前

1

强是强，2.5 刚发布的时候也很强，openai 自己对 GPT5 发布时的测评也很强。但这和你能用到的不是一个版本。算力不够就降智这手段各家都玩了多久了。。。

8

YanSeven

23 小时 23 分钟前

子弹飞一会儿，大伙儿测测就知道了。LLM 有一个好处，就是它在部分领域真的算是落地了，可以直接体验测评，不是光看报告了。

9

stimw

23 小时 20 分钟前

不要看 benchmark ，有参考性，但不高。

10

nakun233

22 小时 39 分钟前

@usn 我试着问一下情商超高，还自认 EVA 老粉

11

Seck

21 小时 30 分钟前

看到这个数据，说实话，我有点怀疑他作假，所有数据，只有一项是输的

我知道不能单纯参考榜单，但是所有分数.....，人都麻了

话说：V 站是不是该开个 AI 节点？

12

Moishine

21 小时 29 分钟前

cursor 里面已经有了啊

13

wniming

21 小时 13 分钟前

Gemini 3 Pro 吊打 gpt5 ，刚刚我问了这俩同一个问题，关于 tmux 的：

set -g status-keys vi

and

set -g status-keys emacs

What's the difference?

结果 gpt5 废话连篇，我追问好几次都没给我解释明白，浪费我十几分钟时间，然后又问了一下 Gemini 3 Pro ，结果一下就给我讲明白了，Gemini 3 Pro 给出了最关键的信息：

How it works: You start in Insert Mode (typing normally). To navigate or edit what you typed, you must hit ESC to enter Command Mode.

gpt5 根本就不知道要按 esc 键才能使用 vim 的移动光标的快捷键。

因为 chatgpt 吐词速度比较快，刚问问题就立即开始输出结果，而 gemini 要等到有结果了才一次性输出，所以我一般习惯先问 chatgpt ，但是我觉得以后较为复杂问题还是不要问 chatgpt 了，比 gemini 差太多了。

14

moefishtang

21 小时 11 分钟前 via Android

@Seck 倒是有 OpenAI 节点，感觉不太够用了😑

15

pipi32167

21 小时 10 分钟前

1

Benchmark dataset is all you need!

16

iden

21 小时 2 分钟前

闭源模型（实际上是 api ）的 benchmark 分数基本全看厂商自觉，参考性远没有开源模型强。

开源模型可以监督是否在测试集上做了训练。

17

ao99

19 小时 56 分钟前

SWE benchmark 只追平 sonnet 4.5 ，对 vibe coding 帮助不大啊，可能设计样式上有些帮助

18

songco

19 小时 0 分钟前 via Android

@Seck MathArena Apex 这么高

厉害了

19

kursk

18 小时 49 分钟前

4

我感觉非常强，我问了一个有关电机学的问题

我在学习《电机学》中变压器章节，对文中这段文字有疑问：

"漏磁通在一次侧绕组中感应电势，加到由互磁通产生的感应电势上"

漏磁通名称中之所以有“漏”字，就是因为它没有经过绕组，何谈在“一次侧绕组中感应电势”?

Gemini 3.0 回答非常准备，尤其是下面这段文字

漏磁通 (Leakage Flux, $\Phi_l$)：它是由该绕组自身的电流产生的。它的“漏”是指：它只穿过产生它的那个绕组（比如 $\Phi_{l1}$ 只穿过一次侧绕组 $W_1$），但没有穿过另一个绕组（二次侧绕组 $W_2$）。

完全针对我提出的问题，而且我问题还提交了图片，这种图文结合提问方式经常遇到，Gemini 3.0 完全理解了图片和文字，我感觉它完全铺平了学习中的困惑

另外，我本人是搞 IT 的，学习电力知识也是为了工作，里面有大量的公式，原来觉得很难，但是在 AI 的帮助下很多学习困难都可以高效解决

20

iflint

OP

18 小时 2 分钟前

@kursk 确实是最好的老师当年上大学要是有这么个好东西就好了

21

locoz

17 小时 29 分钟前

其他方面没测试暂时不清楚，但是视频理解能力是确实遥遥领先，gemini 2.5 pro 无法精确理解并输出的细节画面的时间点，gemini 3 pro 完全没问题，同一批视频输出的结果准确度高了很多。

22

OumaeKumiko

17 小时 6 分钟前

试了一下日常聊天，它竟然跟 gpt 一样在对话结尾要猜测我接下来要干什么，然后“我是否能为你做 XXXX”了……很不喜欢这点，因为这个猜测往往都是错的

23

hez2010

16 小时 28 分钟前

今天试了试 Gemini 3.0 Pro 诊断我手上的 UDP 网络通信库为什么会在流量大的时候接收端突然收到本不应该收到的 FIN 信号终止连接，结果它分析了半天又是内存安全问题又是数据结构对齐问题又是大小端问题，还反反复复对着同一个地方复读老半天，等了好几分钟最后改了一大堆代码，结果啥用都没有。
然后换了 GPT-5.1-Codex ，同样是分析了好几分钟，也尝试了各种方向，但是很快就得到结论不是代码实现的 bug ，开始朝着数据完整性的方向思考，最后给我加入了 checksum 拦截掉经过网络传输后变得不正确的数据，问题解决。
问题确实不出在终端软件而是在链路上。这么看还得是 GPT-5.1-Codex 更胜一筹。
不过想发挥 GPT-5.1 的全部实力，你得要能触发 high thinking 才行，于是得在 prompt 上下下功夫让模型的 router 认为你这个问题需要大量思考。

24

jqtmviyu

16 小时 15 分钟前

光看跑分没啥用. 能改陈年屎山代码才是真牛.

25

wniming

16 小时 14 分钟前

@wniming #13

补充一下，感觉 chatgpt 经常胡说八道，就我问的这个问题本来不复杂，是因为我把 status-keys 设置成 vi 后又被 tmux-sensible 的设置给覆盖了，我当时不知道 tmux-sensible 会覆盖这个，才问了 chatgpt：

"Why does it feel the same as Emacs?"

结果 chatgpt 给我说：

翻译成中文就是:
---------------------------------------------------
✔️ 为什么设计成这样？

tmux 命令提示符并非完整的交互式编辑器。
它不支持像 Vim 那样的普通/插入模式。

因此，即使在 vi 模式下，tmux 也保留了 Emacs 风格的行编辑键，因为它们是标准的 POSIX Readline 键。

换句话说：

➤ status-keys vi= Emacs 快捷键 + hjkl 方向键
➤ status-keys emacs= Emacs 键 + hjkl 没有任何特殊作用

这就是为什么它们感觉几乎一模一样的原因。
---------------------------------------------------

我觉得 chatgpt 在遇到它不明白的问题的时候就跟川宝一样，满嘴谎话，虽然 gemini 也会误导我，但没有 chatgpt 这么离谱，chatgpt 这种满嘴跑火车的情况已经遇到好几次了。

26

idblife

16 小时 2 分钟前

没觉得多牛，你们问问他“绿化带战神是什么梗”

27

AX5N

15 小时 58 分钟前

@idblife gemini 的知识基本都是 2024 年的，你问新的知识他肯定不知道

28

newtype0092

15 小时 54 分钟前

之前 2.5 ，拿沼王的电车海报图片问是什么宝可梦，咬死了说是呆呆兽，我纠正也不听。现在 3 能正常识别了，还能识别出电车的场景，给我搜索相关联动的建议，不是倒是数据更新还是真变聪明了。

29

Aaron325

15 小时 40 分钟前

google 毕竟数据多，就看愿意喂多少料。之前对 gemini 感觉就是对搜索信息的整理还是过于保守了

30

nuII

15 小时 29 分钟前

正好最近遇到了 Windows 上笔记本内屏 HDR 默认开启，达芬奇里编辑 log 视频转换为 hdr 效果时开启 hdr 画面预览的问题。比起 macos 上非常丝滑统一的操作系统级 hdr 管理，windows 11 虽然改进了不少但还是一团糟，第三方软件里调用起来也问题不少，网上又搜不到太多的有用信息，就问了 Grok （免费版，自动模式），昨天 Gemini 3 出了就把同样的问题丢进去看了下效果，从结果来说还是 Gemini 3 会强一点。

问题挖掘：
> Gemini 首轮判断了几个可能的原因，其中包括最重要的 Windows 对 HDR PQ 的支持和 HLG 的支持不完整。Grok 首轮没包括最关键的原因。但是有个小问题，我说了我用的版本是 20 ，Gemini 3 上来就说没有这个版本，看来是没联网搜索？

- Gemini 3 ✔
- Grok ❌

生成速度：
> Gemini 3 生成问题基本都用了 40+秒，而 Grok 都是 5 秒内就能生成。

- Gemini 3 ❌
- Grok ✔

31

maolon

15 小时 15 分钟前

1

@wniming #25
gemini 3 pro 对标的是 gpt 5 thinking/high 模式，你直接用免费版的 gpt5 那肯定是满嘴跑火车了，我试了下，另外搜索我觉得还是 gpt 靠谱一些，gemini 才是一不留神满嘴跑火车的那个，下面是我把你问题贴给 5 thinking 里节选 vi 部分的回答：

• set -g status-keys vi
Uses vi-style editing in those prompts, with insert/command modes:
• In insert mode you type normally
• Esc → go to command/normal mode
• In command mode:
• h / l – left/right
• 0 / ^ – beginning of line
• $ – end of line
• w / b – next/previous word
• x – delete char under cursor
• dw / dd – delete word / delete line, etc.

32

silypie

15 小时 11 分钟前 via Android

@iden 开源模型怎么监督呀，一般不是直接开源训练好的权重吗

33

wniming

14 小时 32 分钟前

@maolon #31

我用#25 楼的提示词问的时候还在 gpt-5.1 的免费额度内，刚才我又用#13 楼的提示词问了一次，回答和你贴的差不多，这个问题让我感觉 gemini 更强是因为 gemini 的提示直接帮助我搞明白了这个问题，明确的指出了"您首先进入插入模式（正常输入）。要浏览或编辑已输入的内容，您必须按 ESC 键进入命令模式"，chatgpt 没有提示到我默认是插入模式还是命令模式。

34

idblife

14 小时 12 分钟前

@AX5N #27
同样的问题你去问问 gpt5.1

35

tool2dx

14 小时 2 分钟前 via Android

跑分倒是很好看，就是测试下来修改 bug ，没 2.5 pro 强。可能是个别情况，前端倒是挺炫酷的。

36

goata

12 小时 59 分钟前

都说很牛，让子弹飞一会

37

coolmenu

4 小时 29 分钟前

Tried Gemini 3 for coding and I think it just gaslit my entire repo
Did a “quick assessment” of Gemini 3 for coding and I’m convinced this thing is either a genius or legally insane.

I asked it to refactor one file. It refactored my entire project. Then told me “btw your architecture was concerning” like a disappointed parent.

It writes code like it’s getting graded by God. It leaves comments like “fixed this, you’re welcome.” It reorganized my utils folder without asking — bold move honestly.

Performance verdict: Code: 10/10 Mental stability: 2/10 Vibes: immaculate

Would I use it again? Absolutely. Do I understand anything it produced? Not even slightly.：reddit 上的帖子，多名用户反馈同一现象：
Gemini 3 在编码任务上非常强，但会过度自信、越权大改、强行 refactor 、删除“它认为没用的代码”，哪怕明确告诉它“不要动其他文件”。

38

Saigut

3 小时 30 分钟前

1

简单试用了几个对话：
1. 十分自信，依据自己假设的东西进行逻辑推理，导致错的离谱
2. 问题没分析怎么样呢，就开始对代码瞎改一通

39

AX5N

53 分钟前

@idblife 就是知识库的问题，不用想了。这种黑话都能回答得出来的，要不然依靠搜索引擎了，要不然知识库够新。gemini3 的知识库其实比 2.5 还要旧一点。