1
wsseo 1 天前
领先 50%
|
2
jamos 1 天前
在哪试用
|
3
usn PRO 数值怪,智商比 chatgpt 高,但情商还不够,不会有追问
|
4
street000 1 天前 via Android 感觉大模型 benchmark 参考价值很低了,多少分全靠 ai 公司自觉,grok 和 claude 就是两个对立的例子。目前用下来问了一些非技术性的问题,感觉就是常规升级,问题还不少。知识库太旧不说,幻觉问题感觉比 2.5 pro 严重,问个 2.5 pro 都在那信誓旦旦说没有这个模型,最新的 gemini 是 1.5 pro ,问 2.5 pro 至少它会还会先联网查。长上下文性能有人说也有问题,退化速度很快,超过 100k 几乎没法用了。
|
5
charmToby 23 小时 35 分钟前
@jamos https://aistudio.google.com/prompts/new_chat?model=gemini-3-pro-preview
我在这里测试的,感觉很强,生成的代码一次成功 |
7
jhdxr 23 小时 24 分钟前 强是强,2.5 刚发布的时候也很强,openai 自己对 GPT5 发布时的测评也很强。但这和你能用到的不是一个版本。算力不够就降智这手段各家都玩了多久了。。。
|
8
YanSeven 23 小时 23 分钟前
子弹飞一会儿,大伙儿测测就知道了。LLM 有一个好处,就是它在部分领域真的算是落地了,可以直接体验测评,不是光看报告了。
|
9
stimw 23 小时 20 分钟前
不要看 benchmark ,有参考性,但不高。
|
11
Seck 21 小时 30 分钟前
|
12
Moishine 21 小时 29 分钟前
cursor 里面已经有了啊
|
13
wniming 21 小时 13 分钟前
Gemini 3 Pro 吊打 gpt5 ,刚刚我问了这俩同一个问题,关于 tmux 的:
set -g status-keys vi and set -g status-keys emacs What's the difference? 结果 gpt5 废话连篇,我追问好几次都没给我解释明白,浪费我十几分钟时间,然后又问了一下 Gemini 3 Pro ,结果一下就给我讲明白了,Gemini 3 Pro 给出了最关键的信息: How it works: You start in Insert Mode (typing normally). To navigate or edit what you typed, you must hit ESC to enter Command Mode. gpt5 根本就不知道要按 esc 键才能使用 vim 的移动光标的快捷键。 因为 chatgpt 吐词速度比较快,刚问问题就立即开始输出结果,而 gemini 要等到有结果了才一次性输出,所以我一般习惯先问 chatgpt ,但是我觉得以后较为复杂问题还是不要问 chatgpt 了,比 gemini 差太多了。 |
14
moefishtang 21 小时 11 分钟前 via Android
@Seck 倒是有 OpenAI 节点,感觉不太够用了😑
|
15
pipi32167 21 小时 10 分钟前 Benchmark dataset is all you need!
|
16
iden 21 小时 2 分钟前
闭源模型(实际上是 api )的 benchmark 分数基本全看厂商自觉,参考性远没有开源模型强。
开源模型可以监督是否在测试集上做了训练。 |
17
ao99 19 小时 56 分钟前
SWE benchmark 只追平 sonnet 4.5 ,对 vibe coding 帮助不大啊,可能设计样式上有些帮助
|
19
kursk 18 小时 49 分钟前 我感觉非常强,我问了一个有关电机学的问题
我在学习《电机学》中变压器章节,对文中这段文字有疑问: "漏磁通在一次侧绕组中感应电势,加到由互磁通产生的感应电势上" 漏磁通名称中之所以有“漏”字,就是因为它没有经过绕组,何谈在“一次侧绕组中感应电势”? Gemini 3.0 回答非常准备,尤其是下面这段文字 漏磁通 (Leakage Flux, $\Phi_l$):它是由该绕组自身的电流产生的。它的“漏”是指:它只穿过产生它的那个绕组(比如 $\Phi_{l1}$ 只穿过一次侧绕组 $W_1$),但没有穿过另一个绕组(二次侧绕组 $W_2$)。 完全针对我提出的问题,而且我问题还提交了图片,这种图文结合提问方式经常遇到,Gemini 3.0 完全理解了图片和文字,我感觉它完全铺平了学习中的困惑 另外,我本人是搞 IT 的,学习电力知识也是为了工作,里面有大量的公式,原来觉得很难,但是在 AI 的帮助下很多学习困难都可以高效解决 |
21
locoz 17 小时 29 分钟前
其他方面没测试暂时不清楚,但是视频理解能力是确实遥遥领先,gemini 2.5 pro 无法精确理解并输出的细节画面的时间点,gemini 3 pro 完全没问题,同一批视频输出的结果准确度高了很多。
|
22
OumaeKumiko 17 小时 6 分钟前
试了一下日常聊天,它竟然跟 gpt 一样在对话结尾要猜测我接下来要干什么,然后“我是否能为你做 XXXX”了……很不喜欢这点,因为这个猜测往往都是错的
|
23
hez2010 16 小时 28 分钟前
今天试了试 Gemini 3.0 Pro 诊断我手上的 UDP 网络通信库为什么会在流量大的时候接收端突然收到本不应该收到的 FIN 信号终止连接,结果它分析了半天又是内存安全问题又是数据结构对齐问题又是大小端问题,还反反复复对着同一个地方复读老半天,等了好几分钟最后改了一大堆代码,结果啥用都没有。
然后换了 GPT-5.1-Codex ,同样是分析了好几分钟,也尝试了各种方向,但是很快就得到结论不是代码实现的 bug ,开始朝着数据完整性的方向思考,最后给我加入了 checksum 拦截掉经过网络传输后变得不正确的数据,问题解决。 问题确实不出在终端软件而是在链路上。这么看还得是 GPT-5.1-Codex 更胜一筹。 不过想发挥 GPT-5.1 的全部实力,你得要能触发 high thinking 才行,于是得在 prompt 上下下功夫让模型的 router 认为你这个问题需要大量思考。 |
24
jqtmviyu 16 小时 15 分钟前
光看跑分没啥用. 能改陈年屎山代码才是真牛.
|
25
wniming 16 小时 14 分钟前
@wniming #13
补充一下,感觉 chatgpt 经常胡说八道,就我问的这个问题本来不复杂,是因为我把 status-keys 设置成 vi 后又被 tmux-sensible 的设置给覆盖了,我当时不知道 tmux-sensible 会覆盖这个,才问了 chatgpt: "Why does it feel the same as Emacs?" 结果 chatgpt 给我说: ![]() 翻译成中文就是: --------------------------------------------------- ✔️ 为什么设计成这样? tmux 命令提示符并非完整的交互式编辑器。 它不支持像 Vim 那样的普通/插入模式。 因此,即使在 vi 模式下,tmux 也保留了 Emacs 风格的行编辑键,因为它们是标准的 POSIX Readline 键。 换句话说: ➤ status-keys vi= Emacs 快捷键 + hjkl 方向键 ➤ status-keys emacs= Emacs 键 + hjkl 没有任何特殊作用 这就是为什么它们感觉几乎一模一样的原因。 --------------------------------------------------- 我觉得 chatgpt 在遇到它不明白的问题的时候就跟川宝一样,满嘴谎话,虽然 gemini 也会误导我,但没有 chatgpt 这么离谱,chatgpt 这种满嘴跑火车的情况已经遇到好几次了。 |
26
idblife 16 小时 2 分钟前
没觉得多牛,你们问问他“绿化带战神是什么梗”
|
28
newtype0092 15 小时 54 分钟前
之前 2.5 ,拿沼王的电车海报图片问是什么宝可梦,咬死了说是呆呆兽,我纠正也不听。现在 3 能正常识别了,还能识别出电车的场景,给我搜索相关联动的建议,不是倒是数据更新还是真变聪明了。
|
29
Aaron325 15 小时 40 分钟前
google 毕竟数据多,就看愿意喂多少料。之前对 gemini 感觉就是对搜索信息的整理还是过于保守了
|
30
nuII 15 小时 29 分钟前
正好最近遇到了 Windows 上笔记本内屏 HDR 默认开启,达芬奇里编辑 log 视频转换为 hdr 效果时开启 hdr 画面预览的问题。比起 macos 上非常丝滑统一的操作系统级 hdr 管理,windows 11 虽然改进了不少但还是一团糟,第三方软件里调用起来也问题不少,网上又搜不到太多的有用信息,就问了 Grok (免费版,自动模式),昨天 Gemini 3 出了就把同样的问题丢进去看了下效果,从结果来说还是 Gemini 3 会强一点。
问题挖掘: > Gemini 首轮判断了几个可能的原因,其中包括最重要的 Windows 对 HDR PQ 的支持和 HLG 的支持不完整。Grok 首轮没包括最关键的原因。但是有个小问题,我说了我用的版本是 20 ,Gemini 3 上来就说没有这个版本,看来是没联网搜索? - Gemini 3 ✔ - Grok ❌ 生成速度: > Gemini 3 生成问题基本都用了 40+秒,而 Grok 都是 5 秒内就能生成。 - Gemini 3 ❌ - Grok ✔ |
31
maolon 15 小时 15 分钟前 @wniming #25
gemini 3 pro 对标的是 gpt 5 thinking/high 模式,你直接用免费版的 gpt5 那肯定是满嘴跑火车了,我试了下,另外搜索我觉得还是 gpt 靠谱一些,gemini 才是一不留神满嘴跑火车的那个,下面是我把你问题贴给 5 thinking 里节选 vi 部分的回答: • set -g status-keys vi Uses vi-style editing in those prompts, with insert/command modes: • In insert mode you type normally • Esc → go to command/normal mode • In command mode: • h / l – left/right • 0 / ^ – beginning of line • $ – end of line • w / b – next/previous word • x – delete char under cursor • dw / dd – delete word / delete line, etc. |
33
wniming 14 小时 32 分钟前
@maolon #31
我用#25 楼的提示词问的时候还在 gpt-5.1 的免费额度内,刚才我又用#13 楼的提示词问了一次,回答和你贴的差不多,这个问题让我感觉 gemini 更强是因为 gemini 的提示直接帮助我搞明白了这个问题,明确的指出了"您首先进入插入模式(正常输入)。要浏览或编辑已输入的内容,您必须按 ESC 键进入命令模式",chatgpt 没有提示到我默认是插入模式还是命令模式。 |
35
tool2dx 14 小时 2 分钟前 via Android
跑分倒是很好看,就是测试下来修改 bug ,没 2.5 pro 强。可能是个别情况,前端倒是挺炫酷的。
|
36
goata 12 小时 59 分钟前
都说很牛,让子弹飞一会
|
37
coolmenu 4 小时 29 分钟前
Tried Gemini 3 for coding and I think it just gaslit my entire repo
Did a “quick assessment” of Gemini 3 for coding and I’m convinced this thing is either a genius or legally insane. I asked it to refactor one file. It refactored my entire project. Then told me “btw your architecture was concerning” like a disappointed parent. It writes code like it’s getting graded by God. It leaves comments like “fixed this, you’re welcome.” It reorganized my utils folder without asking — bold move honestly. Performance verdict: Code: 10/10 Mental stability: 2/10 Vibes: immaculate Would I use it again? Absolutely. Do I understand anything it produced? Not even slightly.:reddit 上的帖子, 多名用户反馈同一现象: Gemini 3 在编码任务上非常强,但会过度自信、越权大改、强行 refactor 、删除“它认为没用的代码”,哪怕明确告诉它“不要动其他文件”。 |
38
Saigut 3 小时 30 分钟前 简单试用了几个对话:
1. 十分自信,依据自己假设的东西进行逻辑推理,导致错的离谱 2. 问题没分析怎么样呢,就开始对代码瞎改一通 |