充了 Google One, Gemini 的智商依旧是所有 AI 垫底

103 天前
 drymonfidelia
我 4 个月前就喷过一次 Gemini 最会胡说八道,最近很多人说 Gemini 大幅升级了,还弄了很强的代码 Canvas 功能,我特地充了一个月 Google One ,来测试到底什么水平

场景 1 我需要一个合并 Blender 材质球的脚本,Grok 3 现在降智非常严重,写了一个 Bug ,调用 .clear() 会导致所有 index 被重置为 0 ,导致去 map 里匹配的时候匹配出来的全部都是第一个材质球,导入 Unity 后第二个 Material 会消失。我开始也不知道是 slot 的问题,按照 Grok 胡说八道的方法调了好久函数顺序。我想试试把代码贴到别的 AI 能不能排查出这个 bug

相同问题,Claude 未充值


Gemini 已充值



光看脚本两个都 AI 都完全没想出问题,重试了三四轮都在瞎改




我想给它们提示下,但是我测试贴截图会切换到智商更低的读图模型,只会 OCR 然后告诉我图里的字完全没有思考,然后我想到了把两个 fbx 都转成 ASCII FBX ,只贴导致问题部分的 diff




Claude 虽然还是没搞定,但它帮我插入了一堆日志点,让我运行它给的调试脚本
Gemini 则继续瞎改,改了五六遍就是不动有问题的 .clear() 那行



最后 Claude 解决了问题



该场景意外表现最好的竟然是 ChatGPT ,免费版 4o 第一轮就找到了问题,虽然给出的修复脚本有点瑕疵没有按照原脚本的变量名,不过改一下就好了



场景二 写正则
我需要一个脚本来过滤一个 60 万行 C# 代码中不需要的 class 和一部分 class 中的 fields ,这个场景用 AST 更合适,但是 AI 写不出来,我就让它用正则弄。这事情简单到连最便宜的 deepseek 都能搞定

Gemini 第一轮给我的 Python 脚本好几处错误根本运行不了


修复后匹配一个 enum 直接给我匹配了整个文件


我想测试他宣传的长上下文功能,直接把这个文件贴给他,结果这下智商彻底归零了,怎么提示它给我的都是一行也输出不出来的脚本,只能重开一个会话




按点给它提示,就是搞不定

还尝试了非常多遍,截图就不贴了,已经太长了


最后实在没耐心了

同样是很会胡说八道( /t/1101072 )的 Claude 改了 4 个版本 解决
6769 次点击
所在节点    程序员
43 条回复
qhx1018
103 天前
那么哪个更好?(免费的)
disorientatefree
103 天前
但其实一个例子并不说明问题呀, 我开了各家会员很多麻烦的问题都是 Gemini 2.5 Pro / Opus 4 / Grok 3 挨着问一遍, 很难说哪家好哪家差

我现在的倾向是

搜索/识图/视频/音频 -> Gemini
辅助读大段 code -> Gemini 2.5 Pro
大段代码生成(比如做个 demo) -> Grok 3
小段复杂代码 -> 先 Opus 4, 不行的话每个 AI 挨个反复聊
Deep Research -> Gemini
Debug -> Opus 4 / Sonnet 4, 有时候 Opus 不一定比 Sonnet 好
msg7086
103 天前
Google One 没用过,不过我用 Gemini 2.5 Flash 写代码感觉水平还是挺好的,都没用到 Pro ,感觉日常用用足够了。话说你为什么要贴截图?直接把源码加进 Context 或者让他 read file 不就好了?还有为啥要用网页版?看着你的帖子我感到非常迷惑。
zhaoahui
103 天前
基米是这样的
kneo
103 天前
复杂的问题要看运气。如果指令清晰,Gemini 写的代码我感觉还是更靠谱一点。
gpt5
103 天前
gemini 的上下文长度碾压其它。
在长上下文场景中,没其他选择啊。
deepbytes
103 天前
前一段时间里,美国 ip 就可以免费升级 google pro 一年半…已白嫖好久,现在用来做 gpt 的日常平替
wa007
103 天前
提供个样例,Gemini 整体的准确性比 claude 和 chatgpt 更好。
zczy999
103 天前
google one 不用冲啊!!!
都是白嫖的 之前有 bug 一个链接直接升级
或者搞个教育邮箱 他这个检测就跟白送一样很宽松的
不像 cursor gpt 这种还需要 sheerid 验证
meteora0tkvo
103 天前
国外 ai claude 才是真神
extrem
103 天前
我体感和你相反,使用场景是代码讲解+做题,gemini 的思路和语言表达的可读性上明显高于 o3,o4-mini

严重怀疑我的号最近被降智了,有时感觉 2 个推理模型的回答还不如 4o
yb2313
103 天前
之前一直吹 gemine 很强, 但我怎么用都感觉很笨 , 可能是中文不适配, 但 grok3 就很强, 比通义的厉害
cherryas
103 天前
你只是赶上 gemini2.5pro 降智了,

昨天我也写一个汉字转无注音拼音

改了 10 来次还是低级报错

注意是低级报错而不是有 bug

要知道以前写过难好几倍的功能

有直接成功的,也有逻辑有 bug 的

但是没有基础问题一直报错的

最后用 claude 重写了一下好了
Eddiegaao
103 天前
gpt 和 gemini 都有 20 刀档位订阅,同感,gemini 弱智,但是在一些极少数的情况下,比 gpt 好用,而且太好用了。但是绝大多数情况都是 gpt 更靠谱!
wu67
103 天前
gemini 的问题在于它喜欢瞎编...给的代码有时候是跑不起来的, 他就硬编了一个 API 名字给我‘实现’...
conky
103 天前
google one 不是免费一年多吗?你为啥还去充值
Ocean810975
103 天前
Gemini 数学能力是真的强,最近在推导强化学习的公式,发现就 Gemini 能做到精细的推导,而且很像是人写出来的推导,兼顾计算与思维方式,但 ChatGPT o3 就差点,还有的时候推着推着给你讲其他公式去了……
我是先用的 o3 后改的 Gemini 。
ztaosony
103 天前
我的体验是 gpt 大部分时间比 gemini 靠谱,但 Gemini 也不至于比 grok 差
iyiluo
103 天前
gemini 访问方便,速度快,我还挺喜欢用的
tyqing
103 天前
最近写了几个 shell 脚本,还是 Claude 好用

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1138029

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX