V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
W3Cbox
V2EX  ›  程序员

Gemini 2.5 Pro 代码水平已经能与腾讯 T7 相媲美了

  •  
  •   W3Cbox · 36 天前 · 13537 次点击
    这是一个创建于 36 天前的主题,其中的信息可能已经有所发展或是发生改变。
    最近有幸提前体验了 Gemini 2.5 Pro 的一些代码相关能力,说实话,我的感受非常震撼。
    实测下来,这玩意儿的进化速度简直让人后背发凉 ,不是危言耸听,它已经能完成很多我原本以为只有资深工程师才能搞定的任务了。
    尝试了一些 LeetCode Hard 级别的问题,或者一些涉及特定算法、数据结构、并发编程的复杂场景描述,Gemini 2.5 Pro 不仅能快速理解问题,生成正确且高效的代码,很多时候还能提供多种解法或优化思路。这已经超出了早期模型仅能拼凑代码的水平,它似乎真正“理解”了问题的结构和解决方案。
    我把一些自己早年写的、略显混乱或性能不佳的代码段丢给它,让它进行优化或重构。
    它能精准地指出代码中的问题(如冗余逻辑、潜在 bug 、性能瓶颈),并给出清晰、可行的重构方案和优化后的代码。这种对代码结构的“嗅觉”和优化能力,确实是资深工程师才具备的。


    最后想问大家:如果以后的 AI 真的能写出达到腾讯 T9 水平甚至阿里 p9 的代码水平,你会选择和它合作,还是转行?
    97 条回复    2025-05-14 13:38:44 +08:00
    bigtan
        1
    bigtan  
       36 天前   ❤️ 1
    我是做量化交易的 quant ,我的分析代码,交易代码,交易后分析代码,绝大部分都是用 ai 在写。真的很专业
    SeaTac
        2
    SeaTac  
       36 天前 via iPhone   ❤️ 1
    能搜索到资料的问题 ai 是挺能写
    但真的用到工作场景稍微问得深一点就抓瞎

    另外写代码只是工作的一部分而已
    W3Cbox
        3
    W3Cbox  
    OP
       36 天前   ❤️ 1
    @SeaTac 谷歌本身就是做搜索引擎的,其他家的 ai ,问一些冷门框架问题,全是瞎扯,即使开启了联网与深度思考依然质量不佳。
    ZeekChatCom
        4
    ZeekChatCom  
       36 天前   ❤️ 1
    不是追上,是远超。
    admirez
        5
    admirez  
       36 天前   ❤️ 33
    这是侮辱 Gemini 么
    ZeekChatCom
        6
    ZeekChatCom  
       36 天前   ❤️ 2
    @admirez 楼主明显还没领教 AI 的强大。
    thinkm
        7
    thinkm  
       36 天前
    有没有什么 AI 能够一键重构代码啊? 我手里这个烂代码项目,已经重构了半个月还美搞好,头都大了
    IwfWcf
        8
    IwfWcf  
       36 天前   ❤️ 1
    你拿算法题去做 benchmark 那肯定是秒杀大部分人类工程师的,o3 和 o4-mini 的 codeforces raiting 都有 2700+,你看下人类有这个水平的总共才多少人?
    zhze93
        9
    zhze93  
       36 天前
    现在 AI 确实太猛了.学习机器加提升效率机器.
    LaTero
        10
    LaTero  
       36 天前 via Android   ❤️ 15
    热门,训练数据多,且公开文档好的领域会好一些,但一些比较冷门的就很差。还有就是数学、算法等基础的和语言、框架无关的东西厉害。有些领域没什么开源项目,效果就差很多。你要是用那些没什么文档的库(比如 dear imgui 和虚幻引擎,体感估计文档覆盖不足 5%),别说正确了,很多时候连编译都过不去。最近让 AI 给虚幻引擎写个简单的算法,试了好几个 AI 一起写。有的完全就是在编 API 。GPT 尤其严重,真的给我看笑了。其他 AI 幻觉还能沾点边,比如 Deepseek 把 HeapPush 拼成 PushHeap ,自己改一改还能用,但是 GPT 真的纯纯瞎编,还喜欢装模作样地在结尾列几个不存在的“文档引用”( url 是瞎编的)。Gemini Pro Previw 2.5 Pro 相对来说还算好的,但是问题还是多,做了很多无用功,比如不必要的排序,从没用到的参数,莫名其妙的元信息(虚幻引擎特有的东西)最后我自己手动删改了不少。还有就是解释源码,我发现 AI 其实不怎么看内容的,主要就是看函数名,然后望文生义,瞎猜。有些时候因为历史遗留 a.k.a.屎山等原因函数名并不恰当,AI 还是不看源码固执地声称这个函数作用就是和函数名一样。我开始还以为是插件在优化 prompt 把上下文切了,就直接复制整个文件到 openrouter 和 google ai studio 里,结果还是一样。不知道前端等热门且开源丰富的行业 AI 是不是会好很多,但是我自己的体验根本不是很厉害。
    admirez
        11
    admirez  
       36 天前
    @ZeekChatCom 你开心就好
    ZeekChatCom
        12
    ZeekChatCom  
       36 天前
    @admirez @错了?
    craftsmanship
        13
    craftsmanship  
       36 天前 via Android   ❤️ 1
    还是看领域的 另外算法题这种属于特别强化过的 没什么参考价值 能把高难度算法实际应用到项目中去 才算合格
    crackidz
        14
    crackidz  
       36 天前
    以前体验? Google IO 还会发新版?
    Felldeadbird
        15
    Felldeadbird  
       36 天前
    我在 cursor 中体验 claude3.7 大于 Gemini 2.5 (非 max 版)
    pike0002
        16
    pike0002  
       35 天前   ❤️ 2
    p9 的代码水平,p9 还写代码么
    soulflysimple123
        17
    soulflysimple123  
       35 天前
    ai 写后端复杂业务场景作用不大,上下文太大,写一个相对独立的函数是 Ok 的
    admirez
        18
    admirez  
       35 天前
    @ZeekChatCom hmm 是我错了。。。我以为说我。。。抱歉。。。
    BeiChuanAlex
        19
    BeiChuanAlex  
       35 天前   ❤️ 1
    所有的 ai ,对于冷门语言的支持都非常差,尤其是冷门语言的最新版本的库
    datou
        20
    datou  
       35 天前   ❤️ 2
    卧槽,我还以为腾讯 T7 是什么新出的 AI APP
    wowsimon
        21
    wowsimon  
       35 天前
    @datou 哈哈一样
    NotLongNil
        22
    NotLongNil  
       35 天前
    幻觉太多了,都得自己再验证一遍。复杂点的需求基本都有坑
    dcatfly
        23
    dcatfly  
       35 天前
    是这样的,感觉 gemini 2.5pro 和 claude 3.7 已经能完成大部分普通的前后端开发工作,瓶颈在于用户能否清晰准确的描述需求,以及如何让 AI 写出的代码与项目所使用的库的版本相匹配
    dcatfly
        24
    dcatfly  
       35 天前   ❤️ 1
    HUZHUANGZHUANG
        25
    HUZHUANGZHUANG  
       35 天前
    会员都可以白嫖了,我也用了好几天了,也有上传项目代码的功能, 确实不错。
    MacsedProtoss
        26
    MacsedProtoss  
       35 天前 via iPad
    别的不说,你确定阿里 P9 有啥代码水平?
    & 其实做业务本来代码就那样,像 T7 这种重点不是代码怎么样(代码水平从进来开始就已经需要达到一定标准了),T7 应该是已经可以基本做到独立完成整个流程中的所有工作,并且能做出优化之类的
    letitbesqzr
        27
    letitbesqzr  
       35 天前 via iPhone   ❤️ 1
    哥 你太看得起腾讯 t7 的编码能力了。。
    BernieDu
        28
    BernieDu  
       35 天前   ❤️ 1
    @Felldeadbird 2.5 pro 降智了,没最开始好用,cursor 也官方说了这个问题。
    povsister
        29
    povsister  
       35 天前
    如果你做到 T8 T9 还是在研究代码结构,解决 leetcode 类似的场景问题,那被 AI 取代也并不奇怪。
    kupanda09
        30
    kupanda09  
       35 天前
    p9 不写代码,写代码的巅峰是 p7 ,真有 p9 能力,那 ai 就可以无中生有,那时候 ai 肯定代替人类了
    009694
        31
    009694  
       35 天前 via iPhone
    写代码最重要的是单个难题的解决吗? 不是。 是整个系统问题的解决,系统问题里的每个点互相缠绕最后能取得平衡。
    zhw2590582
        32
    zhw2590582  
       35 天前
    不理解,是腾讯 T9 和阿里 P9 写的代码比 Gemini 强吗?
    aloxaf
        33
    aloxaf  
       35 天前   ❤️ 3
    现在这些大模型给我的感觉就是:富有经验,但沉溺在自己经验里的工程师,一旦跳出它的舒适圈,就很难绷。

    前几天有段 Rust 代码想重构一下,是用 async + rayon + opencv 对一批图像进行处理。

    由于把 async 和 rayon 混在一起比较麻烦,我一开始选择是每个 task 把“所有”图片处理完再进行下一个 task ,大概像这样 async task1 (过滤) -> rayon task2 (多线程计算) -> async task3 (收集),但这样显然效率不高,应该流式处理更合适。

    然后我就试了让 gemini 2.5 pro 和 claude 3.7 sonnet thinking 帮我重构一下,我解释了这段代码在干啥,我为什么这么写,我现在希望重构成哪种效果……

    结果惨不忍睹,它们做的事情包括但不限于:
    1. 先计算,再过滤收集——即使我强调过计算非常慢
    2. 把计算任务也全部放到异步 task 里——你觉得我为啥要特地拆成三个 task
    3. 遇到所有权和生命周期问题就是一通乱改,改了几次过不了就全部重写(??)
    ……

    最后为了预防高血压,还是自己写了,其实就是把 rayon 换成一个线程池,然后三个 task 之间用 channel 通信。就这么个简单的任务,这些刷起题来比我强到不知到哪里去的 AI 硬是没做出来。
    parad
        34
    parad  
       35 天前 via Android
    根据我的测试,GPT-4.1 编程能力和输出质量明显高于 Gemini 2.5 Pro 。输出比 Gemini 更专注和精简。
    g1eny0ung
        35
    g1eny0ung  
       35 天前
    > 最后想问大家:如果以后的 AI 真的能写出达到腾讯 T9 水平甚至阿里 p9 的代码水平,你会选择和它合作,还是转行?

    什么时候 title 也能算是代码水平的体现了? GitHub 上那么多巨牛,拿这些人比一比我觉得才恰当吧。众所周知,大模型现在欠缺了巨量上下文的能力,作为一个合格的程序员,对于熟悉的项目,我的脑子里能含有几十 w 行 token 的容量,AI 目前还不可以。目前我个人体感,在恰当的引导下,AI 对单步需求的完成度还是比较不错的,后面的效果还得继续观察。

    假如 AI 真能在一个几十 w 行 token 得项目下掌控雷电,那我肯定会选择与它合作,因为我在现实中很难找到这种朋友。
    davis2023
        36
    davis2023  
       35 天前   ❤️ 1
    llm 从 22 年开始算,现在才第三年,SO 如果再给 5 年时间,会达到什么水平???
    akakidz
        37
    akakidz  
       35 天前
    claude 3.7 实测更好用
    Donaldo
        38
    Donaldo  
       35 天前
    我认识的 T10 都在高强度用大模型写代码,你还在跟 T7 比。。
    taine221
        39
    taine221  
       35 天前
    OP 至少同时对 “代码质量” 和 “T9 / P9” 都没什么了解
    shanks
        40
    shanks  
       35 天前
    说白了,AI 就是站在训练语料库上才能达到一定高度,一旦公开信息少,基本就是瞎子。这样一看,其实就是提高了搜索效率(工作效率),但是并没有什么创造性的东西。
    kamikaze472
        41
    kamikaze472  
       35 天前
    还以为腾讯 T7 是腾讯的最新模型😂
    uni
        42
    uni  
       35 天前
    我觉得差远了,我这有个具体的例子(我上周自己问的):

    python 获取过去二十四小时交易最大的 100 个数字货币,包括各个交易所的现货交易量和合约交易量,还有链上的交易量

    这个问题需求很简单,但实际解决起来很困难,需要去搜索各个交易所以及加密货币数据提供商的各种文档和 api 接口,理解这些接口的内容,然后思考怎么获取数据以及计算。这个过程对于综合素质还过得去的程序员来说都是可以完成的,但是需要耗费大量的时间。我实测不管是 gemini 还是其它的 ai ,都并不能完美地解决这个问题
    lait
        43
    lait  
       35 天前
    @aloxaf 所有的大模型目前写 Rust 都不行,估计是 Rust 的训练数据过少
    forsky
        44
    forsky  
       35 天前
    冷知识,简体中文信息只占互联网的 1.6%。 英文 60%+
    mumbler
        45
    mumbler  
       35 天前
    @soulflysimple123 #17 用 cursor 写,别用 chatbot
    tyrantZhao
        46
    tyrantZhao  
       35 天前
    皇帝用的一定是金锄头吧?是这意思吧?以为 t7 啥的就靠写代码就行了?
    xuanbg
        47
    xuanbg  
       35 天前
    这些大模型每一个能写出 VUE1.0 ,其代码能力甚至远远不如一个学艺术史的大学生。
    VeryZero
        48
    VeryZero  
       35 天前
    单点突破,解决已知问题本来就是大模型的强项。

    但是需要结合上下文的业务问题,就有点抓瞎了
    BazingaOrg
        49
    BazingaOrg  
       35 天前
    @Felldeadbird 老实说 claude 3.7 会主动多做一些东西,有些情况下这样是好的。如果不想让它发挥,还是使用 claude 3.5 效果更好。
    haiku
        50
    haiku  
       35 天前
    现在日常 Cursor 里用 Gemini 2.5 Pro + Claude 3.7

    体验是普通 CURD ,web 前后端的架构 + 实现,都挺不错的,其实比刚入门的实习生和转码的都好不少,
    但是一旦涉及冷门业务,冷门算法,就没法用了,顶多让它踩坑,给点思路,大部分代码还得自己亲自写
    lll9p
        51
    lll9p  
       35 天前
    我用了一段时间,重构代码和写注释还是有点用处的,只要 test case 覆盖的好,让它改没啥问题。最近用 rust 重写了 gps-sdr-sim ,效果不错,不过主要逻辑和算法还得自己弄( https://github.com/lll9p/anywhere-sdr
    Xi
        52
    Xi  
       35 天前
    这能比?怀疑是企鹅的软广
    wulili
        53
    wulili  
       35 天前
    不能这么对比,AI 目前还只是擅长于解决特定的单一的问题,这并不稀奇,因为这些所谓的算法或者编程题都有现成的解决方案或者类似的解决方案,一旦问题和需求复杂点,涉及到整个项目,那能力就开始断崖式下跌。

    等什么时候腾讯不再招 T7 了,那才真正说明 AI 的代码水平能与之媲美了。
    skymanv2
        54
    skymanv2  
       35 天前
    请问楼主是用什么 ide 调用 Gemini 2.5 Pro 的?
    chanChristin
        55
    chanChristin  
       35 天前
    @parad 我测了不行,4.1 感觉太弱智了,碰到点难的问题就乱回复了。
    lzzzzl006
        56
    lzzzzl006  
       35 天前   ❤️ 1
    每月 20 美金就能买一个腾讯 T7 了,感谢这个时代的 AI
    Planarians
        57
    Planarians  
       35 天前 via iPhone   ❤️ 8
    想了半天腾讯 t7 是什么模型
    duzhuo
        58
    duzhuo  
       35 天前
    @Planarians 我也是
    sakujo
        59
    sakujo  
       35 天前
    我感觉各行各业应该集体共享出自己领域的信息数据,以后都让 ai 来搞好了,再把能源问题解决,人类真的可以彻底解放了。
    osilinka
        60
    osilinka  
       35 天前
    @bigtan 有什么好的教材入门吗?
    wsseo
        61
    wsseo  
       35 天前
    来让 AI 写个仓颉
    xuanwu
        62
    xuanwu  
       35 天前
    上万用户的输入也是它的训练素材,包括你的
    bigtan
        63
    bigtan  
       35 天前
    @shanks 程序员写代码,不也是搜索引擎查了 copy paste
    mlyykk
        64
    mlyykk  
       35 天前
    @bigtan 哥们你好,用得哪个平台呀?
    Promtheus
        65
    Promtheus  
       35 天前
    我觉得重要的是工程化的能力,代码只是落地。以后的程序员会更关注业务逻辑。
    mkt
        66
    mkt  
       35 天前
    T7 年薪多少
    tlanyan
        67
    tlanyan  
       35 天前
    个人感觉 claude 3.7 更好,gemini 生成的代码废话太多
    Leon777
        68
    Leon777  
       35 天前
    一时之间不知道是在骂谁😂
    zzzmh
        69
    zzzmh  
       35 天前
    有一楼说的对,单点突破能力特强
    举个例子,有个知名 docker 镜像,有 api 文档,让他用指定语言指定环境,开发一个工具类,我提供了详细配置和文档,然后他就一次过看。我第一次在 AI 这里一次过,震惊一百年。用的是 canvas 模式。
    claude 不清楚,用过 cursor ,用的默认的 AI 。喷之前叠个甲,可能我刚买两周,听说降智过了。我前端小白,我问他前端用 vue nuxt 搭配 naive ui 能不能行,他说能行,我让他搭一个,启动就报错。我让他删光,用 vue nuxt 搭空项目,过了,让他加入 naive ,炸了。错误信息好像是找不到 useragent 。关键是永远是这个错,我发给他控制台信息、浏览器控制台信息、反复发,反复截图。无果。最后逼得我换 react nextjs 才成功搭起来。
    elevioux
        70
    elevioux  
       35 天前
    让 AI 做算法题,写一些 demo 性质或总量不超过几千行的代码的项目,那肯定没问题的。

    但实际项目情况可能很复杂(混乱),AI 能做的就很有限了。
    lyxxxh2
        71
    lyxxxh2  
       35 天前

    有一个视频:/media/duyu/data/51/videos_2/2025-4/video_6_23_1_1.mp4
    用 opencv 的 cuda 打开视频,然后将帧尺寸压缩到 640*640,保存为 1.mp4
    正确:
    fps: int(cap.get(cv2.CAP_PROP_FPS)[1])
    frame: nextFrame
    (终于知道不用 release 了)
    这只是一个最简单,复杂些的,都不敢让他用 cuda 。
    如果指定个 cuda 示例文件给他,还是能用的。

    我需要做一个合成时间轴视频的操作。
    1. 读取 xxx.json
    2. 摄像头配置你可以读取 yongsheng_51.py ( 总共有 8 个摄像头,摄像头 ip 相同就是同个摄像头)
    3. 循环处理
    4. 找到最小 start_at 和最大 end_at 就可以知道整个时间轴范围了。
    - 比如: 时间范围:最小 start_at - 最大 end_at
    - 如: 2025-04-03 12:00:00 - 2025-04-03 12:05:00
    5. 我需要你将摄像头视频合成时间轴视频,最后:1.mp4 - 8.mp4,具体合成往下看。
    6. 如: 2025-04-03 12:00:00 - 2025-04-03 12:05:00 总共 5 分钟,每个摄像头都必须要满足 5 分钟视频。 (重点)
    - 如: 1.mp4
    - 查询所有 192.168.51.1 的视频。
    - 合并 2025-04-03 12:00:00 - 2025-04-03 12:05:00 的视频。
    - 视频肯定有很多真空的,比如最小 start_at 是 2025-04-03 12:00:30(开头缺少 30 秒) 或者中间真空一两分钟,或者后面真空
    - 因此,你需填充充真空期。
    - 真空越快填充越好
    一句话: 真空期要你填充,不真空就用视频,最后合成指定范围的时间轴视频。
    ps:
    我用了你多次,发现你并不能正确的生成视频。
    因此我允许你用更为简单的方式。
    ffmpeg 不用了。
    loryyang
        72
    loryyang  
       35 天前
    Gemini 非常强,是我现在的首选,AIStudio 上面免费额度很大,写代码啥的很好用
    xfq
        73
    xfq  
       35 天前
    我的体验还是不太行,有时在不太复杂的仓库里写前端代码,需求描述清晰(具体到每个元素该放到哪里)都实现不出来,不到一年经验的前端工程师都可以做到(就是慢一些)。
    yb2313
        74
    yb2313  
       35 天前
    t7 是什么 ai
    shunia
        75
    shunia  
       35 天前
    骗币的还是纯粹没文化?甚至是反串?
    我懵了。
    Hyxiao
        76
    Hyxiao  
       35 天前
    重点还是在于要把自己想要实现的需求给表达清楚,只有 AI 实现跟自己想法一致起来,就感觉 AI 真的大大提高了效率,之前工作量基本上都是想 AI 能明白我想要什么,但是现在感觉 Gemini2.5 pro 和 claude3.7 已经做的很好了,不仅理解你的想法(虽然有时候会出入)
    NoKey
        77
    NoKey  
       35 天前
    为啥我问了很多问题,他都不能正确解答,我要结合好多个 ai 的答案,自己分析,最后才能解决。。。
    HENQIGUAI
        78
    HENQIGUAI  
       35 天前
    @Planarians #57 一直看到你这楼才反应过来 T7 不是模型.....
    K332
        79
    K332  
       34 天前   ❤️ 2
    @lyxxxh2 为什么它叫你主人?
    stanley0black
        80
    stanley0black  
       34 天前
    @datou 一样,以为是腾讯的最新大模型
    o9JX2uy7xls82CU9
        81
    o9JX2uy7xls82CU9  
       34 天前
    .
    luckybigbear
        82
    luckybigbear  
       34 天前
    就问题本身而言,AI 让强者恒强,遇强就合作
    superkeke
        83
    superkeke  
       34 天前
    经常睁眼说瞎话的 Gemini ,你确定他有这么厉害?
    xiaofeilongyy555
        84
    xiaofeilongyy555  
       34 天前
    @superkeke 大模型是基于语料库的,冷门问题或者没训练过的内容大概率就会乱编,幻觉问题严重。训练过的内容特别是编程相关问题回答的非常好,可以极大提高程序员效率
    reallittoma
        85
    reallittoma  
       34 天前
    在 cursor 里面用过几次,感觉不如 Claude
    butanediol2d
        86
    butanediol2d  
       34 天前
    我觉得现在的大模型好像对 PromQL 都不太擅长,各家的 AI 都试过
    tbphp
        87
    tbphp  
       34 天前
    有需要 api 的兄弟可以联系我,我个人用不完的分享。
    yuntongz
        88
    yuntongz  
       34 天前
    @aloxaf 大概是你一次性丢给它的代码太多?通常我是让它实现一段逻辑,然后多次提问,自己组合,效果还不错。多段逻辑组合在一起,代码太多时,它就不太行了。
    kepenj
        89
    kepenj  
       34 天前
    第一反应鹅厂啥时候出了个编程模型叫 T7 了,鉴定为骗币贴~
    ychost
        90
    ychost  
       34 天前
    写算法题确实很厉害,但是工程不太行,代码写的不是很好,当然把它当做黑盒的话也无所谓代码质量了
    pigfloyd
        91
    pigfloyd  
       34 天前
    什么 leetcode 题目都是背出来的
    ShadowPower
        92
    ShadowPower  
       34 天前
    @superkeke
    有团队测过各模型的幻觉率,排行榜在这里:
    https://github.com/vectara/hallucination-leaderboard

    可以参考
    iv8d
        93
    iv8d  
       34 天前 via Android
    腾讯的这么厉害了啊
    shinygang
        94
    shinygang  
       34 天前
    你觉得转行很好转吗?
    Romic
        95
    Romic  
       34 天前
    说实话,真的是一坨垃圾 还是 chatgpt 的好用。编程能力和理解能力。
    adambob
        96
    adambob  
       33 天前
    我用马一龙的 grok 写代码,感觉挺好的。
    yunnysunny
        97
    yunnysunny  
       32 天前
    看标题,我以为 T7 是腾讯的大模型的版本名字。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5797 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 717ms · UTC 02:43 · PVG 10:43 · LAX 19:43 · JFK 22:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.