GLM-4.7 上线并开源:更强的编码

1 天前
 Zhipuai

GLM-4.7 上线并开源。 新版本面向 Coding 场景强化了编码能力、长程任务规划与工具协同,并在多项主流公开基准测试中取得开源模型中的领先表现。

目前,GLM-4.7 已通过 BigModel.cn 提供 API ,并在 z.ai 全栈开发模式中上线 Skills 模块,支持多模态任务的统一规划与协作。

Coding 能力再提升

GLM-4.7 在编程、推理与智能体三个维度实现突破:

Code Arena:全球百万用户参与盲测的专业编码评估系统,GLM-4.7 位列开源第一、国产第一,超过 GPT-5.2 。

在主流基准测试表现中,GLM-4.7 的代码能力对齐 Claude Sonnet 4.5: 在 SWE-bench-Verified 获得 73.8% 的开源 SOTA 分数; 在 LiveCodeBench V6 达到 84.9% 的开源 SOTA 分数,超过 Claude Sonnet 4.5 ; SWE-bench Multilingual 达到 66.7%(提升 12.9%); Terminal Bench 2.0 达到 41%(提升 16.5%)。

真实编程场景下的体感提升

在 Claude Code 环境中,我们对 100 个真实编程任务进行了测试,覆盖前端、后端与指令遵循等核心能力。结果显示,GLM-4.7 相较 GLM-4.6 在稳定性与可交付性上均有明显提升。

GLM Coding Plan

作为本次升级的首个体验权益,所有购买套餐的用户将获得「体验卡」礼包,可邀请 3–7 位新用户免费体验 7 天套餐权益。

领取链接:[https://zhipuaishengchan.datasink.sensorsdata.cn/t/kc]

6456 次点击
所在节点    程序员
98 条回复
jokcylou
17 小时 52 分钟前
@LaTero 这多少有点阴谋论了
jokcylou
17 小时 49 分钟前
@shunia 本来也是有前提的,价格开源就是,如果没有限制我肯定也首选 opus ,谁都会这么选,但现实就是有限制。对我来说价格便宜 5 倍能达到 70-80 的效果我是能接受的,毕竟即便 opus 写的代码我大概率也会做一些修改
Altschmerz
17 小时 36 分钟前
glm4.6 非常垃圾,给它一个文档去读出其中参数,它给出的回答里疯狂添加文档里没有的参数。我自己一步步让它修改成想要的参数了,然后让它重新读一下,又变成原来错误的参数了,气的我只能骂这个模型了。
Alias4ck
17 小时 15 分钟前
太爱写代码了
就是吹的天花乱坠,模型能力也不行
KingFong
17 小时 7 分钟前
KIMI 那次真的有点被诈骗的感觉。
LaTero
15 小时 53 分钟前
@jokcylou 这有什么阴谋论,载荷大才会降智啊,载荷和工作时间有关,假如主要是中国人在用,那其他时区的就不容易被降智。
LaTero
15 小时 44 分钟前
@jokcylou 对了,我看你上面回复你用的是 API ?按量付费的 API 一般不会降智,降智主要是固定费率的订阅制,比如楼里给差评的人用的 coding plan 。
ClaudeCode
15 小时 3 分钟前
前段时间在 L 站看到智谱小编发表类似于正在通宵赶进度上线 GLM-4.7 的言论。
好感度降到冰点, 哈哈哈哈
dcatfly
14 小时 51 分钟前
下午想测试下 glm4.7 ,开通了实名认证,平台送了 500w 的 tokens ,但竟然是 glm4.6 的
自己充了 5 块钱做测试,下午 3 点多的时候,在 claude code 中使用 速度慢的没法用,一个 py 脚本写了 20 分钟还没写完。。。同一时间 m2.1 速度倒是正常的
xnplus
12 小时 57 分钟前
手机号修改,国外手机改国内,默认+86 必须重新手工再选一遍才能收到验证码
gotoschool
12 小时 43 分钟前
请给我们退下款?@zhipuai ?
DCjanus
10 小时 7 分钟前
在 GLM 4.5 后期和 GLM 4.6 早期被坑的有点狠,现在看到 GLM 就想到我还没用完的年付套餐,心痛。
uuundefined
9 小时 25 分钟前
公众号上推文很多,实际还不太行。虽说价格号称是 claude 的 1/7, 但是实际 token 烧的更快,并且就算你花 7 倍的 token ,复杂项目也不一定能写出同样的效果
infreboot
1 小时 42 分钟前
4.6 被骗了路过,一问就咔咔乱干……真几把坑
hikarumx
35 分钟前
主要是被 4.6 坑过了,大家有情绪很正常。 我本人来说,4.7 还没体验,不发表意见, 后续有空会体验下。还是希望国产能做好做强。
0x5c0f
34 分钟前
4.5 开始我就在用了,但实际体验并不是很好,如果以最终结果来进行计算,实际消耗的费用和 claude 这些差不多甚至更高,还有个最让人感觉到体验不好的点,不会完全遵循系统提示词设定的规则和限制
encro
27 分钟前
太贼了吧,
lmarena.ai 22 上榜截个图?
然后 23 日的榜单就没影子了?
是我大惊小怪还是常规操作?
beiyanpiki
26 分钟前
@nomisk 闲鱼一大堆这种

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1180676

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX