官方称 “GLM-4.5 在包含推理、代码、智能体的综合能力达到开源 SOTA 水平,在真实代码智能体的人工对比评测中,实测国内最佳。”
号称拳打 kimik2 ,脚踢 qwen3-coder ,仅比 Claude-4 稍弱( qwen3-coder 不也这么吹的么)。
测不动,真测不动了,哪位老哥有兴趣测完说说体验
![]() |
1
miracleyin 3 天前
官网 chatbot 测试了一下,感觉不太聪明
|
![]() |
2
iorilu 3 天前
随便吹牛逼, 我只信 claude , 除非免费, 那可以试试
|
3
sthwrong 3 天前
复杂的我用 claude 4, 弱一点的 claude 3.7, 常规的 k2 。qwen3-coder 比 qwen3 本身还难受,感觉好像过于专精结果丧失了需求的理解能力,更别说 api 真的贵。
|
4
thatlazyman 3 天前
审查比较严格,我试一下问个代理问题被禁止回答
|
5
zzfly256 2 天前
正在对接,API 和 GLM 4 感觉断档了,多了不少参数
|
![]() |
6
darksword21 2 天前 via iPhone
只用 claude ,除非哪天全网都在说某模型爆锤 claude ,不然为什么要浪费时间关心和对比一堆效果差的模型
|
![]() |
7
kebamt 2 天前
|
![]() |
9
qxmqh 2 天前
只用克劳德。其他的都是浪费时间。
|
10
mintist 2 天前
白开了 50 块钱,配合 Claude Code 不太行,,,
|
11
oceanclock 2 天前
和 kimi k2 一样的慢,上下文不如 qwen3 ,会过度思考,感觉还是不太行,等官方调优一波
|
![]() |
12
tt67wq 2 天前
50 块的羊毛薅的人估计有点多,卡的狠
|
![]() |
13
hellodigua 2 天前
测试了一下,不太行,速度很慢,不太实用
|
![]() |
14
yb2313 2 天前
用过 kimi 和智谱, 感觉像脑袋尖尖阿诺, 目前使用体验最好的是阿里 qw3 一些新的模型, 然后是 gpt 的, 还有密塔的也不错. 再然后就是 dk 的 r1, 然后代码这一块肯定是 claude4 和 qwcoder. 平时我是用插件同时问多个网页的 ai 的, 基本上所有 ai 都用过, 包括法国团队的那些什么模型. 综合来说 qw 的体验最好, 但不能用国内的 qw, 连暗黑模式都没有, 我用的这插件里也不能强制暗黑模式
|
![]() |
15
coer 2 天前
我最近从 cursor 换到 claude code+kimi k2 ,感觉 k2 的效果还不错,不过可能我写的代码比较简单
|
![]() |
17
akjarjash 2 天前
因为垃圾不需要评论
|
18
Seck 2 天前 via Android
内行都知道,国内除了阿里开源,别的都是吹牛逼,什么新技术都不用考虑,习惯了刷榜,大家都麻了!
|
![]() |
19
crytis 2 天前
实测又傻又懒,还不如 deepseek ,更不如同时开源的 Qwen3-235B-A22B-2507
|
![]() |
22
phrack 2 天前
但凡它真的能做到牛逼超越闭源模型,它就会停止开源
能赚钱的事谁会嫌弃寒碜 |
![]() |
23
unidotnet 2 天前
我前面还付了 6.9 支持了下,然后发现以前买的 api 一次都没用过期了
|
24
crackidz 2 天前
@cecil2016 K2 价格比 Claude 系列模型可便宜多了,一个问题修复,CC 提示费用是几刀的 API 调用费用,K2 是大概 0.6 人民币的费用。Qwen 就比较离谱,一个 issue 都欠费 50 块了,最后也没解决...
|
![]() |
25
HetFrame 19 小时 44 分钟前
全在瞎喷。试过了,写代码吊打 r1 0528 ,和 qwen3-coder 大差不差,特别是代码量很长的情况下,glm4.5 真的很听话,而且幻觉很低,以往用 r1 全在瞎搞。最后,又开源又便宜,我认为它是新的国产之光。
|