最近测试了几款 AI 国产模型,结果比我想象的还复杂

49 天前
 catwalk

最近这两周,我一直在使用 cc + ccr 对不同 AI 模型的能力测试,想了解它们在实际应用中的表现。通过这些测试,我对几个热门模型有了一些使用上的心得和体会。

首先是 KimiDeepSeek。官网版,但体验并不理想。两者在执行时都显得有些“力不从心”,不仅效果不如预期,而且余额很快消耗光,主要都限速(要充钱才能变快),几乎没能完成什么有价值的输出。Kimi 我用于写代码较多,Deepseek 用推理较多,尽管如此,我还是持续关注它们,期待能有所改进。

后续出的 DeepSeek-V3.1 在最初测试时,竟然出现了“极”这样的异常情况,后面好像修复更新,也是拿来推理用。

接着,我试了 GLM-4.5。令我意外的是,GLM-4.5 的表现超出了我的预期:它的速度相对更快,且能够产出不错的效果。在与其他模型对比时,GLM-4.5 无疑给了我更多的惊喜,它的稳定性和表现让我觉得性价比更高。缺点就是上下文有点短。好消息是有包月套餐,算是 cc 的平替版,但在隔壁站传出扣费问题,写的文档不清晰等问题。

现在又有两个新模型发布了——qwen3-max-previewkimi-k2-0905256K。我首先测试了 kimi-k2-0905256K,发现它在前端的表现似乎不如 GLM-4.5,虽然其他方面的性能还没来得及详细测试,但初步使用下来,给我的感觉并不算太突出。

接着,测试 qwen3-max-preview,这次的体验可以用“崩溃”来形容。测试过程中,速度极慢,不仅如此,出错了还说修复问题,结果还把生成的文件都删掉了。这个过程让我产生了强烈的幻觉感,似乎 AI 开始“自己”不知道该生成什么了,完全没有方向。介绍写着这次版本减少了幻觉的现象,但从实测结果来看,幻觉问题依然存在,甚至比之前的 qwen 版本还要明显。

这两个新模型,目前的体验并没有带来太多突破。像 GLM-4.5 这样的模型,稳定性不错,另外据说 GPT-5 的效果有惊喜,后面再测试其他模型看看。综合来看,目前最好的效果还是 cc 。

各位都用哪些模型?

5474 次点击
所在节点    Claude
53 条回复
laikicka
49 天前
能信国产模型的这辈子都有了 特别最近还不让用 nv 卡了 通通要支持 huawei
zisen
49 天前
gpt5 话太多了,问一个简单的问题能回复一大篇文章,还要自己筛选其中的有效信息
Obj9527
48 天前
GPT5 前几天还好,最近两天感觉有点降智
至于编程我喜欢用 Claude Sonnet4
catwalk
48 天前
@alex8 官网还是其他的免费额度?如果说免费额度,有时候也遇到截流 中断
catwalk
48 天前
@234ygg 是的,不用中转,降智影响生产力,玩玩或者小东西 还可以用
catwalk
48 天前
@XuanYuan 曾经一直用 Grok ,就是因为他的数据与 x 关联,但是上次充值 5 美刀送 150 刀/月,没用多久,连 5 美刀都不见了,联系客服都没得到回复,这有点黑,说没就没,拉黑不用 x ai 了
catwalk
48 天前
@icyalala 内容是我自己写的,排版是让 ai 排版的,但他给我改了一些内容,我看了几遍 还特意改掉了,可能还有一些 ai 味在,这是我讨厌的地方,但我排版本身不好,所以用了一下 ai ,见谅
catwalk
48 天前
@laikick 本身不太想回复这个,国内这个情况我大概了解一些,在有限的资源下还能做出来,有进步,值得鼓励。

不让 nv 卡 支持国产芯片产业 那也是大国要走的方向,不能被卡脖子,但是没有新的光刻机,先进的只能让台积电代工,而因为地缘 zz 问题,现在只能用旧设备去想办法做。在这个情况下,能怎么样呢

首先我是测试和体验国产模型,国外的芯片是先进,但你说 “信国产模型的这辈子都有了”,就有点过了。

就简单说 国外的 AI 封号问题吧,1 是防止滥用,2 是地缘 zz 问题,3 是最近 a 社的问题,如果发展方向都是 3 这种问题,就被卡脖子,这时候国产模型的模型效果好,有了替代品那不是好事吗。

普通老百姓使用 Ai ,跟 gj 层面不一样,这其实就是 AI 竞赛,人才方面基本上不是问题,现在问题是先进芯片被卡,现在是地缘 zz 博弈的问题。

换个角度来看,美国也不被我们卡稀土的脖子吗,难道他们信他们的稀土段时间能发展起来,还跑去深海挖稀土,或者信他们的制造业,这辈子不也有了。
Liftman
48 天前
cc max 和 codex 。 没有必要折腾。。。

而且很多时候。测试的时候,能力部分接近只能说在简单情况下没问题。。

当你的任务变大,复杂度变高。他的正确率降低到哪怕只有 95%。。多轮对话之后的糟糕性概率会指数级起飞。。。

到时候还不是浪费自己的时间去找问题。。。

这就是为什么 cc 有一个 plan mode 。能用最好的模型进行第一步。保证底子。。

国产模型可以解决小问题,但是底子不行,永远不适合做工程性工作。
catwalk
48 天前
@Liftman 同意,正解
johnny2inc
48 天前
我这个只了解点前端三个和 Python 皮毛的小白这两天也在用 Claude Code 和 Claude Code Router 开发我人生第一个项目。

最初我还没了解到 CCR ,又因为不能稳定地使用 A 社的服务,所以我一开始就只是改配置文件,然后用了硅基流动的 Kimi K2 。

因为我从来没正经编程过,之前也没用过 Cursor ,所以我一上手 CC (虽然用的是 Kimi K2 模型),就感觉卧槽卧槽牛逼牛逼。

不过,这个我个人理解不算很难的项目,用掉我硅基流动里二百多块的额度后,还是没有搞出可用的版本。

过了一天,我了解到 CCR 这个项目,可以更方便地使用更多的渠道的模型了,我先换上了 gemini-2.5-pro 。这是我之前玩酒馆申请的 API ,套了一个轮询项目,玩酒馆还挺好使的。但用在 CC 上,各种报错,好像是截断很严重。最近没玩酒馆,不清楚酒馆里使用是不是也是截断严重。

后来我换成了各种渠道的 qwen3-coder ,哇,不知道为什么,就是感觉比 Kimi K2 强好多,项目推进速度快了很多。

我可以说是不懂编程,基本上都是 CC 在操作,除了之前 K2 花掉的二百多额度,今天 qwen3-coder 大概几个渠道又总共调用了 1500 次,然后目前除了前端部分地方很丑,我这个小项目感觉已经可用了。

目前没在 CC 里用过 Claude 系列的模型,也还没尝试过 GLM-4.5 ,gemini-2.5-pro 在我这又基本不可用。

只谈 qwen3-coder 和 Kimi K2 ,以我的体验,个人感觉 qwen3-coder 比 Kimi K2 强。

这个小玩意儿开发完之后,下一个小玩意儿打算全程使用 GLM-4.5 试试看。

最后,顺便问一下,CCR 里默认、后台、思考、长上下文、网络搜索、图像这几个模型你们都是设置的哪些模型?
我现在网络搜索选择使用 gemini-2.5-flash ,后台使用硅基流动里免费的 deepseek-ai/DeepSeek-R1-0528-Qwen3-8B ,其他三个都用的是 qwen3-coder 。
jjwjiang
48 天前
@234ygg 有没有什么指标能看出来被降过?
96
48 天前
楼主的测试貌似没有自己的指标。

全文描述语句使用了:

“理想,力不从心,不如预期,预期,惊喜,官网版和不错的效果”等。

得出的结论:

“比我想象的还复杂”
leonleung
48 天前
Kimi 充了一百,用 k2 很快就用光额度了。。。效果一般般
catwalk
48 天前
@johnny2inc ccr 作者说过,让专业的模型做专业的事,所以我也挺喜欢用 ccr ,主要学习研究,因为都是简单测试,所以只是体验分享,目前测试,小的东西 GLM-4.5 比较听话,大一点的项目 据说因为上下文短,效果也不理想,有在传智普在弄 256k 上下文,后面应该会更好点。

有时间可以折腾,没时间直接一步到位,我主要是想了解下各个模型的专长在哪,更好利用。也想看看各个模型之间的差距。

搜索和后台都用 gemini-2.5-flash ,后台注意,有些免费是限速。

默认看你认为哪个好,作为主力就用哪个。

上下文 gemini-2.5-pro ,或者其他 claude-sonnet 、claude-opus 。
catwalk
48 天前
@96 简单测试,个人感受,不是专业测评,见谅,只是分享一下
catwalk
48 天前
@leonleung 感觉比 cc 、gpt-5 还要贵,毕竟按干活来算,要做出东西才能算性价比,做不出东西等于浪费了
uni
48 天前
gpt plus 会员 20 美元一个月,codex 无限量。我感觉这 20 美元是我这辈子花得最值的钱
lishunjie
48 天前
坚定不移的使用 ChatGPT Plus 已有 2 年,这 2 年,隔一阵子蹦出来一个大模型号称对标 ChatGPT 3.5 、4.0 、4.5 ,还好没折腾,选择第一梯队领头羊准没错。
vipfts
48 天前
物理移民难, 数字移民还不简单

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1157569

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX