最近测试了几款 AI 国产模型，结果比我想象的还复杂

最近这两周，我一直在使用 cc + ccr 对不同 AI 模型的能力测试，想了解它们在实际应用中的表现。通过这些测试，我对几个热门模型有了一些使用上的心得和体会。

首先是 Kimi 和 DeepSeek。官网版，但体验并不理想。两者在执行时都显得有些“力不从心”，不仅效果不如预期，而且余额很快消耗光，主要都限速（要充钱才能变快），几乎没能完成什么有价值的输出。Kimi 我用于写代码较多，Deepseek 用推理较多，尽管如此，我还是持续关注它们，期待能有所改进。

后续出的 DeepSeek-V3.1 在最初测试时，竟然出现了“极”这样的异常情况，后面好像修复更新，也是拿来推理用。

接着，我试了 GLM-4.5。令我意外的是，GLM-4.5 的表现超出了我的预期：它的速度相对更快，且能够产出不错的效果。在与其他模型对比时，GLM-4.5 无疑给了我更多的惊喜，它的稳定性和表现让我觉得性价比更高。缺点就是上下文有点短。好消息是有包月套餐，算是 cc 的平替版，但在隔壁站传出扣费问题，写的文档不清晰等问题。

现在又有两个新模型发布了——qwen3-max-preview 和 kimi-k2-0905256K。我首先测试了 kimi-k2-0905256K，发现它在前端的表现似乎不如 GLM-4.5，虽然其他方面的性能还没来得及详细测试，但初步使用下来，给我的感觉并不算太突出。

接着，测试 qwen3-max-preview，这次的体验可以用“崩溃”来形容。测试过程中，速度极慢，不仅如此，出错了还说修复问题，结果还把生成的文件都删掉了。这个过程让我产生了强烈的幻觉感，似乎 AI 开始“自己”不知道该生成什么了，完全没有方向。介绍写着这次版本减少了幻觉的现象，但从实测结果来看，幻觉问题依然存在，甚至比之前的 qwen 版本还要明显。

这两个新模型，目前的体验并没有带来太多突破。像 GLM-4.5 这样的模型，稳定性不错，另外据说 GPT-5 的效果有惊喜，后面再测试其他模型看看。综合来看，目前最好的效果还是 cc 。

各位都用哪些模型？

catwalk

48 天前

@laikick 本身不太想回复这个，国内这个情况我大概了解一些，在有限的资源下还能做出来，有进步，值得鼓励。

不让 nv 卡支持国产芯片产业那也是大国要走的方向，不能被卡脖子，但是没有新的光刻机，先进的只能让台积电代工，而因为地缘 zz 问题，现在只能用旧设备去想办法做。在这个情况下，能怎么样呢

首先我是测试和体验国产模型，国外的芯片是先进，但你说 “信国产模型的这辈子都有了”，就有点过了。

就简单说国外的 AI 封号问题吧，1 是防止滥用，2 是地缘 zz 问题，3 是最近 a 社的问题，如果发展方向都是 3 这种问题，就被卡脖子，这时候国产模型的模型效果好，有了替代品那不是好事吗。

普通老百姓使用 Ai ，跟 gj 层面不一样，这其实就是 AI 竞赛，人才方面基本上不是问题，现在问题是先进芯片被卡，现在是地缘 zz 博弈的问题。

换个角度来看，美国也不被我们卡稀土的脖子吗，难道他们信他们的稀土段时间能发展起来，还跑去深海挖稀土，或者信他们的制造业，这辈子不也有了。

Liftman

48 天前

cc max 和 codex 。没有必要折腾。。。

而且很多时候。测试的时候，能力部分接近只能说在简单情况下没问题。。

当你的任务变大，复杂度变高。他的正确率降低到哪怕只有 95%。。多轮对话之后的糟糕性概率会指数级起飞。。。

到时候还不是浪费自己的时间去找问题。。。

这就是为什么 cc 有一个 plan mode 。能用最好的模型进行第一步。保证底子。。

国产模型可以解决小问题，但是底子不行，永远不适合做工程性工作。

johnny2inc

48 天前

我这个只了解点前端三个和 Python 皮毛的小白这两天也在用 Claude Code 和 Claude Code Router 开发我人生第一个项目。

最初我还没了解到 CCR ，又因为不能稳定地使用 A 社的服务，所以我一开始就只是改配置文件，然后用了硅基流动的 Kimi K2 。

因为我从来没正经编程过，之前也没用过 Cursor ，所以我一上手 CC （虽然用的是 Kimi K2 模型），就感觉卧槽卧槽牛逼牛逼。

不过，这个我个人理解不算很难的项目，用掉我硅基流动里二百多块的额度后，还是没有搞出可用的版本。

过了一天，我了解到 CCR 这个项目，可以更方便地使用更多的渠道的模型了，我先换上了 gemini-2.5-pro 。这是我之前玩酒馆申请的 API ，套了一个轮询项目，玩酒馆还挺好使的。但用在 CC 上，各种报错，好像是截断很严重。最近没玩酒馆，不清楚酒馆里使用是不是也是截断严重。

后来我换成了各种渠道的 qwen3-coder ，哇，不知道为什么，就是感觉比 Kimi K2 强好多，项目推进速度快了很多。

我可以说是不懂编程，基本上都是 CC 在操作，除了之前 K2 花掉的二百多额度，今天 qwen3-coder 大概几个渠道又总共调用了 1500 次，然后目前除了前端部分地方很丑，我这个小项目感觉已经可用了。

目前没在 CC 里用过 Claude 系列的模型，也还没尝试过 GLM-4.5 ，gemini-2.5-pro 在我这又基本不可用。

只谈 qwen3-coder 和 Kimi K2 ，以我的体验，个人感觉 qwen3-coder 比 Kimi K2 强。

这个小玩意儿开发完之后，下一个小玩意儿打算全程使用 GLM-4.5 试试看。

最后，顺便问一下，CCR 里默认、后台、思考、长上下文、网络搜索、图像这几个模型你们都是设置的哪些模型？
我现在网络搜索选择使用 gemini-2.5-flash ，后台使用硅基流动里免费的 deepseek-ai/DeepSeek-R1-0528-Qwen3-8B ，其他三个都用的是 qwen3-coder 。

catwalk

48 天前

@johnny2inc ccr 作者说过，让专业的模型做专业的事，所以我也挺喜欢用 ccr ，主要学习研究，因为都是简单测试，所以只是体验分享，目前测试，小的东西 GLM-4.5 比较听话，大一点的项目据说因为上下文短，效果也不理想，有在传智普在弄 256k 上下文，后面应该会更好点。

有时间可以折腾，没时间直接一步到位，我主要是想了解下各个模型的专长在哪，更好利用。也想看看各个模型之间的差距。

搜索和后台都用 gemini-2.5-flash ，后台注意，有些免费是限速。

默认看你认为哪个好，作为主力就用哪个。

上下文 gemini-2.5-pro ，或者其他 claude-sonnet 、claude-opus 。