对 claude code 中的 kimi-k2 表现有些失望。

7 天前
 javalaw2010

由于最近在 claude code 中使用 kimi-k2 比较火,我尝试这种方法来完成一个中等强度的需求。

这是一个 PHP 项目,在生产实际运行的商业项目,基于 laravel 框架,经过本人多年坚持不懈的奋斗,终于变成了一个略微合格的小型屎山。这个屎山项目里面包含了一个 VIP 模块,包含了订单处理,订阅处理,会员权益等相关逻辑,其中涉及支付宝、微信、googleplay 内购等 API 、SDK 对接,规模说大也不大,说小也不小。

本次的任务就是尝试重构这个模块,目的是优化面条代码,拆分逻辑,不涉及 API 变动和数据库变动。

首次交代完成任务之后,由于 k2 的 API 比较慢,大约 1 个小时左右,完成了第一个版本。说实话,第一眼看上去还是满惊喜的,代码架构上的变更确实不错,值得学习。但是当我开始人工 review 代码时,这种美好的光景瞬间被打破,整个代码里充斥着相当多的显而易见的问题,比如导入了不存在的类,比如调用的方法传递了错误的参数,甚至参数数量都不对,比如调用了不存在的方法,整体而言,幻觉相当严重。

此时我还是不死心的,告知了他可能存在的错误,尝试让他修复这些问题,随着一番屏幕滚动,任务完成,然而那些问题依旧存在。

我当然不会就此罢手,心想着也许是 k2 上下文太短或者智力太低,那试试一次处理一个问题呢?

我新开了一个 session ,首先让他修复了导入了不存在的类的问题,果然,效果立竿见影,至少表面上看所有的文件中的导入是正确的了。

此时我感觉有了转机,趁热打铁,依葫芦画瓢,让他修复调用方法签名错误的问题,幻想着可以给同事安利这个组合了,然而这次打脸了,并没有能够取得很好的效果。

此时后台显示已经花费了 15 元人民币了,但 k2 写出来的代码甚至无法进入逻辑验证的阶段。

最后我想了一下,k2 的效果不好,可能是多方面的原因:

  1. 模型对 php 项目的支持不好,php 近年来没落的很快,可能没有足够高质量的代码供给大模型训练,再加上弱类型动态脚本语言,难以通过工具直接发现语法/代码错误,也许整体大模型对 php 支持都偏弱。

  2. claude code ,这玩意儿本身还是针对 claude 自家模型优化的,使用其他模型需要针对优化。也许使用其他的 agent 工具效果会不一样。

  3. 上下文过短,频繁压缩上下文导致关键的代码片段丢失。

2900 次点击
所在节点    Claude
22 条回复
yibie
7 天前
我觉得这未必是 Kimi2 一家 LLM 的问题,如果你能横向对比 Claude 和 Gemini 还有 ChatGPT 之间的表现,也许结论会更准确一些。
javalaw2010
7 天前
@yibie 尝试 Gemini-cli 在同样的项目中完成需求,模型是 2.5pro ,修改的是相同模块,虽然不是相同的需求,但也未能够完成需求,就完成度上来说,甚至体感上来讲比 kimi 还差一些。我晚些尝试下使用 gemini-cli 来完成相同的任务。
基于满血 claude 模型的 cc 我还没试过,太贵了,找中转的话又不知道会不会被换模型,不过 jetbrians 的 Junie Pro 试过,体感上会比 gemini 强一些,不过后来我发现 Junie 其实可以改模型,之前用的 sonnet 3.7 ,晚些可以改 sonnet 4 再试下。
illl
7 天前
可以试试 dpubao1.6 效果还可以
SiWXie
7 天前
kimi2 营销占大头,实测吐字很慢,性能也比 deepseek 差很多,可能连 qwen3 都不如,qwen3 日常使用挺流畅的,中小编程问题也没问题,kimi2 无论是官网版本还是 api 版本,编程没法用(吐字慢+幻觉,老是导入不存在东西)
he1293024908
7 天前
我觉得根源在于模型对话长度,加上这类 ai 编辑器本身就很吃 token ,加剧了健忘症以及对话长度导致的性能衰减,我 augment 也有这个问题,之前项目只有 2 个 py 脚本,加起来 100k 不到,augment 表现非常亮眼,然后我让 augment 重构这个项目,把各个功能拆分出来,结果折腾了整整一下午还没搞定,项目本身其实不复杂,但依然是各种 bug 和冲突,甚至我已经强调 xx 功能使用原项目的实现方式,依然给我瞎编
micean
7 天前
别用 cc ,用 cline/roocode 会好一点
我也在探索后端现存项目介入 videcoding 来规范化开发,好处是显而易见的,注释多了很多,方便生产文档。效率上尽量想取得平衡,因为实际上人脑效率高很多,ai 写的我还得做 review ,但是人会累机器不会。。。
iorilu
7 天前
对 AI 来说, 用于是从头写是最简单的, 老项目重构加功能等都很难
Kelan
7 天前
其实回答质量还可以,但是经常工具调用出问题,找不到文件、修改时报错之类的
zenghaojim33
7 天前
有试过 gemini cli 吗?
yh7gdiaYW
7 天前
正常,触及 AI 的能力上限了,现在完全由 AI 编程只适合新起一个脚手架项目,或者改几个功能比较独立的函数
tt67wq
7 天前
改屎山目前的 AI 模型都不咋样
javalaw2010
7 天前
@zenghaojim33 刚试完,也是一坨。。。
nakun233
7 天前
gemini 写规划和优化提示,然后塞给 claude
yulon
7 天前
K2 上下限差别太大了,可能是 MoE 的通病
Envov
6 天前
首先。你用 claude code 就坑了。哈哈。这个真不好用。。。对比下 cursor
oudioppa
6 天前
@micean 别用 cc ,用 cline/roocode 会好一点,是因为 cline 可以自己选模型吗?
micean
6 天前
@oudioppa 体感上任务成功率高点
tickingMachine
5 天前
一方面 cc / gemini-cli (CLI), cursor / vscode+copilot (IDE) 这些产品外壳在实现 AI coding Agent 的时候的工程有差异,另一方面就是模型自身能力(侧重 code/上下文窗口更大..),所以不太容易客观得出谁好谁差的结论。

民间的风评就是目前 CC 是 CLI 里面最好的,cursor 是 IDE 里面最好的
081957lF01y265H5
5 天前
我也试了 Kimi‑K2 ,确实在真实 GitHub issue 的 SWE‑bench 上表现还行…不过用 Claude Code 呼它出来总感觉会慢,好像是平台那边为了控制成本而限速?

而且甭管多强的模型,GPU 资源和调用成本都是真金白银赔,特别是测试期/调试期经常要临时拉机器。AWS Trainium 能省点训练算力,但短时实测、注重灵活性时,GPU / AI 专用算力开销也不少。

我自己常用的方案是:临时在 GCP/AWS 甚至 Azure 上拉按量 GPU ,配合 Spot / 边缘算力,用 NiceCloud 做多平台充值和代理代付,自助开通,不绑卡也不折腾账单,比官网价格更实惠,跑完随时删实例—省成本也省心。
bunny189
4 天前
kimi 就是傻 X 啊,还死贵,效果甚至还比不上豆包

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1146800

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX