由于最近在 claude code 中使用 kimi-k2 比较火,我尝试这种方法来完成一个中等强度的需求。
这是一个 PHP 项目,在生产实际运行的商业项目,基于 laravel 框架,经过本人多年坚持不懈的奋斗,终于变成了一个略微合格的小型屎山。这个屎山项目里面包含了一个 VIP 模块,包含了订单处理,订阅处理,会员权益等相关逻辑,其中涉及支付宝、微信、googleplay 内购等 API 、SDK 对接,规模说大也不大,说小也不小。
本次的任务就是尝试重构这个模块,目的是优化面条代码,拆分逻辑,不涉及 API 变动和数据库变动。
首次交代完成任务之后,由于 k2 的 API 比较慢,大约 1 个小时左右,完成了第一个版本。说实话,第一眼看上去还是满惊喜的,代码架构上的变更确实不错,值得学习。但是当我开始人工 review 代码时,这种美好的光景瞬间被打破,整个代码里充斥着相当多的显而易见的问题,比如导入了不存在的类,比如调用的方法传递了错误的参数,甚至参数数量都不对,比如调用了不存在的方法,整体而言,幻觉相当严重。
此时我还是不死心的,告知了他可能存在的错误,尝试让他修复这些问题,随着一番屏幕滚动,任务完成,然而那些问题依旧存在。
我当然不会就此罢手,心想着也许是 k2 上下文太短或者智力太低,那试试一次处理一个问题呢?
我新开了一个 session ,首先让他修复了导入了不存在的类的问题,果然,效果立竿见影,至少表面上看所有的文件中的导入是正确的了。
此时我感觉有了转机,趁热打铁,依葫芦画瓢,让他修复调用方法签名错误的问题,幻想着可以给同事安利这个组合了,然而这次打脸了,并没有能够取得很好的效果。
此时后台显示已经花费了 15 元人民币了,但 k2 写出来的代码甚至无法进入逻辑验证的阶段。
最后我想了一下,k2 的效果不好,可能是多方面的原因:
模型对 php 项目的支持不好,php 近年来没落的很快,可能没有足够高质量的代码供给大模型训练,再加上弱类型动态脚本语言,难以通过工具直接发现语法/代码错误,也许整体大模型对 php 支持都偏弱。
claude code ,这玩意儿本身还是针对 claude 自家模型优化的,使用其他模型需要针对优化。也许使用其他的 agent 工具效果会不一样。
上下文过短,频繁压缩上下文导致关键的代码片段丢失。
![]() |
1
yibie 5 天前 ![]() 我觉得这未必是 Kimi2 一家 LLM 的问题,如果你能横向对比 Claude 和 Gemini 还有 ChatGPT 之间的表现,也许结论会更准确一些。
|
![]() |
2
javalaw2010 OP @yibie 尝试 Gemini-cli 在同样的项目中完成需求,模型是 2.5pro ,修改的是相同模块,虽然不是相同的需求,但也未能够完成需求,就完成度上来说,甚至体感上来讲比 kimi 还差一些。我晚些尝试下使用 gemini-cli 来完成相同的任务。
基于满血 claude 模型的 cc 我还没试过,太贵了,找中转的话又不知道会不会被换模型,不过 jetbrians 的 Junie Pro 试过,体感上会比 gemini 强一些,不过后来我发现 Junie 其实可以改模型,之前用的 sonnet 3.7 ,晚些可以改 sonnet 4 再试下。 |
![]() |
3
illl 5 天前 via iPhone
可以试试 dpubao1.6 效果还可以
|
4
SiWXie 5 天前 via iPhone
kimi2 营销占大头,实测吐字很慢,性能也比 deepseek 差很多,可能连 qwen3 都不如,qwen3 日常使用挺流畅的,中小编程问题也没问题,kimi2 无论是官网版本还是 api 版本,编程没法用(吐字慢+幻觉,老是导入不存在东西)
|
5
he1293024908 5 天前
我觉得根源在于模型对话长度,加上这类 ai 编辑器本身就很吃 token ,加剧了健忘症以及对话长度导致的性能衰减,我 augment 也有这个问题,之前项目只有 2 个 py 脚本,加起来 100k 不到,augment 表现非常亮眼,然后我让 augment 重构这个项目,把各个功能拆分出来,结果折腾了整整一下午还没搞定,项目本身其实不复杂,但依然是各种 bug 和冲突,甚至我已经强调 xx 功能使用原项目的实现方式,依然给我瞎编
|
6
micean 5 天前
别用 cc ,用 cline/roocode 会好一点
我也在探索后端现存项目介入 videcoding 来规范化开发,好处是显而易见的,注释多了很多,方便生产文档。效率上尽量想取得平衡,因为实际上人脑效率高很多,ai 写的我还得做 review ,但是人会累机器不会。。。 |
![]() |
7
iorilu 5 天前
对 AI 来说, 用于是从头写是最简单的, 老项目重构加功能等都很难
|
8
Kelan 5 天前
其实回答质量还可以,但是经常工具调用出问题,找不到文件、修改时报错之类的
|
9
zenghaojim33 5 天前
有试过 gemini cli 吗?
|
![]() |
10
yh7gdiaYW 5 天前
正常,触及 AI 的能力上限了,现在完全由 AI 编程只适合新起一个脚手架项目,或者改几个功能比较独立的函数
|
![]() |
11
tt67wq 5 天前
改屎山目前的 AI 模型都不咋样
|
![]() |
12
javalaw2010 OP @zenghaojim33 刚试完,也是一坨。。。
|
13
nakun233 5 天前
gemini 写规划和优化提示,然后塞给 claude
|
14
yulon 5 天前
K2 上下限差别太大了,可能是 MoE 的通病
|
![]() |
15
Envov 5 天前
首先。你用 claude code 就坑了。哈哈。这个真不好用。。。对比下 cursor
|
18
tickingMachine 4 天前
一方面 cc / gemini-cli (CLI), cursor / vscode+copilot (IDE) 这些产品外壳在实现 AI coding Agent 的时候的工程有差异,另一方面就是模型自身能力(侧重 code/上下文窗口更大..),所以不太容易客观得出谁好谁差的结论。
民间的风评就是目前 CC 是 CLI 里面最好的,cursor 是 IDE 里面最好的 |
![]() |
19
081957lF01y265H5 4 天前
我也试了 Kimi‑K2 ,确实在真实 GitHub issue 的 SWE‑bench 上表现还行…不过用 Claude Code 呼它出来总感觉会慢,好像是平台那边为了控制成本而限速?
而且甭管多强的模型,GPU 资源和调用成本都是真金白银赔,特别是测试期/调试期经常要临时拉机器。AWS Trainium 能省点训练算力,但短时实测、注重灵活性时,GPU / AI 专用算力开销也不少。 我自己常用的方案是:临时在 GCP/AWS 甚至 Azure 上拉按量 GPU ,配合 Spot / 边缘算力,用 NiceCloud 做多平台充值和代理代付,自助开通,不绑卡也不折腾账单,比官网价格更实惠,跑完随时删实例—省成本也省心。 |
20
bunny189 2 天前
kimi 就是傻 X 啊,还死贵,效果甚至还比不上豆包
|
![]() |
21
yibie 2 天前
@javalaw2010 Gemini CLI 对 Tools 的使用是很奇怪的,往往因为它没能顺利写入,就会重新自己输出一份完整的文件,再进行覆盖。往往这个时候,Gemini 很容易出现幻觉,而且会消耗大量的 Token 。
我的做法是这样的,让它不要直接修改文件,把需要修改的代码,用 diff 的方式输出在对话。然后把修改好的部分,贴到 Cursor ,让 Cursor 的 Auto 模式下来进行修改。这样子非常精确,不敢说 100% 没有幻觉,但真的比之前精确多了。 |
![]() |
22
huc2 2 天前
cc 有一个问题,我一般是不放心全部交给 AI 的,所以我都是手动 accept ,但是 cc 不是一次性生成完整的代码询问我是否接受,是一部分一部分问我,有时候就 import 了一个包都先问我要不要接受,他再生成接下来的,太麻烦了
|