V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
javalaw2010
V2EX  ›  Claude

对 claude code 中的 kimi-k2 表现有些失望。

  •  
  •   javalaw2010 · 5 天前 · 2778 次点击

    由于最近在 claude code 中使用 kimi-k2 比较火,我尝试这种方法来完成一个中等强度的需求。

    这是一个 PHP 项目,在生产实际运行的商业项目,基于 laravel 框架,经过本人多年坚持不懈的奋斗,终于变成了一个略微合格的小型屎山。这个屎山项目里面包含了一个 VIP 模块,包含了订单处理,订阅处理,会员权益等相关逻辑,其中涉及支付宝、微信、googleplay 内购等 API 、SDK 对接,规模说大也不大,说小也不小。

    本次的任务就是尝试重构这个模块,目的是优化面条代码,拆分逻辑,不涉及 API 变动和数据库变动。

    首次交代完成任务之后,由于 k2 的 API 比较慢,大约 1 个小时左右,完成了第一个版本。说实话,第一眼看上去还是满惊喜的,代码架构上的变更确实不错,值得学习。但是当我开始人工 review 代码时,这种美好的光景瞬间被打破,整个代码里充斥着相当多的显而易见的问题,比如导入了不存在的类,比如调用的方法传递了错误的参数,甚至参数数量都不对,比如调用了不存在的方法,整体而言,幻觉相当严重。

    此时我还是不死心的,告知了他可能存在的错误,尝试让他修复这些问题,随着一番屏幕滚动,任务完成,然而那些问题依旧存在。

    我当然不会就此罢手,心想着也许是 k2 上下文太短或者智力太低,那试试一次处理一个问题呢?

    我新开了一个 session ,首先让他修复了导入了不存在的类的问题,果然,效果立竿见影,至少表面上看所有的文件中的导入是正确的了。

    此时我感觉有了转机,趁热打铁,依葫芦画瓢,让他修复调用方法签名错误的问题,幻想着可以给同事安利这个组合了,然而这次打脸了,并没有能够取得很好的效果。

    此时后台显示已经花费了 15 元人民币了,但 k2 写出来的代码甚至无法进入逻辑验证的阶段。

    最后我想了一下,k2 的效果不好,可能是多方面的原因:

    1. 模型对 php 项目的支持不好,php 近年来没落的很快,可能没有足够高质量的代码供给大模型训练,再加上弱类型动态脚本语言,难以通过工具直接发现语法/代码错误,也许整体大模型对 php 支持都偏弱。

    2. claude code ,这玩意儿本身还是针对 claude 自家模型优化的,使用其他模型需要针对优化。也许使用其他的 agent 工具效果会不一样。

    3. 上下文过短,频繁压缩上下文导致关键的代码片段丢失。

    第 1 条附言  ·  5 天前
    又尝试了 gemini-cli/和 roocode+kimi2 的方案来解决相同的问题。

    gemini-cli 生成的代码乍看起来有模有样,但是 review 过发现很奇怪,忘记导入类,改了类成员变量的名称,使用的地方有的改了有的又没改,对接支付渠道的代码有的写了有的留空没写。有点像上学时班上粗心大意的中等生。

    roocode+kimi2 生成了将近 2 个小时,给我整了一个巨复杂的方案,六边形+DDD ,原本 2000 行左右的逻辑,硬生生给我干出来了整整 80 个文件,添加了很多我不需要的逻辑,看起来有点过度设计,最关键的对接支付渠道的代码全给扔了,留了几行 mock 代码。。。
    22 条回复    2025-07-25 15:38:51 +08:00
    yibie
        1
    yibie  
       5 天前   ❤️ 1
    我觉得这未必是 Kimi2 一家 LLM 的问题,如果你能横向对比 Claude 和 Gemini 还有 ChatGPT 之间的表现,也许结论会更准确一些。
    javalaw2010
        2
    javalaw2010  
    OP
       5 天前
    @yibie 尝试 Gemini-cli 在同样的项目中完成需求,模型是 2.5pro ,修改的是相同模块,虽然不是相同的需求,但也未能够完成需求,就完成度上来说,甚至体感上来讲比 kimi 还差一些。我晚些尝试下使用 gemini-cli 来完成相同的任务。
    基于满血 claude 模型的 cc 我还没试过,太贵了,找中转的话又不知道会不会被换模型,不过 jetbrians 的 Junie Pro 试过,体感上会比 gemini 强一些,不过后来我发现 Junie 其实可以改模型,之前用的 sonnet 3.7 ,晚些可以改 sonnet 4 再试下。
    illl
        3
    illl  
       5 天前 via iPhone
    可以试试 dpubao1.6 效果还可以
    SiWXie
        4
    SiWXie  
       5 天前 via iPhone
    kimi2 营销占大头,实测吐字很慢,性能也比 deepseek 差很多,可能连 qwen3 都不如,qwen3 日常使用挺流畅的,中小编程问题也没问题,kimi2 无论是官网版本还是 api 版本,编程没法用(吐字慢+幻觉,老是导入不存在东西)
    he1293024908
        5
    he1293024908  
       5 天前
    我觉得根源在于模型对话长度,加上这类 ai 编辑器本身就很吃 token ,加剧了健忘症以及对话长度导致的性能衰减,我 augment 也有这个问题,之前项目只有 2 个 py 脚本,加起来 100k 不到,augment 表现非常亮眼,然后我让 augment 重构这个项目,把各个功能拆分出来,结果折腾了整整一下午还没搞定,项目本身其实不复杂,但依然是各种 bug 和冲突,甚至我已经强调 xx 功能使用原项目的实现方式,依然给我瞎编
    micean
        6
    micean  
       5 天前
    别用 cc ,用 cline/roocode 会好一点
    我也在探索后端现存项目介入 videcoding 来规范化开发,好处是显而易见的,注释多了很多,方便生产文档。效率上尽量想取得平衡,因为实际上人脑效率高很多,ai 写的我还得做 review ,但是人会累机器不会。。。
    iorilu
        7
    iorilu  
       5 天前
    对 AI 来说, 用于是从头写是最简单的, 老项目重构加功能等都很难
    Kelan
        8
    Kelan  
       5 天前
    其实回答质量还可以,但是经常工具调用出问题,找不到文件、修改时报错之类的
    zenghaojim33
        9
    zenghaojim33  
       5 天前
    有试过 gemini cli 吗?
    yh7gdiaYW
        10
    yh7gdiaYW  
       5 天前
    正常,触及 AI 的能力上限了,现在完全由 AI 编程只适合新起一个脚手架项目,或者改几个功能比较独立的函数
    tt67wq
        11
    tt67wq  
       5 天前
    改屎山目前的 AI 模型都不咋样
    javalaw2010
        12
    javalaw2010  
    OP
       5 天前
    @zenghaojim33 刚试完,也是一坨。。。
    nakun233
        13
    nakun233  
       5 天前
    gemini 写规划和优化提示,然后塞给 claude
    yulon
        14
    yulon  
       5 天前
    K2 上下限差别太大了,可能是 MoE 的通病
    Envov
        15
    Envov  
       5 天前
    首先。你用 claude code 就坑了。哈哈。这个真不好用。。。对比下 cursor
    oudioppa
        16
    oudioppa  
       5 天前
    @micean 别用 cc ,用 cline/roocode 会好一点,是因为 cline 可以自己选模型吗?
    micean
        17
    micean  
       4 天前
    @oudioppa 体感上任务成功率高点
    tickingMachine
        18
    tickingMachine  
       4 天前
    一方面 cc / gemini-cli (CLI), cursor / vscode+copilot (IDE) 这些产品外壳在实现 AI coding Agent 的时候的工程有差异,另一方面就是模型自身能力(侧重 code/上下文窗口更大..),所以不太容易客观得出谁好谁差的结论。

    民间的风评就是目前 CC 是 CLI 里面最好的,cursor 是 IDE 里面最好的
    081957lF01y265H5
        19
    081957lF01y265H5  
       4 天前
    我也试了 Kimi‑K2 ,确实在真实 GitHub issue 的 SWE‑bench 上表现还行…不过用 Claude Code 呼它出来总感觉会慢,好像是平台那边为了控制成本而限速?

    而且甭管多强的模型,GPU 资源和调用成本都是真金白银赔,特别是测试期/调试期经常要临时拉机器。AWS Trainium 能省点训练算力,但短时实测、注重灵活性时,GPU / AI 专用算力开销也不少。

    我自己常用的方案是:临时在 GCP/AWS 甚至 Azure 上拉按量 GPU ,配合 Spot / 边缘算力,用 NiceCloud 做多平台充值和代理代付,自助开通,不绑卡也不折腾账单,比官网价格更实惠,跑完随时删实例—省成本也省心。
    bunny189
        20
    bunny189  
       2 天前
    kimi 就是傻 X 啊,还死贵,效果甚至还比不上豆包
    yibie
        21
    yibie  
       2 天前
    @javalaw2010 Gemini CLI 对 Tools 的使用是很奇怪的,往往因为它没能顺利写入,就会重新自己输出一份完整的文件,再进行覆盖。往往这个时候,Gemini 很容易出现幻觉,而且会消耗大量的 Token 。

    我的做法是这样的,让它不要直接修改文件,把需要修改的代码,用 diff 的方式输出在对话。然后把修改好的部分,贴到 Cursor ,让 Cursor 的 Auto 模式下来进行修改。这样子非常精确,不敢说 100% 没有幻觉,但真的比之前精确多了。
    huc2
        22
    huc2  
       2 天前
    cc 有一个问题,我一般是不放心全部交给 AI 的,所以我都是手动 accept ,但是 cc 不是一次性生成完整的代码询问我是否接受,是一部分一部分问我,有时候就 import 了一个包都先问我要不要接受,他再生成接下来的,太麻烦了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2546 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 11:16 · PVG 19:16 · LAX 04:16 · JFK 07:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.