V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
vincentqi
V2EX  ›  程序员

请教关于大模型 token 消耗的疑问,感觉随便一个任务就能消耗百万 token

  •  
  •   vincentqi · 9 天前 · 2723 次点击
    最近在用一些国产大模型 API ,感觉效果比 trae 官方的效果好很多,又快又好。所以是不是 trae 一些官方接入的模型,上下文被严重压缩了,以至于用起来降智特别严重。

    另一个问题是,它的思考过程,是不是有可能会把整个项目文档作为输入去思考,所以一个问题直接消耗百万 token ?
    13 条回复    2025-08-17 01:04:04 +08:00
    PositionZero
        1
    PositionZero  
       9 天前   ❤️ 1
    1. 官方提供的 API 都是满血版本,AI IDE 提供的一般是残血版(降低上下文、降低思考强度等)。在 AI IDE 中用满血版一般需要额外付费(比如 cursor 的 Max Mode )。
    2. 一般不可能输入整个项目文档作为上下文。token 消耗快是因为每个问题都有很长的 system prompt 。
    bbbblue
        2
    bbbblue  
       9 天前   ❤️ 1
    你可以用下 cline 然后点开他的上下文 可以看到里面塞了多少东西
    你就光问一个问题 他就会把整个目录树全塞进去(不过 cline 他们的教条是不做 RAG 所以文件读取也是整个的)

    那种订阅制的 AI 插件/IDE 不会塞这么多东西的
    vclin
        3
    vclin  
       9 天前 via iPhone
    2k 不到的单次上下文使用,给我缓存了两百多 k…哎
    kneo
        4
    kneo  
       9 天前
    你说的莫不是 qwen3 ?
    vincentqi
        5
    vincentqi  
    OP
       9 天前
    @kneo Yes
    kneo
        6
    kneo  
       9 天前
    @vincentqi 虽然我没用过,但是 qwen3 在 agent 方面是出了名的费,让人怀疑是有 bug 。
    ferock
        7
    ferock  
    PRO
       9 天前 via iPhone
    整个文档目录索引做的比较好的是 cursor
    Grin1024
        8
    Grin1024  
       8 天前   ❤️ 1
    因为这些 agent 的 system prompt 写的都很长,所以就会出现问一下 hello 都要好几万 token 。比较好的使用方法就是完成一个小功能后就新开一个对话,不然上下文爆炸。
    cinlen
        9
    cinlen  
       8 天前
    昨晚试用了一下 qwen cli + qwen3-coder, 写了一个简单 task 让它自己跑就没有管它了,早上想起来看了一下,赠送的 100 万 token 额度已经用完了而且工作也没做完。
    yjd
        10
    yjd  
       8 天前
    就我最近翻译一个文档,然后还需要写一个 py 代码来后期处理。qwen3 很一般。提示词明确不能删除空白行,他就傻乎乎删。而其他国内国外都不会删。
    bthulu
        11
    bthulu  
       8 天前
    让它用文言文来思考是不是可以瞬间减少很多消耗
    sworld233
        12
    sworld233  
       7 天前
    我个人用过来 roocode(cline 、kilo code)这类工具自己接入效果是不错的(相比 Cursor 和 Windsurf ),但是花钱太恐怖了,之前 kilo 送的免费$100 额度一周就用完了( code 模式用 claude sonnet4,其他 gemini 2.5pro ),每天消耗在 10M 个 token 上下
    bbbblue
        13
    bbbblue  
       7 天前
    @sworld233 试试 glm4.5 虽然现在还有白嫖的 gemini 2.5 pro 但是为了防止后面他没了。。我现在部分开始用 roocode+glm4.5/通义灵码....

    或者要省一点其实 plan/architect mode 用 2.5 pro/sonnet 但是 act/code 模式用 gemini 2.5 flash 这种会稍微好一点
    我白嫖前就用的 gemini 2.0 flash 已经能完成不少工作了

    还是得慢慢尝试了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2738 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 42ms · UTC 13:29 · PVG 21:29 · LAX 06:29 · JFK 09:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.