试用 codex 感想:不说 You are absolutely right 是 GPT-5 最好的编程特性之一

2 天前
 wdhwg001

如题,从 Claude Code / Cursor 的 Claude Opus 4.1 thinking (带 ultrathink.)迁移到 GPT-5-high 的 Cursor 和 Codex 之后最明显的感想主要有这些:

  1. 相比于 Claude 系怎么都改不好,无论上多少 prompt 都没办法完全修复的 You are absolutely right 来说,GPT-5 是真的知道什么时候该捧着几个方案和自己的思考去找用户确认一下再动笔写,也知道什么时候去和用户犟嘴,这种讨论能力带来的体验真的很舒适。

  2. GPT-5 是真的省 token 。可能和 OpenAI 的 tokenizer 有关,并且 GPT-5 的回答非常简练,在一个 context 里可以完成非常复杂的工作。实际体验下来,同样在 Cursor 里,GPT-5-high-fast 在上下文爆炸之前可以多做三分之一到一半的工作,这使得我可以让它在同一个上下文里做很多代码优化和 bug 修复,而不需要重新去构造新的上下文。

  3. GPT-5 会主动反思自己可能漏掉的东西,包括别扭的 tool call ,遗漏的 linting 等等,它几乎从没在我面前主动声称代码质量达到了生产水准。而 Claude Opus 4.1 thinking + ultrathink 虽然也可以搞定问题,但它经常带着 bug 和冗余写法就声称生产水准实在是很掉好感。

  4. GPT-5 是明显更信任自己的知识而不是用户的,它的讨论特性会让它可能停下来问我,但我真的需要给它配一个好用的 RAG 才能避免和它反复犟嘴或者去搬一个文档链接出来给它停止争论。在用 GPT-5 的时候,context7 就是完完全全的标配。

  5. 更大的思考预算。即使是加上 ultrathink ,Claude 系的平均思考长度也是低于 GPT-5-high 的,而且很多时候会像一个复读机一样反复思考一模一样的东西。而 GPT-5-high 的思考就能结结实实向很多方向去探索,即便最后二者都能解决问题,GPT-5-high 的思考也会让我觉得它是更不经验主义的。

4334 次点击
所在节点    程序员
35 条回复
walterggg
1 天前
我的 vsc 用 codex 插件没有办法发送 prompt ,但是可以登录,有没有解决方案,vsc 已经设置了 clash 的全局代理
notwaste
1 天前
codex 用多了把我的 web 整降智了
ninjaJ
1 天前
停下来等用户做决定太重要了,之前想办法在 prompt 里提醒 Claude code 等我做决定,做 TODO ,总是到后面会漏掉。

不知道“简练”对 token 窗口的影响究竟大不大。
SignUpWithSolana
1 天前
@165924 #18
应该是 sonnet 4 模型的问题,你在 cursor 用 sonnet 4 应该也会这样
taosimple
1 天前
@wdhwg001 #12
> Cursor Rules 是直接被嵌入到首个 User 信息的,而 Claude Code 是把 CLAUDE.md 当成一条 User 信息插入在首个 User 信息之前
这两者的区别在哪,另外请教一下,你是怎么查看它们的实现细节的
wdhwg001
1 天前
@taosimple Cursor 完全不阻止你尝试将整个上下文的任意一条信息 dump 到一个文件,Claude Code 的反编译满天飞,Codex 干脆是开源的。

这种差异决定了 LLM 是把它当作需要回馈的用户指令还是一段上下文。所以 Cursor 是 Rules ,而 Claude Code 是 Memory 。
songtianlun
1 天前
周末出去玩,路上玩了一下 codex ,目前看还挺惊艳的。针对 GitHub 仓库下指令,然后就开始运行 agent ,出结果没问题点击 pr ,在 GitHub 合入。配合 devops 自动部署。就直接部署好了。

整个流程电脑都不用打开,指挥 ai 自动写代码了。确实是省心,其他效果不清楚,cc 每次深度使用就必须开始斗智斗勇了,codex 这边这个工作流着实是牛。
mlzboy
1 天前
我的经历是 cursor < augment < claude code max,ccm 我的感触是,用好了比人强,我之前在改一个 google blockly 的开源项目,这个代码如果要是我自己来修改,还是超出我的能力了,我把要求和最后的效果给它,通过 2 天的反复沟通,就是一次不行,两次,不停的调整,有一点进步就保存 commit ,这样弄两天能搞定一个 feature ,这种 feature 是只有超级资深才能搞定的,就是我只关注输出和反馈,ccm 负责写。我用 Claudia 统计,一个 feature60 刀,另一个 feature200 刀解决。类似于算力出奇迹。不知道 codex 有没有这种效果
wdhwg001
1 天前
@mlzboy Cursor 的 Claude Opus 4.1 thinking 的 thinking budget 确实是比 Claude Code + Opus + ultrathink 要低的,大概只有 ultrathink 的一半,所以你如果真的面向最复杂的需求 Plan 的话,最好还是 Claude Code + Opus + ultrathink 。Augment 我记得完全没有 Opus 接入。

Cursor 的一个缺陷是,你需要给它一个 Cursor Rules ,不然它不会主动去做 Plan 。

codex 和 Cursor 的 gpt-5-high-fast 的思考预算是一样的,后者的 token 速度稍快一点。
ovtfkw
1 天前
codex cli 一粘贴文字就给你自动按回车了要怎么解决啊 我还想手动打字了就直接思考了
lzynb
16 小时 3 分钟前
楼主的 codex 工作流是咋样的
wdhwg001
15 小时 47 分钟前
@lzynb 非常依赖独立的 Step Tracking 文件和独立的 Plan 文件,大小问题都要求 AI 使用这两者而不仅仅是 todo
stimw
12 小时 29 分钟前
https://github.com/anthropics/claude-code/issues/7243
https://github.com/anthropics/claude-code/issues/5024

claude code 一直在~/.claude.json 里面扔屎。很难想象用户级 mcp 配置和所有的 project chat history 放在同一个 json 里是怎么被设计出来的。
yangxin0
12 小时 24 分钟前
我说一个用法,我只用 codex (包括 pro )出方案,然后让 claude-code 去写代码。
brianinzz
12 小时 11 分钟前
@letitbesqzr codex-cli 的体验会比 vs code 插件的形式好吗? 一直没有用过 cli 模式的 最近用 codex 还是用的插件感觉可能因为是插件没有 cursor 和 windsurf 流畅交互上

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1157529

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX