试用 codex 感想：不说 You are absolutely right 是 GPT-5 最好的编程特性之一

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 100 天前的主题，其中的信息可能已经有所发展或是发生改变。

如题，从 Claude Code / Cursor 的 Claude Opus 4.1 thinking （带 ultrathink.）迁移到 GPT-5-high 的 Cursor 和 Codex 之后最明显的感想主要有这些：

相比于 Claude 系怎么都改不好，无论上多少 prompt 都没办法完全修复的 You are absolutely right 来说，GPT-5 是真的知道什么时候该捧着几个方案和自己的思考去找用户确认一下再动笔写，也知道什么时候去和用户犟嘴，这种讨论能力带来的体验真的很舒适。
GPT-5 是真的省 token 。可能和 OpenAI 的 tokenizer 有关，并且 GPT-5 的回答非常简练，在一个 context 里可以完成非常复杂的工作。实际体验下来，同样在 Cursor 里，GPT-5-high-fast 在上下文爆炸之前可以多做三分之一到一半的工作，这使得我可以让它在同一个上下文里做很多代码优化和 bug 修复，而不需要重新去构造新的上下文。
GPT-5 会主动反思自己可能漏掉的东西，包括别扭的 tool call ，遗漏的 linting 等等，它几乎从没在我面前主动声称代码质量达到了生产水准。而 Claude Opus 4.1 thinking + ultrathink 虽然也可以搞定问题，但它经常带着 bug 和冗余写法就声称生产水准实在是很掉好感。
GPT-5 是明显更信任自己的知识而不是用户的，它的讨论特性会让它可能停下来问我，但我真的需要给它配一个好用的 RAG 才能避免和它反复犟嘴或者去搬一个文档链接出来给它停止争论。在用 GPT-5 的时候，context7 就是完完全全的标配。
更大的思考预算。即使是加上 ultrathink ，Claude 系的平均思考长度也是低于 GPT-5-high 的，而且很多时候会像一个复读机一样反复思考一模一样的东西。而 GPT-5-high 的思考就能结结实实向很多方向去探索，即便最后二者都能解决问题，GPT-5-high 的思考也会让我觉得它是更不经验主义的。

第 1 条附言 · 100 天前

补充一个体验：推荐始终控制 GPT-5 的上下文长度在 100K 以内（或者至少在 150K 以内，并且不要在 100K-150K 区间内塞入复杂的开发任务），它很容易在超过这个数额之后显著变懒，假装完成任务等等。

始终推荐越是靠近开头的开发任务越复杂，GPT-5 的衰减比 Claude Opus 4.1 要严重得多，这可能是因为它实际上没有 Opus 那么大的参数规模。

gpt-5

Codex

讨论能力

45 条回复 • 2025-10-26 14:26:03 +08:00

anivie

100 天前

我这几天也是猛用 codex 了，支持任何其它厂薄纱 a 社

dji38838c

100 天前

你用的是 plus 还是 pro?

wdhwg001

100 天前

@dji38838c 现在从 Claude Max 200 刀切换到了 Pro ，我实际上没有在 Plus 下试用过 codex ，因为我是一直都用最高思考预算的那种，和小模型斗智斗勇属实没啥必要。

wdhwg001

100 天前

@anivie 我倒是对 a 社那个什么立场表态没啥感想，我对 Claude Opus 4.1 最核心的感想是，它确实比起 GPT-5 有更大的知识和经验储备，但是盲从用户、过度自信和过度设计这些方面确实让人觉得它用起来很不省心，这种沮丧的拉锯战让人很难觉得它的 token 真的值这个价。

letitbesqzr

100 天前

我这几天也是大量使用 codex-cli ，几点感受：
1. 划算，plus 用户，即可以享受官网现在每周 3000 次的 Thinking 对话。codex 里走 GPT-5-high ，每天都在大量使用，一个对话几十万的 token 消耗，也没遇到过限额的情况。
2. 会停下来让用户决定方案，确定一些事项。claude 经常是说有 n 个方案可以实现，然后把这 n 个方案都给我加上了。。

Ketteiron

100 天前

GPT-5-high 实在太不信任用户了，例如我明确说让它翻译本页面的全部中文，只需帮我编写当前页面的 messages 。而它思考了很久，自行去我已存在的 locale 目录读一遍里面的所有翻译，掌握里面的结构，然后将当前翻译移进 locales 目录。我不得不叫停，然后为它讲解什么是 local scope ，与当前组件深度绑定且不可复用的翻译与可复用的公共翻译有什么区别。而后才真正开始做事，但是这小子依然不老实，看到个可疑组件就要钻进去看看，磨磨蹭蹭才搞好。gpt-5-hight 的 free 实在让我震惊，有种握不住方向盘的感觉，但是在真正逻辑复杂的场景下确实好用，claude 动不动就表示当前编写的💩代码完美无缺。

wdhwg001

100 天前

@dssxzuxc 确实是这样的。明显感觉用 GPT-5 的时候的思维模式和用 Claude 不一样，它非常容易起疑心，但我觉得这一点在写代码的时候反而是好事情。

Claude 需要用很多重语气词告诉它要去刨根问底，但依然不能避免它看到一个什么类似的东西就经验主义，而 GPT-5 则需要明确告诉它一个合适的调查范围，以及在哪里可以拿到足够的知识。

如果把二者都当成员工的话，我确实会更信任 GPT-5 一点，因为我自己的写码风格也是会一路深挖到底，而不是模仿着抄抄就完事的。

TimePPT

PRO

100 天前

@dssxzuxc
翻译这种任务不要开 high ，甚至我在普通任务上，调用 api 的时候都是直接把 reasoning={"effort": "minimal"}的
具体可以参考官方指导文档
[GPT-5 for Coding]
https://cdn.openai.com/API/docs/gpt-5-for-coding-cheatsheet.pdf

#2. Use the right reasoning effort

GPT-5 will always perform some level of reasoning as it solves problems. To get the best results, use high reasoning effort for the most complex tasks. If you see the model overthink simple problems, be more specific or choose a lower reasoning level like medium or low.

stimw

100 天前

https://x.com/iannuttall/status/1962910312430215307

我也看好 codex ，但除开模型，目前 codex 作为 agent 本身比 claude code 还缺少一些功能。另外如果 openai 有 100 刀的订阅就好了。目前我还不会切换到 codex ，但感觉不会太久了。

owen800q

100 天前 via iPhone

@wdhwg001 cursor gpt5 high 和 codex 的是不是不太一样？在订阅 cursor, 在想要不要切换到 codex

anivie

100 天前

@wdhwg001 #4 无论什么立场，它都在不断增加我们使用的成本，这种策略下无论干对我们都是坏处，要多鼓励那些对我们成本更低的厂

wdhwg001

100 天前

@owen800q Cursor 有目前业内最好的 prompt engineering 和 tool call 设计，它当前还不是 Codex 和 Claude Code 可以碰瓷的。

举例来说的话，比如：

Cursor Rules 是直接被嵌入到首个 User 信息的，而 Claude Code 是把 CLAUDE.md 当成一条 User 信息插入在首个 User 信息之前，Codex 则是在 System Prompt 里提醒 AI 要去读 AGENT.md 。比较来看，当然是 Cursor 的做法更好。

Cursor 会拦截所有的 grep 操作，并且将它转成 grep tool call 并强制加上上下文信息，而 Claude Code 的做法是单独提供 grep 工具并且在 Prompt 里要求 AI 用工具而不是命令行，Codex 的做法是不提供 grep 工具，让 AI 优先用 rg 。

Cursor 会在编辑工具的返回内容里提醒 AI 要使用 read_lints 检查修复所有的 linting 错误，而 Claude Code 和 Codex 都只是在初始 Prompt 里强调要跑 linting 。

并且 Cursor 虽然有 25 tool call 自动停下来的限制，但这比起 Claude Code 经常在莫名其妙的地方写一个 Summary 然后停下来要好得多。

至于 Cursor 的 GPT-5 ，我的体感是 gpt-5-high-fast 比 codex 快，而 gpt-5-high 比 codex 慢，思考时长没啥区别。

wdhwg001

100 天前

@stimw 可以试一下 Cursor ，原因如上

Geekgogo

100 天前

请问在 ChatGPT 网页充值 plus 的话，可以使用 API 调用 codex 吗？

stimw

100 天前

@wdhwg001 #13 之前对 cursor 印象不是很好，原因包括几次调整价格策略和降智。现在公司因为版权风险不让用 cursor ，个人购买也不行，我就一直用 claude code 了。

xctcc

100 天前 via iPhone

claude-cli 用的比 codex-cli 舒服，可能刚用两天还没习惯，之前一个需求 sonnet4 经常吭哧吭哧做了十几分钟，测试跑了一下都成功了，然后看后台没有数据，结果看了代码用的是是模拟数据，我真的受不了这点，claude.md 也写了禁止占位符和模拟数据，还是浪费了一堆 token

SignUpWithSolana

100 天前 via iPhone

最近我也开始用 codex ，昨天让它在一个旧项目加上 tanstack query ，改好后，发现有些 api 请求没加，问他为什么不加，他的回答里有自己的道理坚持不加，我觉得这样挺好的

165924

100 天前

之前用 claude code ，经常遇到的头疼事就是：让他修复杂问题，如果他发现他解决不了，会干脆删除掉相关代码，换成模拟数据生成，或者干脆固定 return 设定好的数据。然后最后 summary 的时候告诉我已经运行正常了😅
类似这种的偷懒事经常干，偷懒就算了倒是告诉我啊😅排查起来还怪麻烦的。

zowee

100 天前

想请问各位，目前一般的节点还会降智吗？下个月回国不知道要买什么样的节点不会降智。谢谢回复

nicaiwss

100 天前 via iPhone

是和 cursor 一起用吗？ codex 是不是可以作为 cursor 的插件？

walterggg

99 天前 via iPhone

我的 vsc 用 codex 插件没有办法发送 prompt ，但是可以登录，有没有解决方案，vsc 已经设置了 clash 的全局代理

notwaste

99 天前 via iPhone

codex 用多了把我的 web 整降智了

ninjaJ

99 天前

停下来等用户做决定太重要了，之前想办法在 prompt 里提醒 Claude code 等我做决定，做 TODO ，总是到后面会漏掉。

不知道“简练”对 token 窗口的影响究竟大不大。

SignUpWithSolana

99 天前

@165924 #18
应该是 sonnet 4 模型的问题，你在 cursor 用 sonnet 4 应该也会这样

taosimple

99 天前

@wdhwg001 #12
> Cursor Rules 是直接被嵌入到首个 User 信息的，而 Claude Code 是把 CLAUDE.md 当成一条 User 信息插入在首个 User 信息之前
这两者的区别在哪，另外请教一下，你是怎么查看它们的实现细节的

wdhwg001

99 天前 via iPhone

@taosimple Cursor 完全不阻止你尝试将整个上下文的任意一条信息 dump 到一个文件，Claude Code 的反编译满天飞，Codex 干脆是开源的。

这种差异决定了 LLM 是把它当作需要回馈的用户指令还是一段上下文。所以 Cursor 是 Rules ，而 Claude Code 是 Memory 。

songtianlun

PRO

99 天前 via iPhone

周末出去玩，路上玩了一下 codex ，目前看还挺惊艳的。针对 GitHub 仓库下指令，然后就开始运行 agent ，出结果没问题点击 pr ，在 GitHub 合入。配合 devops 自动部署。就直接部署好了。

整个流程电脑都不用打开，指挥 ai 自动写代码了。确实是省心，其他效果不清楚，cc 每次深度使用就必须开始斗智斗勇了，codex 这边这个工作流着实是牛。

mlzboy

99 天前

我的经历是 cursor < augment < claude code max,ccm 我的感触是，用好了比人强，我之前在改一个 google blockly 的开源项目，这个代码如果要是我自己来修改，还是超出我的能力了，我把要求和最后的效果给它，通过 2 天的反复沟通，就是一次不行，两次，不停的调整，有一点进步就保存 commit ，这样弄两天能搞定一个 feature ，这种 feature 是只有超级资深才能搞定的，就是我只关注输出和反馈，ccm 负责写。我用 Claudia 统计，一个 feature60 刀，另一个 feature200 刀解决。类似于算力出奇迹。不知道 codex 有没有这种效果

wdhwg001

99 天前

@mlzboy Cursor 的 Claude Opus 4.1 thinking 的 thinking budget 确实是比 Claude Code + Opus + ultrathink 要低的，大概只有 ultrathink 的一半，所以你如果真的面向最复杂的需求 Plan 的话，最好还是 Claude Code + Opus + ultrathink 。Augment 我记得完全没有 Opus 接入。

Cursor 的一个缺陷是，你需要给它一个 Cursor Rules ，不然它不会主动去做 Plan 。

codex 和 Cursor 的 gpt-5-high-fast 的思考预算是一样的，后者的 token 速度稍快一点。

ovtfkw

99 天前 via iPhone

codex cli 一粘贴文字就给你自动按回车了要怎么解决啊我还想手动打字了就直接思考了

lzynb

98 天前

楼主的 codex 工作流是咋样的

wdhwg001

98 天前 via iPhone

@lzynb 非常依赖独立的 Step Tracking 文件和独立的 Plan 文件，大小问题都要求 AI 使用这两者而不仅仅是 todo

stimw

98 天前

https://github.com/anthropics/claude-code/issues/7243
https://github.com/anthropics/claude-code/issues/5024

claude code 一直在~/.claude.json 里面扔屎。很难想象用户级 mcp 配置和所有的 project chat history 放在同一个 json 里是怎么被设计出来的。

yangxin0

98 天前

我说一个用法，我只用 codex （包括 pro ）出方案，然后让 claude-code 去写代码。

brianinzz

98 天前

@letitbesqzr codex-cli 的体验会比 vs code 插件的形式好吗? 一直没有用过 cli 模式的最近用 codex 还是用的插件感觉可能因为是插件没有 cursor 和 windsurf 流畅交互上

coolmenu

98 天前

我也退订 Claude code 100 刀的订阅了，但是用 CC 绑着 glm 和 kimi ，用 codex 设计，这么搭配。glm 有个包月便宜，kimi2 效果不错，但是贵

heliar

97 天前

claude sonnet4 我就是觉得太舔了。。grok-code-fast 和它一个味

maladaxia

97 天前

楼主不觉得 gpt-5-high-fast 太慢了吗

一个任务的耗时够 claude 完成几个任务了

mightybruce

96 天前

mark 一下，我也准备试试 codex , claude code 经常降智，还搞限制。

wdhwg001

95 天前 via iPhone

@maladaxia 我感觉它比 codex 快一点，虽然也有起伏。至于并行工作你多克隆几个仓下来就行了

quicksandznzn

90 天前

大家都是在官网买的吗国内办的万事达或者 visa 可以购买吗

wuethan

90 天前

就说一点吧，周末你也可以享受 GPT Plus

moonbeama

90 天前

@wuethan 这是啥意思？

wuethan

89 天前

@moonbeama 我平常用 claude code 写企业应用，用 gpt 日常（因为 app 体验很好，包括笔记和语音转文本问问题），如果 GPT-5-CODEX 可以对标 claude code 我在考虑换订阅，这样周末休息也可以用 gpt 聊天，挑榴莲挑西瓜，生成吉卜力，平常上班可以写代码，20 美刀生活工作都搞定，岂不乐哉

ericguo

50 天前

@ovtfkw cmd+j ，回车