Claude 4.6 与 ChatGPT-5.3 Codex 发布:我更在意的不是“更聪明”,而是“更能干活”
同一天两家放更新,我第一反应不是兴奋。

我脑子里冒出来的,是一个很日常的问题:我明天写东西、改代码、翻资料的时候,这玩意能不能少让我打扫卫生?
因为这半年我被模型惯坏了。
以前我担心它不会做。
现在我更常遇到的是另一种麻烦:它会做,但做着做着就“走样”了。
写这篇稿的时候我就踩了一次坑。
我把三篇素材都丢进同一个对话里,让它先帮我理出“能写的骨架”。
前两轮都很顺,第三轮开始,它就有点像人熬夜:开始重复前面的句子,偶尔还把我没说过的话当成结论。
我为什么不太想看跑分
跑分当然有意义。
但它很像体检单:能告诉你哪里指标漂亮,不能告诉你“走两公里之后膝盖会不会疼”。

我自己更关心的是两件事:
第一,它能不能扛住长时间任务,不要越聊越糊。
第二,它能不能更像一个“可协作的工具”,而不是一个“只会单兵作战的聪明人”。
实战小贴士:以后看到“新模型发布”,你可以先问自己一句:我最常把 AI 当成什么?搜索引擎、合伙人、还是流水线工人?答案不同,关注点就完全不同。
Claude 4.6:最关键的不是“1M 上下文”,而是别让它越用越蠢
先说 Claude 4.6。
官方的重点之一是更长的上下文窗口(1M token,测试版)。
但我更在意的是:它开始替你处理“对话越长越容易乱”这种脏活了。
你可能也有类似体验:
一开始它很清醒。
你给它一堆文档、几段对话、几个需求变更。
聊着聊着,它开始忘前提、重复结论、把 A 当成 B。
这不是你提示词写得不够“高级”,而是它真的需要一套“记忆管理”的机制。
实战小贴士:如果你经常做“长对话 + 多轮迭代”,不要只盯着上下文长度。更要看它有没有类似“自动压缩旧信息”的能力,否则你会把时间花在清理对话上,而不是推进任务上。
Claude 4.6 的三个按钮:压缩、油门、组队
这次 Claude 4.6 里,我更愿意把它当成三个“工作流按钮”。

第一个是 context compaction。
它的直觉很朴素:旧对话太长了,就先压成摘要,把空间腾出来继续干活。
对我这种把 AI 当“临时项目群”用的人来说,它更像一个自动整理聊天记录的助理。
第二个是 adaptive thinking 和 effort。
以前的深度思考更像开关:要么开、要么关。
现在更像油门:简单问题轻点一下,复杂问题再踩深一点。
第三个是 agent teams(在 Claude Code 里)。
它把“一个模型”变成“一支小队”,适合那种天然要拆模块的活。
比如:一个人看文档,一个人看代码,一个人做改动建议,最后你只需要看汇总。
实战小贴士:当你发现自己开始复制粘贴、来回切窗口、让模型“再看一眼另一个文件”,那通常就到了该用“组队/并行”的时刻。你不是缺一个更聪明的模型,你是缺一个更好的分工方式。
ChatGPT-5.3 Codex:更像一条“开发流水线”,而且你能边跑边拧方向盘
再看 ChatGPT-5.3 Codex(更准确说是 Codex 侧的更新)。
OpenAI 在官方博客里提到:GPT-5.3 Codex 在他们自己的开发流程里帮了不少忙。
我不打算把它写成科幻。
我更直观的感受是:他们想把写代码做成一条流水线,让你少做重复劳动。
另一个我觉得更贴近开发的变化是:它跑着跑着,你可以随时插话纠偏。
以前很多 agent 工具像“放出去跑一段”,你只能等它跑完再看结果。
现在更像你坐在副驾:它在开,你能随时提醒它别走错路,或者临时改目的地。

这对真实开发特别重要。
因为真实开发里,需求就是会变,你的判断也会变。
实战小贴士:如果你主要用 AI 来“迭代”而不是“一次性生成”,优先看它能不能在任务执行中被你持续“引导”。这会直接决定你是节省时间,还是把时间花在返工上。
我的工作流配方(你也可以照抄)
我现在更倾向于把它们当成两种不同性格的同事。
一个更擅长把场面稳住,把信息收拾干净,让长任务不崩。
一个更擅长把代码往前推,让迭代更快,而且你能随时插话。
我会这样分:
| 你现在要做的事 | 更像 Claude 4.6 的舒适区 | 更像 ChatGPT-5.3 Codex 的舒适区 |
|---|---|---|
| 资料很多、对话很长、需求会变 | 自动压缩、长任务稳定性、组队协作 | 也能做,但更像“写到一半要换挡” |
| 写草稿、梳理结构、做多步骤计划 | 稳 | 可用,但未必是最省心的那种 |
| 修 bug、反复迭代、需要你随时 steer | 可以做,适合“先起稿” | 更顺手 |
| 大仓库、多模块、多角色协作 | agent teams 更舒服 | 更偏“你盯着它跑” |
如果你嫌麻烦,我给你三条“一句话配方”:
- Claude 4.6 负责“把材料变成可干活的上下文”,Codex 负责“把活干到能交付”。
- 你写的东西偏知识工作(文档、分析、计划),优先 Claude 4.6。
- 你写的东西偏工程交付(改代码、跑任务、持续迭代),优先 Codex。
如果你只想从今天开始做一件事,我建议你选一个最小动作:
- 你有一堆资料要读:先让 Claude 把“要点 + 未决问题 + 下一步”整理出来,再决定要不要写、要不要做。
- 你有一个 bug 卡住了:让 Codex 先跑起来,你在它执行过程中随时插话,把它往正确方向拽回来。
- 你有一个大仓库:别让一个模型硬扛。拆模块、并行看,最后再汇总。
顺手说一句,我之前写过几篇关于 Claude Code 的实际用法和工作流连接,你可以当作前传看:
在Claude Code 里用 Skills 要付费?那我用 Gemini CLI 免费白嫖
没有 Claude 账号,我也算是用上 Claude Code 了
实战小贴士:别急着做“全套迁移”。先选一个你最常做、最烦的环节(比如“整理上下文”或“修一个顽固 bug”),只替换这一段。你会更快看到差异,也更不容易被新玩具带跑。
写在最后:这周我准备改两个习惯
第一,我会更愿意把“长任务”交给有记忆管理机制的系统,而不是硬撑到它开始糊。
第二,我会更频繁地在执行过程中插话。
不是为了控制它。
是因为我越来越确定:未来的工作流,不是“我写完再给 AI 看”,而是“我和 AI 一起把事情推到能交付”。