Claude 4.6 与 ChatGPT-5.3 Codex 发布：我更在意的不是“更聪明”，而是“更能干活”

同一天两家放更新，我第一反应不是兴奋。

Claude 4.6 与 ChatGPT-5.3 Codex 发布：我更在意的不是“更聪明”，而是“更能干活” - 配图 1

我脑子里冒出来的，是一个很日常的问题：我明天写东西、改代码、翻资料的时候，这玩意能不能少让我打扫卫生？

因为这半年我被模型惯坏了。

以前我担心它不会做。

现在我更常遇到的是另一种麻烦：它会做，但做着做着就“走样”了。

写这篇稿的时候我就踩了一次坑。

我把三篇素材都丢进同一个对话里，让它先帮我理出“能写的骨架”。

前两轮都很顺，第三轮开始，它就有点像人熬夜：开始重复前面的句子，偶尔还把我没说过的话当成结论。

我为什么不太想看跑分

跑分当然有意义。

但它很像体检单：能告诉你哪里指标漂亮，不能告诉你“走两公里之后膝盖会不会疼”。

跑分体检单

我自己更关心的是两件事：

第一，它能不能扛住长时间任务，不要越聊越糊。

第二，它能不能更像一个“可协作的工具”，而不是一个“只会单兵作战的聪明人”。

实战小贴士：以后看到“新模型发布”，你可以先问自己一句：我最常把 AI 当成什么？搜索引擎、合伙人、还是流水线工人？答案不同，关注点就完全不同。

Claude 4.6：最关键的不是“1M 上下文”，而是别让它越用越蠢

先说 Claude 4.6。

官方的重点之一是更长的上下文窗口（1M token，测试版）。

但我更在意的是：它开始替你处理“对话越长越容易乱”这种脏活了。

你可能也有类似体验：

一开始它很清醒。

你给它一堆文档、几段对话、几个需求变更。

聊着聊着，它开始忘前提、重复结论、把 A 当成 B。

这不是你提示词写得不够“高级”，而是它真的需要一套“记忆管理”的机制。

实战小贴士：如果你经常做“长对话 + 多轮迭代”，不要只盯着上下文长度。更要看它有没有类似“自动压缩旧信息”的能力，否则你会把时间花在清理对话上，而不是推进任务上。

Claude 4.6 的三个按钮：压缩、油门、组队

这次 Claude 4.6 里，我更愿意把它当成三个“工作流按钮”。

三个按钮

第一个是 context compaction。

它的直觉很朴素：旧对话太长了，就先压成摘要，把空间腾出来继续干活。

对我这种把 AI 当“临时项目群”用的人来说，它更像一个自动整理聊天记录的助理。

第二个是 adaptive thinking 和 effort。

以前的深度思考更像开关：要么开、要么关。

现在更像油门：简单问题轻点一下，复杂问题再踩深一点。

第三个是 agent teams（在 Claude Code 里）。

它把“一个模型”变成“一支小队”，适合那种天然要拆模块的活。

比如：一个人看文档，一个人看代码，一个人做改动建议，最后你只需要看汇总。

实战小贴士：当你发现自己开始复制粘贴、来回切窗口、让模型“再看一眼另一个文件”，那通常就到了该用“组队/并行”的时刻。你不是缺一个更聪明的模型，你是缺一个更好的分工方式。

ChatGPT-5.3 Codex：更像一条“开发流水线”，而且你能边跑边拧方向盘

再看 ChatGPT-5.3 Codex（更准确说是 Codex 侧的更新）。

OpenAI 在官方博客里提到：GPT-5.3 Codex 在他们自己的开发流程里帮了不少忙。

我不打算把它写成科幻。

我更直观的感受是：他们想把写代码做成一条流水线，让你少做重复劳动。

另一个我觉得更贴近开发的变化是：它跑着跑着，你可以随时插话纠偏。

以前很多 agent 工具像“放出去跑一段”，你只能等它跑完再看结果。

现在更像你坐在副驾：它在开，你能随时提醒它别走错路，或者临时改目的地。

副驾纠偏

这对真实开发特别重要。

因为真实开发里，需求就是会变，你的判断也会变。

实战小贴士：如果你主要用 AI 来“迭代”而不是“一次性生成”，优先看它能不能在任务执行中被你持续“引导”。这会直接决定你是节省时间，还是把时间花在返工上。

我的工作流配方（你也可以照抄）

我现在更倾向于把它们当成两种不同性格的同事。

一个更擅长把场面稳住，把信息收拾干净，让长任务不崩。

一个更擅长把代码往前推，让迭代更快，而且你能随时插话。

我会这样分：

你现在要做的事	更像 Claude 4.6 的舒适区	更像 ChatGPT-5.3 Codex 的舒适区
资料很多、对话很长、需求会变	自动压缩、长任务稳定性、组队协作	也能做，但更像“写到一半要换挡”
写草稿、梳理结构、做多步骤计划	稳	可用，但未必是最省心的那种
修 bug、反复迭代、需要你随时 steer	可以做，适合“先起稿”	更顺手
大仓库、多模块、多角色协作	agent teams 更舒服	更偏“你盯着它跑”

如果你嫌麻烦，我给你三条“一句话配方”：

Claude 4.6 负责“把材料变成可干活的上下文”，Codex 负责“把活干到能交付”。
你写的东西偏知识工作（文档、分析、计划），优先 Claude 4.6。
你写的东西偏工程交付（改代码、跑任务、持续迭代），优先 Codex。

如果你只想从今天开始做一件事，我建议你选一个最小动作：

你有一堆资料要读：先让 Claude 把“要点 + 未决问题 + 下一步”整理出来，再决定要不要写、要不要做。
你有一个 bug 卡住了：让 Codex 先跑起来，你在它执行过程中随时插话，把它往正确方向拽回来。
你有一个大仓库：别让一个模型硬扛。拆模块、并行看，最后再汇总。

顺手说一句，我之前写过几篇关于 Claude Code 的实际用法和工作流连接，你可以当作前传看：

手机上也能vibe coding了

在Claude Code 里用 Skills 要付费？那我用 Gemini CLI 免费白嫖

没有 Claude 账号，我也算是用上 Claude Code 了

实战小贴士：别急着做“全套迁移”。先选一个你最常做、最烦的环节（比如“整理上下文”或“修一个顽固 bug”），只替换这一段。你会更快看到差异，也更不容易被新玩具带跑。

写在最后：这周我准备改两个习惯

第一，我会更愿意把“长任务”交给有记忆管理机制的系统，而不是硬撑到它开始糊。

第二，我会更频繁地在执行过程中插话。

不是为了控制它。

是因为我越来越确定：未来的工作流，不是“我写完再给 AI 看”，而是“我和 AI 一起把事情推到能交付”。