Back to Blog

Claude 4.6 与 ChatGPT-5.3 Codex 发布:我更在意的不是“更聪明”,而是“更能干活”

林小卫很行

同一天两家放更新,我第一反应不是兴奋。

image.png|400 image.png|400

我脑子里冒出来的,是一个很日常的问题:我明天写东西、改代码、翻资料的时候,这玩意能不能少让我打扫卫生?

因为这半年我被模型惯坏了。

以前我担心它不会做。

现在我更常遇到的是另一种麻烦:它会做,但做着做着就“走样”了。

写这篇稿的时候我就踩了一次坑。

我把三篇素材都丢进同一个对话里,让它先帮我理出“能写的骨架”。

前两轮都很顺,第三轮开始,它就有点像人熬夜:开始重复前面的句子,偶尔还把我没说过的话当成结论。

我为什么不太想看跑分

跑分当然有意义。

但它很像体检单:能告诉你哪里指标漂亮,不能告诉你“走两公里之后膝盖会不会疼”。

跑分体检单|400

我自己更关心的是两件事:

第一,它能不能扛住长时间任务,不要越聊越糊。

第二,它能不能更像一个“可协作的工具”,而不是一个“只会单兵作战的聪明人”。

实战小贴士:以后看到“新模型发布”,你可以先问自己一句:我最常把 AI 当成什么?搜索引擎、合伙人、还是流水线工人?答案不同,关注点就完全不同。

Claude 4.6:最关键的不是“1M 上下文”,而是别让它越用越蠢

先说 Claude 4.6。

官方的重点之一是更长的上下文窗口(1M token,测试版)。

但我更在意的是:它开始替你处理“对话越长越容易乱”这种脏活了。

你可能也有类似体验:

一开始它很清醒。

你给它一堆文档、几段对话、几个需求变更。

聊着聊着,它开始忘前提、重复结论、把 A 当成 B。

这不是你提示词写得不够“高级”,而是它真的需要一套“记忆管理”的机制。

实战小贴士:如果你经常做“长对话 + 多轮迭代”,不要只盯着上下文长度。更要看它有没有类似“自动压缩旧信息”的能力,否则你会把时间花在清理对话上,而不是推进任务上。

Claude 4.6 的三个按钮:压缩、油门、组队

这次 Claude 4.6 里,我更愿意把它当成三个“工作流按钮”。

三个按钮|400

第一个是 context compaction

它的直觉很朴素:旧对话太长了,就先压成摘要,把空间腾出来继续干活。

对我这种把 AI 当“临时项目群”用的人来说,它更像一个自动整理聊天记录的助理。

第二个是 adaptive thinkingeffort

以前的深度思考更像开关:要么开、要么关。

现在更像油门:简单问题轻点一下,复杂问题再踩深一点。

第三个是 agent teams(在 Claude Code 里)。

它把“一个模型”变成“一支小队”,适合那种天然要拆模块的活。

比如:一个人看文档,一个人看代码,一个人做改动建议,最后你只需要看汇总。

实战小贴士:当你发现自己开始复制粘贴、来回切窗口、让模型“再看一眼另一个文件”,那通常就到了该用“组队/并行”的时刻。你不是缺一个更聪明的模型,你是缺一个更好的分工方式。

ChatGPT-5.3 Codex:更像一条“开发流水线”,而且你能边跑边拧方向盘

再看 ChatGPT-5.3 Codex(更准确说是 Codex 侧的更新)。

OpenAI 在官方博客里提到:GPT-5.3 Codex 在他们自己的开发流程里帮了不少忙。

我不打算把它写成科幻。

我更直观的感受是:他们想把写代码做成一条流水线,让你少做重复劳动。

另一个我觉得更贴近开发的变化是:它跑着跑着,你可以随时插话纠偏。

以前很多 agent 工具像“放出去跑一段”,你只能等它跑完再看结果。

现在更像你坐在副驾:它在开,你能随时提醒它别走错路,或者临时改目的地。

副驾纠偏|400

这对真实开发特别重要。

因为真实开发里,需求就是会变,你的判断也会变。

实战小贴士:如果你主要用 AI 来“迭代”而不是“一次性生成”,优先看它能不能在任务执行中被你持续“引导”。这会直接决定你是节省时间,还是把时间花在返工上。

我的工作流配方(你也可以照抄)

我现在更倾向于把它们当成两种不同性格的同事。

一个更擅长把场面稳住,把信息收拾干净,让长任务不崩。

一个更擅长把代码往前推,让迭代更快,而且你能随时插话。

我会这样分:

你现在要做的事 更像 Claude 4.6 的舒适区 更像 ChatGPT-5.3 Codex 的舒适区
资料很多、对话很长、需求会变 自动压缩、长任务稳定性、组队协作 也能做,但更像“写到一半要换挡”
写草稿、梳理结构、做多步骤计划 可用,但未必是最省心的那种
修 bug、反复迭代、需要你随时 steer 可以做,适合“先起稿” 更顺手
大仓库、多模块、多角色协作 agent teams 更舒服 更偏“你盯着它跑”

如果你嫌麻烦,我给你三条“一句话配方”:

  1. Claude 4.6 负责“把材料变成可干活的上下文”,Codex 负责“把活干到能交付”。
  2. 你写的东西偏知识工作(文档、分析、计划),优先 Claude 4.6。
  3. 你写的东西偏工程交付(改代码、跑任务、持续迭代),优先 Codex。

如果你只想从今天开始做一件事,我建议你选一个最小动作:

  1. 你有一堆资料要读:先让 Claude 把“要点 + 未决问题 + 下一步”整理出来,再决定要不要写、要不要做。
  2. 你有一个 bug 卡住了:让 Codex 先跑起来,你在它执行过程中随时插话,把它往正确方向拽回来。
  3. 你有一个大仓库:别让一个模型硬扛。拆模块、并行看,最后再汇总。

顺手说一句,我之前写过几篇关于 Claude Code 的实际用法和工作流连接,你可以当作前传看:

手机上也能vibe coding了

在Claude Code 里用 Skills 要付费?那我用 Gemini CLI 免费白嫖

没有 Claude 账号,我也算是用上 Claude Code 了

实战小贴士:别急着做“全套迁移”。先选一个你最常做、最烦的环节(比如“整理上下文”或“修一个顽固 bug”),只替换这一段。你会更快看到差异,也更不容易被新玩具带跑。

写在最后:这周我准备改两个习惯

第一,我会更愿意把“长任务”交给有记忆管理机制的系统,而不是硬撑到它开始糊。

第二,我会更频繁地在执行过程中插话。

不是为了控制它。

是因为我越来越确定:未来的工作流,不是“我写完再给 AI 看”,而是“我和 AI 一起把事情推到能交付”。