GLM 负责写字，MCP 负责看图：我给 OpenClaw 补了双眼睛

前几天，我被 OpenClaw的 AI 助手 Jennie 骗了一次。

我发了一张微信截图给她，让她看看里面说了什么。

Jennie 回得很快。

我一开始还挺高兴，结果越看越不对。

她说的那段内容，和图里根本不是一回事。

最让我背后一凉的，是她假装答出来了，但是是瞎编的，不过她答得太像真的了。

image.png|400

我后来去翻智谱的模型文档，才确认这件事：我当时给 Jennie 配的 GLM-5，本身就是文本模型，不看图。

更麻烦的是，它看不到的时候，也不一定会老老实实承认。

如果你也在用 OpenClaw 跑 GLM、Minimax 这类模型，这篇你大概率用得上。还没装 OpenClaw 的话，可以先看适合普通人的 OpenClaw 安装教程：10 分钟就在飞书上跟 AI 对话。

如果你只想直接抄作业

不懂命令行也没关系。你只要把下面几处占位符换成自己的信息，剩下让 AI 去跑就行。

请帮我给 OpenClaw 里的 GLM 文本模型补上视觉能力。
 
目标：
- 收到图片时，不要瞎编，要自动转去智谱官方视觉 MCP 做分析
- 配好后，Jennie、Priya、Lyra 等 Agent 都能共用这套规则
- 如果当前模型本身支持看图，就继续用原生能力，不要多走一层
 
请按下面要求执行：
1. 配置智谱官方视觉 MCP Server：`@z_ai/mcp-server`
2. 用 `mcporter` 作为 OpenClaw 里的 MCP 调用方式
3. 先用 `mcporter list zai-mcp-server --schema` 确认当前版本的通用图片分析工具名，再调用它
4. 调用图片分析时，把超时提高到 60000ms
5. 在 OpenClaw 全局 skills 目录创建 `glm-vision/SKILL.md`
6. 规则要求：
   - 当前模型如果是 GLM 这类文本模型，收到图片就走视觉 MCP
   - 当前模型如果本身支持图片，就直接用原生读图能力
7. 把这条规则同步到相关 Agent 的 MEMORY.md
8. 最后用一张微信截图做验证，并告诉我测试结果
 
我的信息：
- Z_AI_API_KEY: [你的 key]
- MCP server 名称: zai-mcp-server
- OpenClaw 全局 skills 目录: [你的目录]
- 需要同步的 MEMORY.md 路径: [你的路径列表]

如果你的主模型本来就能看图，比如 Claude、GPT-4o 这类，那这篇你可以直接跳过。你不缺这双眼睛。

第一个坑：它看不到，但它敢说

我一开始还以为是识别差。

后来回头看，根本不是“差”这个层级的问题。

是我发了一张图过去，它收到的其实接近空白，然后凭语言模型的惯性，给我拼了一个“看起来像那么回事”的答案。

这事挺尴尬的。

因为如果它直接说「我看不到」，我反而不会生气。不会就是不会，换个办法就行。

可它偏偏说得很笃定。

从那一刻开始，我脑子里就只剩一个想法：得给它装双眼睛。

第二个坑：我以为换个视觉模型就完了

最先想到的办法，当然是直接上视觉模型。

结果这条路，几乎把能踩的坑都踩了一遍。

image.png|400

先试 GLM-4V-Flash。能配上，但效果很一般。清清楚楚的微信聊天截图，它能给我看成「模糊的错误消息」。

我当时那个感觉，挺像把一副近视镜借给了一个本来就没睡醒的人。能帮上忙，但又不算帮上了忙。

然后我又试 GLM-4.6V-FlashX。

这次不是看不清了，是根本不给看。接口直接回我一句：

余额不足或无可用资源包，请充值。

行，付费模型（可能是我的 GLM 套餐只包括了文本模型），先不谈。

我又退回去试免费版 GLM-4.6V-Flash。

结果更直接：

该模型当前访问量过大，请您稍后再试。

到这一步我基本想明白了。

我需要的是：主模型继续干它擅长的文字活，遇到图片时，再临时把这件事转给一个会看图的外设。

image.png|400

第三个坑：MCP 配好了，事情还没结束

转折点是我看到了智谱官方的视觉 MCP。

这条路一下就对了。

它本质上还是借视觉模型来做图像理解，但入口换了。不是让我把主模型整套换掉，而是在需要看图的时候，单独调一次工具。

这就合理多了。

可新问题马上又来了。

第一层问题是：我用 claude mcp add 把服务配进 ~/.claude.json 之后，OpenClaw 并不会自动因为这件事变聪明。它还是不知道自己该去哪里调。

后来是用 mcporter 这条路，才把 OpenClaw 和 MCP 真正接上。

第二层问题是：接上也不代表稳。

我第一次调图片分析，直接超时。timeout时间太短。把超时拉到 60 秒以后，微信截图和小红书自拍都能正常识别了。

第三层问题更隐蔽。

我最初把规则只写进了 Jennie 的 workspace。于是 Jennie 会了，Priya 不会，Lyra 也不会。

这就跟你只给家里一个人发了门钥匙差不多。

门是开了，但别人还是进不来。

image.png|400

所以最后我保留下来的做法，是把这件事分成四层：

智谱官方视觉 MCP，负责真的去看图
mcporter，负责让 OpenClaw 调得到它
全局 glm-vision skill，负责写清楚什么时候该走 MCP
各个 Agent 的 MEMORY.md，只留一句短提醒，别让它们忘了这条规则

这样配完之后，才算真正顺手。

以后谁收到图，都知道该怎么处理。

现在用起来，差别真的很大

现在我再给 Jennie 发图片，体感已经完全不一样了。

她会先去看，再回答。

如果是微信截图，她能把里面的对话看出来。

如果是小红书自拍，她也能把人物、穿着、背景，甚至水印都描述得比较准。

更重要的是，我不用来回切模型了。

平时还是 GLM 干文字活。真遇到图片，再临时调一次视觉 MCP。

整个过程对我来说，像是给原来的助手，补上了原本没有的眼睛。

image.png|400

这次折腾下来，我记住了一个很简单的判断。

以后再遇到 AI 一本正经瞎说，我会先问自己一件事：它到底是真的不会，还是只是缺了一个对应的通道？

有些时候，别急着换脑子。先看看它是不是只是少了一双眼睛。