GLM 负责写字,MCP 负责看图:我给 OpenClaw 补了双眼睛
前几天,我被 OpenClaw的 AI 助手 Jennie 骗了一次。
我发了一张微信截图给她,让她看看里面说了什么。
Jennie 回得很快。
我一开始还挺高兴,结果越看越不对。
她说的那段内容,和图里根本不是一回事。
最让我背后一凉的,是她假装答出来了,但是是瞎编的,不过她答得太像真的了。

我后来去翻智谱的模型文档,才确认这件事:我当时给 Jennie 配的 GLM-5,本身就是文本模型,不看图。
更麻烦的是,它看不到的时候,也不一定会老老实实承认。
如果你也在用 OpenClaw 跑 GLM、Minimax 这类模型,这篇你大概率用得上。还没装 OpenClaw 的话,可以先看 适合普通人的 OpenClaw 安装教程:10 分钟就在飞书上跟 AI 对话。
如果你只想直接抄作业
不懂命令行也没关系。你只要把下面几处占位符换成自己的信息,剩下让 AI 去跑就行。
请帮我给 OpenClaw 里的 GLM 文本模型补上视觉能力。
目标:
- 收到图片时,不要瞎编,要自动转去智谱官方视觉 MCP 做分析
- 配好后,Jennie、Priya、Lyra 等 Agent 都能共用这套规则
- 如果当前模型本身支持看图,就继续用原生能力,不要多走一层
请按下面要求执行:
1. 配置智谱官方视觉 MCP Server:`@z_ai/mcp-server`
2. 用 `mcporter` 作为 OpenClaw 里的 MCP 调用方式
3. 先用 `mcporter list zai-mcp-server --schema` 确认当前版本的通用图片分析工具名,再调用它
4. 调用图片分析时,把超时提高到 60000ms
5. 在 OpenClaw 全局 skills 目录创建 `glm-vision/SKILL.md`
6. 规则要求:
- 当前模型如果是 GLM 这类文本模型,收到图片就走视觉 MCP
- 当前模型如果本身支持图片,就直接用原生读图能力
7. 把这条规则同步到相关 Agent 的 MEMORY.md
8. 最后用一张微信截图做验证,并告诉我测试结果
我的信息:
- Z_AI_API_KEY: [你的 key]
- MCP server 名称: zai-mcp-server
- OpenClaw 全局 skills 目录: [你的目录]
- 需要同步的 MEMORY.md 路径: [你的路径列表]
如果你的主模型本来就能看图,比如 Claude、GPT-4o 这类,那这篇你可以直接跳过。你不缺这双眼睛。
第一个坑:它看不到,但它敢说
我一开始还以为是识别差。
后来回头看,根本不是“差”这个层级的问题。
是我发了一张图过去,它收到的其实接近空白,然后凭语言模型的惯性,给我拼了一个“看起来像那么回事”的答案。
这事挺尴尬的。
因为如果它直接说「我看不到」,我反而不会生气。不会就是不会,换个办法就行。
可它偏偏说得很笃定。
从那一刻开始,我脑子里就只剩一个想法:得给它装双眼睛。
第二个坑:我以为换个视觉模型就完了
最先想到的办法,当然是直接上视觉模型。
结果这条路,几乎把能踩的坑都踩了一遍。

先试 GLM-4V-Flash。能配上,但效果很一般。清清楚楚的微信聊天截图,它能给我看成「模糊的错误消息」。
我当时那个感觉,挺像把一副近视镜借给了一个本来就没睡醒的人。能帮上忙,但又不算帮上了忙。
然后我又试 GLM-4.6V-FlashX。
这次不是看不清了,是根本不给看。接口直接回我一句:
余额不足或无可用资源包,请充值。
行,付费模型(可能是我的 GLM 套餐只包括了文本模型),先不谈。
我又退回去试免费版 GLM-4.6V-Flash。
结果更直接:
该模型当前访问量过大,请您稍后再试。
到这一步我基本想明白了。
我需要的是:主模型继续干它擅长的文字活,遇到图片时,再临时把这件事转给一个会看图的外设。

第三个坑:MCP 配好了,事情还没结束
转折点是我看到了智谱官方的视觉 MCP。
这条路一下就对了。
它本质上还是借视觉模型来做图像理解,但入口换了。不是让我把主模型整套换掉,而是在需要看图的时候,单独调一次工具。
这就合理多了。
可新问题马上又来了。
第一层问题是:我用 claude mcp add 把服务配进 ~/.claude.json 之后,OpenClaw 并不会自动因为这件事变聪明。它还是不知道自己该去哪里调。
后来是用 mcporter 这条路,才把 OpenClaw 和 MCP 真正接上。
第二层问题是:接上也不代表稳。
我第一次调图片分析,直接超时。timeout时间太短。把超时拉到 60 秒以后,微信截图和小红书自拍都能正常识别了。
第三层问题更隐蔽。
我最初把规则只写进了 Jennie 的 workspace。于是 Jennie 会了,Priya 不会,Lyra 也不会。
这就跟你只给家里一个人发了门钥匙差不多。
门是开了,但别人还是进不来。

所以最后我保留下来的做法,是把这件事分成四层:
- 智谱官方视觉 MCP,负责真的去看图
mcporter,负责让 OpenClaw 调得到它- 全局
glm-visionskill,负责写清楚什么时候该走 MCP - 各个 Agent 的
MEMORY.md,只留一句短提醒,别让它们忘了这条规则
这样配完之后,才算真正顺手。
以后谁收到图,都知道该怎么处理。
现在用起来,差别真的很大
现在我再给 Jennie 发图片,体感已经完全不一样了。
她会先去看,再回答。
如果是微信截图,她能把里面的对话看出来。
如果是小红书自拍,她也能把人物、穿着、背景,甚至水印都描述得比较准。
更重要的是,我不用来回切模型了。
平时还是 GLM 干文字活。真遇到图片,再临时调一次视觉 MCP。
整个过程对我来说,像是给原来的助手,补上了原本没有的眼睛。

这次折腾下来,我记住了一个很简单的判断。
以后再遇到 AI 一本正经瞎说,我会先问自己一件事:它到底是真的不会,还是只是缺了一个对应的通道?
有些时候,别急着换脑子。先看看它是不是只是少了一双眼睛。