Back to Blog

GLM 负责写字,MCP 负责看图:我给 OpenClaw 补了双眼睛

林小卫很行

前几天,我被 OpenClaw的 AI 助手 Jennie 骗了一次。

我发了一张微信截图给她,让她看看里面说了什么。

Jennie 回得很快。

我一开始还挺高兴,结果越看越不对。

她说的那段内容,和图里根本不是一回事。

最让我背后一凉的,是她假装答出来了,但是是瞎编的,不过她答得太像真的了。

image.png|400

我后来去翻智谱的模型文档,才确认这件事:我当时给 Jennie 配的 GLM-5,本身就是文本模型,不看图。

更麻烦的是,它看不到的时候,也不一定会老老实实承认。

如果你也在用 OpenClaw 跑 GLM、Minimax 这类模型,这篇你大概率用得上。还没装 OpenClaw 的话,可以先看 适合普通人的 OpenClaw 安装教程:10 分钟就在飞书上跟 AI 对话

如果你只想直接抄作业

不懂命令行也没关系。你只要把下面几处占位符换成自己的信息,剩下让 AI 去跑就行。

请帮我给 OpenClaw 里的 GLM 文本模型补上视觉能力。

目标:
- 收到图片时,不要瞎编,要自动转去智谱官方视觉 MCP 做分析
- 配好后,Jennie、Priya、Lyra 等 Agent 都能共用这套规则
- 如果当前模型本身支持看图,就继续用原生能力,不要多走一层

请按下面要求执行:
1. 配置智谱官方视觉 MCP Server:`@z_ai/mcp-server`
2. 用 `mcporter` 作为 OpenClaw 里的 MCP 调用方式
3. 先用 `mcporter list zai-mcp-server --schema` 确认当前版本的通用图片分析工具名,再调用它
4. 调用图片分析时,把超时提高到 60000ms
5. 在 OpenClaw 全局 skills 目录创建 `glm-vision/SKILL.md`
6. 规则要求:
   - 当前模型如果是 GLM 这类文本模型,收到图片就走视觉 MCP
   - 当前模型如果本身支持图片,就直接用原生读图能力
7. 把这条规则同步到相关 Agent 的 MEMORY.md
8. 最后用一张微信截图做验证,并告诉我测试结果

我的信息:
- Z_AI_API_KEY: [你的 key]
- MCP server 名称: zai-mcp-server
- OpenClaw 全局 skills 目录: [你的目录]
- 需要同步的 MEMORY.md 路径: [你的路径列表]

如果你的主模型本来就能看图,比如 Claude、GPT-4o 这类,那这篇你可以直接跳过。你不缺这双眼睛。

第一个坑:它看不到,但它敢说

我一开始还以为是识别差。

后来回头看,根本不是“差”这个层级的问题。

是我发了一张图过去,它收到的其实接近空白,然后凭语言模型的惯性,给我拼了一个“看起来像那么回事”的答案。

这事挺尴尬的。

因为如果它直接说「我看不到」,我反而不会生气。不会就是不会,换个办法就行。

可它偏偏说得很笃定。

从那一刻开始,我脑子里就只剩一个想法:得给它装双眼睛。

第二个坑:我以为换个视觉模型就完了

最先想到的办法,当然是直接上视觉模型。

结果这条路,几乎把能踩的坑都踩了一遍。

image.png|400

先试 GLM-4V-Flash。能配上,但效果很一般。清清楚楚的微信聊天截图,它能给我看成「模糊的错误消息」。

我当时那个感觉,挺像把一副近视镜借给了一个本来就没睡醒的人。能帮上忙,但又不算帮上了忙。

然后我又试 GLM-4.6V-FlashX

这次不是看不清了,是根本不给看。接口直接回我一句:

余额不足或无可用资源包,请充值。

行,付费模型(可能是我的 GLM 套餐只包括了文本模型),先不谈。

我又退回去试免费版 GLM-4.6V-Flash

结果更直接:

该模型当前访问量过大,请您稍后再试。

到这一步我基本想明白了。

我需要的是:主模型继续干它擅长的文字活,遇到图片时,再临时把这件事转给一个会看图的外设。

image.png|400

第三个坑:MCP 配好了,事情还没结束

转折点是我看到了智谱官方的视觉 MCP。

这条路一下就对了。

它本质上还是借视觉模型来做图像理解,但入口换了。不是让我把主模型整套换掉,而是在需要看图的时候,单独调一次工具。

这就合理多了。

可新问题马上又来了。

第一层问题是:我用 claude mcp add 把服务配进 ~/.claude.json 之后,OpenClaw 并不会自动因为这件事变聪明。它还是不知道自己该去哪里调。

后来是用 mcporter 这条路,才把 OpenClaw 和 MCP 真正接上。

第二层问题是:接上也不代表稳。

我第一次调图片分析,直接超时。timeout时间太短。把超时拉到 60 秒以后,微信截图和小红书自拍都能正常识别了。

第三层问题更隐蔽。

我最初把规则只写进了 Jennie 的 workspace。于是 Jennie 会了,Priya 不会,Lyra 也不会。

这就跟你只给家里一个人发了门钥匙差不多。

门是开了,但别人还是进不来。

image.png|400

所以最后我保留下来的做法,是把这件事分成四层:

  • 智谱官方视觉 MCP,负责真的去看图
  • mcporter,负责让 OpenClaw 调得到它
  • 全局 glm-vision skill,负责写清楚什么时候该走 MCP
  • 各个 Agent 的 MEMORY.md,只留一句短提醒,别让它们忘了这条规则

这样配完之后,才算真正顺手。

以后谁收到图,都知道该怎么处理。

现在用起来,差别真的很大

现在我再给 Jennie 发图片,体感已经完全不一样了。

她会先去看,再回答。

如果是微信截图,她能把里面的对话看出来。

如果是小红书自拍,她也能把人物、穿着、背景,甚至水印都描述得比较准。

更重要的是,我不用来回切模型了。

平时还是 GLM 干文字活。真遇到图片,再临时调一次视觉 MCP。

整个过程对我来说,像是给原来的助手,补上了原本没有的眼睛。

image.png|400


这次折腾下来,我记住了一个很简单的判断。

以后再遇到 AI 一本正经瞎说,我会先问自己一件事:它到底是真的不会,还是只是缺了一个对应的通道?

有些时候,别急着换脑子。先看看它是不是只是少了一双眼睛。