纯文本模型也能识图？我让 DeepSeek 长出了「眼睛」

在昨天的介绍 Reasonix的文章中讲到，DeepSeek 的文本能力我很满意。中文理解到位，指令跟得紧，价格也便宜。

但它是纯文本模型，不能识图。给截图、表格照片、手绘图，它都看不到。在写作、办公、日常信息处理这些场景里，确实不方便。

image.png|400

哪些场景需要识图

举个例子：想分析公众号文章的配图设计？它看不到。要从聊天记录截图里提取文字？它看不到。画了流程图想检查逻辑？同样看不到。

类似的不便还有很多：

收到名片想自动录入通讯录，不行
拍了白板上的会议纪要，它识别不了
海报上的活动时间和地点，它提取不出来
软件报错了，截个图想查解决方案，更是不可能

如果你也遇到过这种「就差一张图」的尴尬，那下面这个方案应该能帮到你。

解决方案：MCP「外挂」

MCP 全称 Model Context Protocol，简单说，就是让模型可以调用外部工具。

DeepSeek 本身不能看图，但你可以给它配一个「外挂」，一个专门负责看图的多模态模型。当遇到图片时，DeepSeek 通过 MCP 协议把任务转发给外挂，拿到分析结果后继续处理。

image.png|400

我用的外挂是硅基流动（SiliconFlow）上的 Qwen3.5-397B 多模态模型。中文图片识别能力好，价格也便宜。

这个方法不挑工具。不管你用的是 Reasonix、Claude Code、Codex 还是其他支持 MCP 的 agent，只要你的 agent 跑的是 DeepSeek，用同样的方法配一个 Vision MCP，都能让它具备识图能力。

配置步骤：复制一段 prompt 就行

如果你也在用 DeepSeek 且需要识图能力，配置起来很简单。不用记那些技术步骤，把下面这段 prompt 发给你的 agent 就行，把方括号里的内容换成你的信息：

请帮我配置一个 Vision MCP 服务，使用以下信息：
 
平台名称：[你的平台，如 硅基流动/SiliconFlow]
模型名称：[多模态模型名称，如 Qwen/Qwen3.5-397B-A17B]
API Key：[你的 API Key]
 
请完成以下步骤：
1. 创建 MCP server 目录
2. 安装 @modelcontextprotocol/sdk 依赖
3. 编写 index.js，实现 analyze_image 工具
4. 注册到 MCP 配置中
5. 验证可用