0 元生图成本，7 步全自动：我的 AI 配图流水线升级记

在 Obsidian 写完文章，敲一个命令，图就自己长出来了。

封面、插图、压缩、上传，全程不用切出去，不用复制粘贴，不用下载上传。

而且，全程免费（只要你有 Gemini AI Pro)。

这是我这个周末折腾出来的结果。

Tips

通过 Antigravity tool 将 Antigravity 的 Gemini 3 image 模型接出来到 Claude code中使用，调用生图 Skill 根据文章自动化生图。

这是一个开源的工具： https://github.com/lbjlaq/Antigravity-Manager

上次写了写到一半要配图？我终于让写作和配图「离婚」了，把写作和配图拆成了两个独立的 Skill。

当时我以为，拆开就完事了。

结果发现，配图这边还有一个"手动环节"卡在那里。

其实我之前就有"导演"了

先澄清一下：我不是从零开始做这个配图流程的。

之前已经有一个叫 Wechat Director 的 Skill，里面的核心人设就是"张艺谋"：让 AI 像电影导演一样，给文章设计分镜。

但之前的流程是这样的：

AI 读完文章，生成一堆图片 Prompt
我手动把 Prompt 复制到 Lovart
Lovart 生成图片
我再把图片下载回来，插入文章

Lovart 的生图效果确实不错。但中间这个"复制粘贴"的环节，每次都让我觉得又慢又蠢。

写完一篇文章，本来心流还在，结果要切出去开网页、复制、等生成、下载、再回来插入……

这一套下来，半小时没了，心流也断了。

心流断裂

现在：完全自动化

这个周末，我把这个"手动环节"彻底干掉了。

现在的流程是这样的：

写完文章，敲一个 /draw 命令。

然后 AI 会：

通读全文，自动判断哪些地方需要配图
为每个位置生成对应的 Prompt
调用 API 直接生成图片
自动裁剪成标准比例
调用 TinyPNG 压缩体积
上传图床
自动插入文章的对应位置

从"写完"到"配图完成"，全程不用切出去，不用复制粘贴，不用下载上传。

但这个"全自动"，是踩了不少坑才实现的。

坑一：比例不听话

最开始，我觉得这事儿特简单。

我在 Prompt 里写得很清楚：

"请生成一张电影感封面，比例必须是 16:9。"

结果模型主打一个"选择性失聪"。不管我怎么强调，它吐出来的图经常还是正方形的。

在微信公众号的列表页，一张正方形的图会被强制拉伸或者留白，丑得没法看。

解法：光靠 Prompt 喊不醒装睡的模型。

我在代码层做了"动态模型路由"。如果要生成封面，脚本就自动去调专门的宽屏模型；如果要生成竖屏插图，就调另一个模型。

代码比咒语好使。

坑二：无头骑士

解决了比例问题，又来了个更尴尬的。

有时候模型还是会生成一些奇怪尺寸的图，特别是封面图需要 2:35:1 的比例。为了实现这个需要，我让 AI 写了一段代码，强制把图片裁剪成标准比例。

最开始用的是"居中裁剪"。

结果跑测试的时候，我一看生成的图，吓了一跳：

画面里的 IP 角色（一个戴红眼镜的光头），脑袋全被切掉了，只剩下一个身子和下巴。

无头骑士

因为在大多数构图里，人的头都是偏上的。居中裁剪，正好把头切没了。

解法：我改写了裁剪算法，叫"顶部加权裁剪"。

简单说就是：如果要切掉多余的部分，优先切脚，别切头。

代码里保留了画面顶部 20% 的区域不动，剩下的再进行适配。

这一个小改动，让"废片率"直接降到了 0。

坑三：图片太大

AI 生成的原图通常是 PNG 格式，一张 5MB 甚至 10MB。

我用的 Obsidian 插件在上传这些图到图床时，卡得像是在拨号上网。而且，几兆的图放在文章里，读者加载也慢。

解法：我接入了 TinyPNG 的 API。

它做的是"有损量化压缩"，听起来好像画质变差了，但实际上肉眼几乎看不出区别。

一张 5MB 的封面，经过它处理后变成 300KB，但像素不变，清晰度在手机上看完全够用。

坑四：封面只做一张不够

微信公众号的封面有个坑：

主封面是 2.35:1 的宽屏比例，但当文章被转发到朋友圈或群聊时，右侧会显示一个正方形的缩略图。

如果你只做一张 2.35:1 的封面，转发时要么被裁得面目全非，要么留白一大块。

所以现在的流程会分别生成两张封面：一张 2.35:1 的主封面，一张 1:1 的缩略封面，最后拼接在一起。

这个细节，不踩一次坑真的想不到。

为什么这么折腾？因为免费

看到这里你可能会问：搞这么复杂干嘛？直接接一个收费的生图 API 不就完了？

确实，如果我愿意付费，很多问题根本不存在。收费模型的参数传递、比例控制都很成熟，直接调用就行。

但我就是不想在生图环节额外花钱。

我用的是 Antigravity 这个工具，它可以转接免费的 API 额度。只要你是 AI Pro 会员，就能调用里面的生图模型。之前我用它跑写作 Skill，现在生图 Skill 也接进去了。

一套（学生）会员，写作 + 生图都能用，不用额外付费。

代价就是：免费模型没那么"听话"，所以才需要在代码层做各种兜底——动态模型路由、顶部加权裁剪、TinyPNG 压缩……

免费，是这套流程的核心吸引点。 上面那些坑，都是为了"免费"而踩的。

一点感想

这次折腾让我对"AI Agent"有了更具体的理解。

以前我觉得 Agent 就是"更聪明的聊天机器人"。

现在我觉得，Agent 是"大脑"，而代码是"手脚"。

Agent 负责审美、负责理解情绪、负责设计分镜：这些是不确定的、感性的。

代码负责裁剪比例、压缩图片、上传文件：这些是确定的、刚性的。

最好的 AI 应用，不是把所有事都丢给大模型去"悟"，而是用最硬的代码，去兜住最软的创意。

就像那个"顶部加权裁剪"的算法，只有几行代码，但它比任何 Prompt 都能保证我的主角有脑袋。

大脑与手脚

从"半自动"到"全自动"，看起来只是省了几步复制粘贴。但对我来说，省掉的是心流的断裂。

现在配合上受够了复制粘贴，我把 Obsidian 直接接进了微信后台这个 Obsidian 的插件，我的写作流真的无比丝滑了。

如果你对这套生图的 Skill 也感兴趣，欢迎链接一起交流：linauwawa