我用AI“导演”图片,却被说不是作者
最近,我把我用 AI 生成的“火柴人”配图(就是下面这几张)发给朋友看。
我很得意,我说:“你看,我这几张图导演得不错吧?”
朋友看后,说了一句很“刺”我的话:“图是不错,但你只是‘导演’,你不是‘作者’。AI 才是作者。”
这句话让我陷入了“深度思考”。
在 AI 时代,“作者”的定义到底是什么?如果我只是简单输入“一张图”,那我确实不是“作者”。
但如果我建立了一套方法论,去指挥AI,去解决 AI 自己都无法解决的“断点”(比如我要亚洲人他给我西方人和文章配图风格统一)。
我认为,这才是“作者”的核心价值,我不想空谈哲学。
今天,我就把我这套“导演”配图的“方法论”(我称之为“方案三”,相较于(插入文章)),原封不动地分享给你。
看完这套“黑科技”工作流,你再来判断,我到底算不算“作者”。
方案三:AI 生图终极掌控
这方案非常强大,我把它拆解为”基础玩法“和”进阶玩法“,上方看到的”火柴人“配图用的就是”进阶玩法“。不过,别急,我们先从简单的”玩法一:风格速通“开始,它能帮我们解决‘风格统一’的问题。

玩法一:风格速通
按照这个方法直接操作,在 AI 生成出来的图片中直接抽卡。因为我们都是在同一个 chat 中发出去的关键词,配图的风格可以实现完美统一。
- 第一步: 复制方案一提炼的完整词串(比如
small steps on path... vibrant minimalist clean) - 第二步: 粘贴到 AI 生图模型。
- 第三步: 生成。这样你能得到风格统一的配图
- 第四步: 如果不满意,根据效果要求 AI 调整。
玩法二:精准掌控
这个方法需要我们作为”导演“的角色,去主动地精准控制 AI 生成的图片效果。
- 第一步:“复制”。我们先拿到方案一生成的“灵感词串”。
- 第二步:“审视”。我们看一眼这个词串,再想好我自己的“导演指令”
- 第三步:“覆盖”或“追加”。
- (覆盖):如果我的指令和“灵感词串”里的风格词冲突(比如
photorealistic/照片写实vs插画),那我就大胆地删掉那个photorealistic/照片写实,只保留我想要的插画风格。 - (追加):如果我的指令和它不冲突(比如
cinematic/电影般的+Asian man),那我就直接在后面追加。
- (覆盖):如果我的指令和“灵感词串”里的风格词冲突(比如
- 价值: 这就等于给 AI 下了一个“导演指令”。解决了原本去 unsplash 搜图的所有痛点:
- 解决形象错配: 可以加
一个亚洲男人、一个中国女孩。 - 解决意境偏差: 可以加
有点抽象好像火柴人一样、科技感的线条。 - 解决风格统一: 可以加
插画风格、全部用扁平化设计。
- 解决形象错配: 可以加
我将这里的”导演的指令“分为三个大类,通俗理解为三个抽屉:
- 抽屉一:风格(Style),你想要的“画风”是什么?
- 抽屉二:构图与光影(Composition & Lighting),你想要的“氛围”是什么?
- 抽屉三:内容与文化(Content & Culture),你想要的“具体形象”是什么?
我跟 AI 一起总结了下面每个抽屉的一些常用指令,大家可以根据需要自取。
| 🗃️ 风格 (画风) | 🗃️ 光影与构图 (氛围与镜头) | 🗃️ 内容与文化 (形象) |
|---|---|---|
| --- 插画类 --- | --- 光影氛围 --- | --- 文化与身份 --- |
| 插画风格 | 电影感 (cinematic) | 一个亚洲男人 |
| 扁平化插画 | 戏剧性光影 | 一个中国女孩 |
| 儿童绘本风格 | 明暗对比强烈 | 一个穿西装的职场人 |
| 火柴人风格 | 氛围感 | 一个工程师 |
| 水彩画 | 黄金时段光线 | 一个演讲者 |
| 水墨画 | 逆光 | 一个思考者 |
| --- 写实类 --- | 剪影 | --- 抽象与风格化 --- |
| 照片级写实 | 柔和的光线 | 火柴人 |
| 3D 渲染 | --- 专业“黑话” --- | 像素人 (Pixel person) |
| 粘土风格 | 伦勃朗光 | 一个人物剪影 |
| 像素艺术 (Pixel art) | 蝴蝶光 | 乐高小人 |
| --- 特效类 --- | --- 镜头构图 --- | Q版人物 |
| 赛博朋克 | 特写镜头 | 卡通角色 |
| 蒸汽朋克 | 脸部特写 | --- 物品与概念 --- |
| 故障艺术 (Glitch art) | 全身照 | 桌上有一台 Mac 电脑 |
| 广角镜头 | 代表‘断点’的抽象线条 | |
| 从下往上拍 (低角度) | 科技感的图标 | |
| 从上往下拍 (俯视) | ||
| 一个背影 | ||
| --- 背景处理 --- | ||
| 极简背景 | ||
| 白色背景 | ||
| 背景虚化 |
如何让这个方案三适配你的模型?
说到这里,你可能会有疑问,我用的是豆包、即梦,这套方法能用吗?
好消息是,100% 适用,而且更加简单。
本土化工作流
这应该是最适合我们(国内用户)的“全局丝滑”工作流:
- 改造“方案一”: 你只需要把“方案一”的提示词稍作修改,让它为你生成“中文关键词串”。
- 开跑: 拿到 AI 提炼的“中文词串”(比如:
电影感 父亲 孩子 等待),再拼上我们“三抽屉”里的“中文导演指令”(比如:插画风格,火柴人),直接“喂”给豆包,完美出图。
你的指令就变成了:“中文关键词 + 中文导演指令”,AI 母语沟通,零障碍。我将改造的方案一提示词放在文末了,请按需自取。
当然,如果你很懒,直接使用原本方案一的提示词也是可以的在豆包、即梦中得到图片的,只是可能没有那么精准。
(彩蛋)给少数派的混血玩法
如果你恰好也在用 Nano Banana 或 Midjourney 这样的“国外模型”,你会发现一个更有趣的“黑科技”现象。你甚至不需要修改“方案一”的提示词。
你可以直接用它生成的“英文词串”(cinematic moody...),再拼上我们“三抽屉”里的“中文导演指令”(一个亚洲男人)。
- 场景: 方案一(英文)生成了
person,我们用(中文)追加了一个亚洲男人。 - AI 的理解: AI 不会“冲突”。它会这样“思考”:“哦,导演(你)要一个
person(人),并且,他给我一个非常具体的导演指令,这个人必须是一个亚洲男人。收到!”
“导演”算不算作者?
好了,“方案三”和“三抽屉”的全部工作流,都在这里了。
现在,我们回到开头的那个问题:我用 AI‘导演’图片,算不算作者?
当你(像我一样)不再是“祈求”AI 给你一张好图,而是用一套“方法论”(三抽屉)去指挥它;
当你(像我一样)主动去解决 AI 的文化错配(亚洲人)和风格割裂(火柴人)的“断点”时;
你觉得,你还是那个甩手掌柜吗?
不,你就是“导演”,你就是“作者”。这套“三抽屉”指令库,就是你作为“作者”的权力证明
话虽这么说,如果有朋友不想当“导演”,对全自动生成全部的提示词感兴趣,也可以添加关注公众号“并回复”全自动提示词“,找我领取 AI 在第一步直接生成全部配图的提示词(包含 3 个抽屉的导演指令)。
///
中文版方案一提示词
任务:基于输入的完整文章内容,**主动识别**文章中的 **3-4 个主要观点、核心论点或重要情境**。为每个识别出的观点,生成一组独立的 **统一检索词串**,以适配文章正文插图。
请严格按以下格式,**针对每个识别出的观点**重复输出,确保所有输出内容都符合格式要求。
---
**观点/段落摘要:**
[用 1-2 句简洁的中文,概括你为该组检索词串所锚定的文章观点/段落核心内容。]
**统一检索词串:**
[**10-13 个中文词汇**,包括**所有关键词和风格标签**,用**空格分隔**。]
*词汇应针对该观点/段落的**具体细节、动作、情绪**,并融合该图片需要的**视觉风格**(如 电影感, 温暖, 极简)。*
**生成逻辑 (最多 80 字):**
[不超过 **80 个中文汉字**,用于解释检索词串的构成逻辑,重点说明情境、情绪与视觉风格的匹配。]
---
[**请对识别出的下一个核心观点/段落,重复以上三项输出**]
---
输入示例:
<content>
[粘贴完整的用户文章内容...]
</content>
输出示例(仅为格式参考,模型需按实际文章内容生成 3-4 组):
---
**观点/段落摘要:**
探讨了从“守”到“破”的思维转变过程,以及质疑既有假设的重要性。
**统一检索词串:**
问号 阴影 破碎 玻璃 思考者 深度思考 挑战 假设 抽象线条 情绪化 戏剧性 冷色调
**生成逻辑 (最多 80 字):**
通过“问号阴影”和“破碎玻璃”等象征性意象,结合冷色调和强烈的戏剧性风格,精准匹配了质疑并打破既有思维模型的复杂心智过程。
---
**观点/段落摘要:**
强调了最小可行实验(MVP)的实践方法,以及小步快跑的优势。
**统一检索词串:**
小步 脚步 道路 卷尺 特写 积木 建造 最小可行性测试 快速迭代 充满活力 极简主义 干净
**生成逻辑 (最多 80 字):**
聚焦工程化和可衡量性(卷尺、积木)的具象概念,采用清晰、简约、高饱和的风格,直观地展现了MVP方法论中“小步快跑”和结果导向的特点。