🤖 AI 跟我学 新手入门

ChatGPT 怎么生成图片?5 分钟掌握 GPT Image

ChatGPT 怎么生成图片:从打开入口到写好 prompt 的全流程,含 GPT Image 2 实测玩法、文字渲染技巧、免费 / 付费配额,以及和 Midjourney、即梦的取舍。

发布 2026/05/20 📎 参考官方文档

ChatGPT 怎么生成图片,这事在 2026 年比一年前简单太多——OpenAI 4 月 21 日推出 ChatGPT Images 2.0(背后是 GPT Image 2),文字渲染、空间关系、多次编辑保持一致性都明显比上一代强。你不再需要写复杂的 prompt 公式,直接用自然语言告诉 ChatGPT 你想要什么样的图,它会先「想清楚」再画。

这篇手把手讲清怎么开图、怎么写 prompt 一次出好图、免费用户能画几张、和 Midjourney / 国产 即梦 的取舍。

30 秒了解 ChatGPT 画图

ChatGPT 内置 GPT Image 模型,你直接在对话里描述想要的画面就能生成图片。 2026 年 4 月 21 日上线的 Images 2.0 有几个明显改进:

  • 文字渲染更准:图里的英文、中文字基本不会乱码
  • 空间关系更稳:「左上角放苹果、右下角放橘子」这种指令真能听懂
  • 保留人物特征:连续 3 张图保持同一个人的脸基本没问题
  • 多回合编辑一致:第二张图修改时不会把第一张里的元素弄丢

它和你用过的 Midjourney / 即梦 区别:

  • Midjourney 出图美感最强,但纯画面无文字
  • ChatGPT 文字 + 排版能力强,适合海报、UI、信息图
  • 即梦中文场景理解最贴近本地审美

适合谁用:

  • 想做带文字的海报、PPT 配图、社交媒体卡片
  • 写文章配图、做 UI 草稿、做产品概念图
  • 已有 ChatGPT 订阅、不想再单独买图像工具的人

不适合谁:

  • 追求顶级写实摄影感(Midjourney 仍领先)
  • 大量批量出图(用 API 或专门工具更便宜)

准备工作

开始前要确认这几件事:

  • 所有账号都能用(含免费)。但配额差很多:
    • Free:每 24 小时滚动 2-3 张
    • Plus(20 美元/月):每 3 小时约 50 张
    • Pro / Team:更宽
  • 支持端:Web、iOS、Android、macOS 桌面端。
  • 复杂图等久点:一张高质量图 1-2 分钟正常,急不来。
  • 国内访问:ChatGPT 在中国大陆不开放,需要解决网络与支付。完全可以用国产平替——即梦 AI 的中文海报、可灵的画面感、文心一格的稳定输出都很强,对中文场景甚至更合适。

详细操作步骤

第 1 步:直接发画图请求

打开 ChatGPT,不需要切换任何模式。直接在对话框里写你要的图描述,按发送。

例子:

帮我画一张图:一只橘色短毛猫坐在窗台上,窗外是雨天的东京街景,背景虚化,水彩画风格,正方形 1:1。

ChatGPT 会自动识别这是画图请求,调用 GPT Image 模型开始生成。

[此处放截图:ChatGPT 输入画图请求后开始生成的对话界面]

第 2 步:等出图(30 秒到 2 分钟)

简单图 30 秒出,复杂图(多对象、多文字、多人物)能跑到 2 分钟。出图过程中 ChatGPT 会显示一个加载占位。

复杂请求长达 2 分钟很正常,但超过 3 分钟还没出就重新发一次——大概率系统卡了。

第 3 步:直接在对话里二改

出图后不满意?不需要重新写完整 prompt,直接说要改什么:

  • 「把背景改成晴天」
  • 「猫换成黑色」
  • 「加一行字:欢迎来到东京,放在右下角」
  • 「画面再亮一点,景深再浅一点」

ChatGPT 会保留前一张图的核心要素,只改你说的那一处。这是 2.0 比 1.5 强的地方——以前每次改都像重画。

[此处放截图:ChatGPT 对话里第二轮修改图,前后对比]

第 4 步:要求带文字 / 排版的图

GPT Image 2 强项之一是文字渲染。你可以这样问:

  • 「画一张 A 海报:标题”AI 跟我学”用黑色粗体,副标题”每天 5 分钟,学会一个 AI 工具”用灰色细体,背景是渐变蓝紫」
  • 「画一张 16:9 横版 banner,主标题”2026 AI 产品年度回顾”,左侧放一个机器人剪影」

中文文字也基本能渲染对——这是过去 18 个月最大的进步。

第 5 步:选尺寸和长宽比

你可以在 prompt 里指定:

  • 1:1(正方形,社交媒体头像 / 小红书)
  • 16:9(横版,PPT 封面 / YouTube 缩略图)
  • 9:16(竖版,TikTok / 抖音 / 小红书图文)
  • 3:4 / 4:3(标准杂志 / 印刷)

不写默认 1:1。你想要哪种就在 prompt 末尾加一句「比例 16:9」

第 6 步:下载或继续二次加工

满意了直接右键 / 长按图片 → 保存到本地。或者让 ChatGPT 继续:

  • 「再画一张同样人物但换个场景」
  • 「这张图放到 Canvas 里我要旁边写文章」
  • 「按这个风格再画 3 张系列图」

5 个 ChatGPT 画图真实可用场景

1. 写公众号 / 小红书 / 博客的配图

写完文章发一句「请基于上文核心观点画一张配图,正方形,扁平插画风格,颜色偏暖」,3 分钟拿到一张能用的图。

2. PPT 封面 / 信息图

「画一张 16:9 PPT 封面,标题”2026 Q2 增长复盘”,背景是抽象数据流,配色专业商务蓝灰」——比 PPT 自带模板强 10 倍。

3. 产品 UI 草稿

「画一张移动 App 登录页 UI 草稿:顶部 Logo 占位、中间手机号 + 验证码输入框、底部”立即登录”按钮,扁平设计、蓝色主色调」——给设计师对齐方向用,省半天沟通。

4. 营销海报 + 中文字

「画一张春节促销海报,主标题”全场 5 折”红色粗体居中,副标题”仅限 1 月 20-28 日”金色细体,背景烟花,竖版 9:16」——文字直接渲染上去,不再要 PS。

5. 概念示意图 / 教学插图

「画一张图解释”什么是 RAG(检索增强生成)“,左侧用户提问、中间向量数据库检索、右侧 LLM 生成答案,用箭头连接,风格科技感扁平」——配技术文章特别好用。

常见坑 + 解决办法

现象原因解决
同一天画不了几张就被限免费配额(每 24 小时 2-3 张)升 Plus;或者用即梦等替代
中文字渲染成乱码字数太多 / 字体太小控制在 10 字以内;要求”大字粗体”
人脸跨图不一致没说明保持同一角色prompt 写「保持上图中的人物特征」
出图太”AI 味”没指定风格加风格词:“水彩画 / 极简扁平 / 80 年代杂志风”
比例不对没指定末尾加「比例 16:9」之类
加文字位置乱没指定明确”标题在左上角”等位置
多人物互动错乱复杂构图能力仍弱拆成多张图分别画再 PS 合

实战案例:5 分钟画一张能直接发的小红书图

下面这个 prompt 是我画小红书配图的固定模板,5 分钟内出一张能直接发的图。

打开 ChatGPT,发:

📋 Prompt 模板

请帮我画一张小红书图文风格的配图。

主题: 「30 岁后才懂的 5 个理财常识」

具体要求:

  • 比例 3:4 竖版
  • 极简扁平插画风,主色调奶油白 + 暖橘 + 灰蓝,配色温柔不刺眼
  • 主视觉:一个 30 来岁的女性侧脸剪影,手里捧着一个透明储蓄罐,罐里有几枚硬币和一张折成爱心的纸
  • 文字布局:
    • 顶部主标题:「30 岁后才懂的」黑色粗体,左对齐
    • 主标题下方副标题:「5 个理财常识」橘色粗体,比主标题大一号
    • 底部右下角小字:「@AI跟我学」灰色细体
  • 不要照片质感,纯插画
  • 要保证文字清晰可读、不要出现错别字
  • 背景不要太复杂,留白要够

如果第一张文字部分有乱码或错别字,自动重画一次直到文字正确。

第一张如果文字位置或颜色不对,直接说「文字主标题再大一点」「配色蓝色再淡一点」——ChatGPT 会基于上一张继续改,不用重写整个 prompt。

进阶玩法:让 ChatGPT 画”系列连贯图”

下面这个 prompt 适合做 PPT、社交媒体连图、绘本草稿的场景:

📋 Prompt 模板

请帮我画一组 6 张连贯的系列图,作为一个产品故事的视觉脚本。

故事主题: 「一只猫教它的主人怎么使用 AI 工具」

要求:

整体风格(所有 6 张必须一致):

  • 极简扁平插画风
  • 主色调:奶白 + 浅橘 + 蓝灰
  • 比例:每张 1:1 正方形
  • 同一只橘猫贯穿 6 张,外观、表情、体型必须保持一致
  • 同一个戴眼镜的男主角贯穿 6 张,外观、衣着、发型一致

6 张图的具体内容:

  1. 主角对着电脑发愁,橘猫坐在键盘上盯着他
  2. 橘猫用爪子点开了 ChatGPT 网页,主角凑过来惊讶
  3. 主角和橘猫一起对着屏幕,屏幕上显示”你好”
  4. 主角开始打字,橘猫趴在桌上认真看
  5. 主角笑出来,屏幕上显示一段长内容,橘猫在打哈欠
  6. 主角合上电脑,把橘猫抱起来揉脸,背景是黄昏窗外

输出要求:

  • 一张一张画,画完一张等我说”继续”再画下一张
  • 每张画完简单确认下「保持了哪些一致性元素」
  • 第 6 张画完总结整组在视觉上的连贯性

这种用法把 ChatGPT 当”绘本草稿生成器”——你能在 30 分钟内拉出一个故事的 6 张视觉脚本,给设计师细化或者直接发社交媒体。

ChatGPT vs Midjourney vs 即梦:怎么选

维度ChatGPT Image 2Midjourney即梦 AI
文字渲染(含中文)
写实摄影感中高
中文审美 / 中国元素
Prompt 友好度自然语言即可需要术语自然语言即可
国内可访问
价格含 ChatGPT 订阅单独订阅有免费
适合的场景海报 / UI / 信息图艺术作品 / 摄影中文营销 / 本地化场景

简化结论:

  • 带文字 / 排版需求:ChatGPT 是最优解
  • 追求艺术品质 / 写实:Midjourney
  • 中文场景 + 国内 + 免费即梦 或文心一格

下一步:把画图能力嵌入你的工作流

画图不是终点,是「想法 → 可视化」的起点。下面几个方向值得继续看:

最后一句实话:现在 ChatGPT 画图最大的瓶颈不再是模型,是你写 prompt 的清晰度。把构图、风格、文字、比例说清楚,第一张基本能用。