Gemini 生图教程：Nano Banana 与 Imagen 实测

30 秒了解：Gemini 生图现在是个什么状态

Gemini 生图分两条线：一条叫 Nano Banana（基于 Gemini 3 原生图像能力），擅长「改一张已有图」——抠人物换背景、风格迁移、多张图合成；另一条叫 Imagen 4，擅长「从零生成一张全新图」，画质更细、对长 prompt 理解更深。你不用在两者间切换，Gemini App 会按你的 prompt 自动派给最合适的模型。

适合做什么：海报底图、社媒配图、电商商品图改造、个人头像、PPT 素材、ins 风氛围图。

不适合：

要求精确文字嵌入（中文长句、复杂 logo 字样仍偶尔崩）
多人物群像保持高度面部一致
直接出 4K 印刷级海报（建议 Imagen 出图再用专业工具放大）

下面把入口、操作步骤、5 个进阶 prompt 模板、5 个常见坑、和 Midjourney / 即梦的差异讲完。

准备工作

入口：Gemini 网页版 gemini.google.com、Gemini 手机 App、Google Slides / Docs 的 Help me visualize 都能调
账号：免费版每天有少量配额（约 10-20 张），AI Plus / Pro 数十倍提升
网络：中国大陆需要海外网络环境 + Google 账号，详见 Gemini 国内可以用吗
耗时：单张 5-20 秒，比视频快很多

如果你不太确定自己的账号在哪一档，去 Gemini 收费怎么算对一下额度。

详细操作步骤

第 1 步：找到生图入口

进入 gemini.google.com，主对话框下方一排功能按钮里找到 Create image（图标是一个山+太阳的样式），点亮它。

[此处放截图：主对话框 Create image 按钮位置]

手机 App 里入口在输入框左侧 + 菜单里，叫「Image」。

如果你看不到这个按钮，多半是账号没灰度到。Gemini 的图像功能是按区域逐步开放的，等 1-2 周一般就解锁了，或者临时换成主对话框直接输入「帮我画一张 xxx」也能触发。

第 2 步：写第一张生图 prompt

最朴素的写法：

一只柴犬，戴着圆框墨镜，坐在夏威夷沙滩上，背景是日落，写实风格。

按发送，10 秒左右图就出来。Gemini 默认一次给 1 张图。

想要多张候选就在 prompt 末尾加「生成 4 张不同风格的版本」，它会调度 Imagen 模型一次出 4 张。

第 3 步：改图模式（Nano Banana 主场）

如果你想基于一张已有图改：

点输入框旁的 + 上传图片
写改图指令，比如「把背景换成雪山」「人物头发改成粉色」「加一只猫坐在旁边」
Gemini 会调用 Nano Banana，保留原图主体特征，只改你指定的部分

[此处放截图：上传图后输入改图指令的界面]

关键经验：Nano Banana 一次最好只改一个点，「换背景 + 加道具 + 换发色」三件事一起要它做，主体特征容易崩。改完看效果，满意再连续追加下一个改动。

第 4 步：多图融合

上传 2-3 张图，写「请把图 1 的人物放进图 2 的场景，光线匹配图 2 的氛围」。Gemini 会做合成。这是 Nano Banana 相对 Imagen 的最大差异——它真的「理解」每张图的内容，而不只是叠图。

适合场景：

把自己的证件照放进虚拟场景做头像
商品图换背景
人物图换装

第 5 步：下载与版权

每张图右下角有按钮：

Download：下载 PNG 原图，1024×1024 默认尺寸
Share：生成只读链接
再次编辑：点一张图，会自动作为下一次对话的输入图

每张图右下角有 SynthID 水印（不可见、机器可识别），用于声明是 AI 生成，肉眼不影响美观。

5 个 Gemini 生图进阶 prompt

prompt 1：商品 hero 图

电商详情页 / 官网首屏想要一张高级感产品图：

📋 Prompt 模板

摄影棚级产品图，主体：一只哑光黑色金属保温杯，杯身有一圈细微的金色品牌 logo。

镜头：正面 30 度俯视，特写，浅景深。

光线：双向柔光箱打光，主光从右上 45 度，辅光从左侧填光，背景渐变深灰到纯黑。

背景元素：杯子右下方放一颗咖啡豆和一片新鲜薄荷叶作为点缀。

风格：苹果广告片质感，极简、高级、商业摄影。

输出：16:9 横屏，4K 画质，无文字。

跑出来基本可以直接当详情页主图。

prompt 2：小红书氛围封面

发笔记前的封面图：

📋 Prompt 模板

ins 风氛围照片，鸟瞰俯拍视角。

主体：一张浅色木桌上摆放一杯刚倒好的拿铁咖啡（杯子里有拉花），旁边放一本翻开的书、一支金属钢笔、一支带绿叶的小盆栽。

光线：柔和的窗光从左上方斜射进来，桌面有自然的斑驳光影。

调色：奶油色调，柔和饱和度，胶片质感，仿少女心 vsco 滤镜。

构图：左下角咖啡杯，右上角植物，中间留白给文字位。

输出：3:4 竖屏，1080p。

直接发小红书，配一句鸡汤就成爆款封面。

prompt 3：风格迁移改老照片

把一张普通照片改成插画风：

📋 Prompt 模板

基于上传的照片（一张家庭合影），保留所有人物的面部特征、发型、服装颜色和姿势，把整张图改成宫崎骏吉卜力工作室的水彩动画风格。

要求：

人物五官保持识别度，不要走形
背景细节用手绘水彩笔触表现，云朵柔和、植物色彩饱满
光线偏温暖柔和的午后阳光
整体氛围温馨、治愈、童话感

输出：保持原图比例。

做家人生日礼物、纪念日卡片，比写贺词有诚意。

prompt 4：图标 / icon 套图

设计师 / 产品经理临时要一套图标：

📋 Prompt 模板

扁平化矢量图标风格，一套 4 个工具类 icon。

主题：日历、邮件、待办清单、日记本。

风格要求：

圆角设计，统一的视觉语言
主色 #2563eb 蓝色，辅助色 #f59e0b 橙色
白色背景，每个 icon 居中
简洁线条，不堆细节，远看也清晰

排版：四个 icon 横向排列，等大等距。

输出：1024×256，PNG 透明背景。

跑两次挑一套就能直接用。

prompt 5：人物虚拟头像

把自己的照片改成各种风格头像：

📋 Prompt 模板

基于上传的我的照片，生成一张 LinkedIn 职业头像。

要求：

保留我的面部特征、发型、肤色，要能一眼认出
服装改成深蓝色西装 + 白衬衫
背景改成虚化的现代办公室场景，浅景深
表情自然微笑，专业感
光线柔和、肤色健康

输出：正方形 1:1，1024×1024。

5 分钟搞定一张能用 3 年的职业头像。

5 个 Gemini 生图常见坑

坑 1：人物面部细节崩

特写脸时眼睛、嘴角偶尔出问题。

解法：

prompt 里避免「extreme close-up」「focus on face only」
加一句「natural facial features, anatomically correct」
多生成几次挑最自然的；或者改成 3/4 侧脸构图，正脸出错率最高

坑 2：图里中文文字写成乱码

让 Gemini 在海报上写中文字往往出错。

解法：

短英文单词（如「SALE」「NEW」）成功率比中文高很多
要嵌中文字，prompt 里写「leave a clean white space for text overlay」让模型留白
出图后用 Photoshop / Canva / 创客贴自己加字，最稳

坑 3：颜色对不上参考

你说「主色 #2563eb」但出来一片浅蓝。

解法：

给具体的颜色名而不是色号：「a deep royal blue, similar to navy」
上传一张参考图，写「match the color palette of the reference image」
出图后用 Photoshop / Figma 自己调色，AI 出图基本只能给方向

坑 4：改图把整张图重画了

Nano Banana 应该「只改你指定部分」，但有时整张图都换了。

解法：

prompt 明确写「keep everything else exactly the same, only change [具体部分]」
改动越具体越好，「换背景成雪山」比「让这张图更冷一点」效果稳
如果连续改 3-4 次后越改越乱，重新上传原图开新对话

坑 5：生图额度突然用完

免费版有时一天就 5-10 张就提示用完。

解法：

免费额度是动态的，Google 不公开具体数字，按当时负载浮动
复杂 prompt（多元素、4K）比简单 prompt 扣得多
长期重度用考虑 AI Plus（每月 19.99 美元），额度数十倍提升
临时救急：去即梦 / 可灵等国产工具补位

Gemini 生图 vs Midjourney vs 即梦 vs DALL·E

维度	Gemini (Nano Banana + Imagen 4)	Midjourney v7	即梦 3.0	DALL·E 3 (在 ChatGPT 里)
生图质量	强	最强（艺术性）	强	中
改图能力	强（Nano Banana 强项）	中	中	弱
中文 prompt	中等	中等	最强（国产优势）	中等
中文字嵌入	弱	弱	较强	弱
入口体验	直接对话框	Discord / 网页	App / 网页	ChatGPT 内
起步价	免费（有限额）	10 美元/月	免费	20 美元/月（ChatGPT Plus）
商用授权	付费档含	付费档含	含	付费档含
中国可用	需海外网络	需海外网络	直接可用	需海外网络

结论：

要免费 + 改图强 → Gemini（Nano Banana 改图是真香）
要艺术感最炸 → Midjourney
要中文 + 国内访问 → 即梦 / 可灵
要在 ChatGPT 里顺手画 → DALL·E

更多对比看 AI 画图教程 cluster。

在中国能用吗

Gemini 生图跟主 Gemini 一样有地区限制。中国大陆需要海外网络环境 + Google 账号，详细情况见 Gemini 国内可以用吗和 Gemini 是否可用一览。

国产替代非常强：

即梦 3.0：字节出品，中文最强，国内访问最快
可灵 2.0：快手出品，图+视频一体
文心一格：百度，免费量大
通义万相：阿里，电商场景优化

下一步

把生图玩熟后，接着看：

Gemini Veo 视频教程 — 8 秒带声 AI 视频
Gemini Lyria 音乐 — 配乐工具
Gemini Canvas 怎么用 — 网页/海报原型
Gemini Gems 是什么 — 把生图模板存成自定义助手
Gemini 完整使用指南 — cluster 入口总览

常见问题

Q：Gemini 生图和 Imagen 是一回事吗？ A：不完全是。Imagen 4 是 Google 底层的文生图模型，Gemini 里调用它来「从 0 出大图」。Nano Banana 则是 Gemini 3 的多模态原生能力，主要做「基于一张已有图改」。Gemini App 自动派给合适的模型，你不用手动切。

Q：生成的图有水印吗？ A：Gemini 所有生成图都带 SynthID 不可见水印（机器可识别为 AI 生成），肉眼看不到，不影响商用美观。

Q：能用同一个人物生成多张连续的图吗？ A：可以，但一致性不算最强。上传一张参考头像，连续 5-10 张内基本能保持面部特征，超过就开始漂移。要严格人物一致性，Midjourney 的 --cref 参数或专门工具更稳。

Q：图片能商用吗？ A：付费档（AI Plus 及以上）生成的图默认带商用授权，做广告、电商、自媒体没问题。免费版主要给个人非商业用，商用前最好升档。

Q：能生成多大尺寸？ A：默认 1024×1024，可指定 1:1 / 4:3 / 3:4 / 16:9 / 9:16。要更大尺寸（如 4K 印刷）建议出图后用 Topaz / Real-ESRGAN 等专业放大工具。

Q：能生成真人 / 名人吗？ A：不能。Gemini 拒绝直接生成具体名人形象（演员、政客、运动员），也限制裸体 / 暴力内容。要做名人风格 mock 可以描述「类似某种风格的虚构人物」绕开。

Q：生图比文字慢很多吗？ A：单张 5-20 秒，比文字慢但比视频快。复杂 prompt（多元素、高分辨率）会到 30 秒。