Gemini 生图教程:Nano Banana 与 Imagen 实测
Gemini 生图教程:手把手教你用 Nano Banana 改图、Imagen 出大图,覆盖 Gemini 画图入口、prompt 写法、AI 生图避坑全流程
30 秒了解:Gemini 生图现在是个什么状态
Gemini 生图分两条线:一条叫 Nano Banana(基于 Gemini 3 原生图像能力),擅长「改一张已有图」——抠人物换背景、风格迁移、多张图合成;另一条叫 Imagen 4,擅长「从零生成一张全新图」,画质更细、对长 prompt 理解更深。 你不用在两者间切换,Gemini App 会按你的 prompt 自动派给最合适的模型。
适合做什么:海报底图、社媒配图、电商商品图改造、个人头像、PPT 素材、ins 风氛围图。
不适合:
- 要求精确文字嵌入(中文长句、复杂 logo 字样仍偶尔崩)
- 多人物群像保持高度面部一致
- 直接出 4K 印刷级海报(建议 Imagen 出图再用专业工具放大)
下面把入口、操作步骤、5 个进阶 prompt 模板、5 个常见坑、和 Midjourney / 即梦的差异讲完。
准备工作
- 入口:Gemini 网页版
gemini.google.com、Gemini 手机 App、Google Slides / Docs 的 Help me visualize 都能调 - 账号:免费版每天有少量配额(约 10-20 张),AI Plus / Pro 数十倍提升
- 网络:中国大陆需要海外网络环境 + Google 账号,详见 Gemini 国内可以用吗
- 耗时:单张 5-20 秒,比视频快很多
如果你不太确定自己的账号在哪一档,去 Gemini 收费怎么算 对一下额度。
详细操作步骤
第 1 步:找到生图入口
进入 gemini.google.com,主对话框下方一排功能按钮里找到 Create image(图标是一个山+太阳的样式),点亮它。
[此处放截图:主对话框 Create image 按钮位置]
手机 App 里入口在输入框左侧 + 菜单里,叫「Image」。
如果你看不到这个按钮,多半是账号没灰度到。Gemini 的图像功能是按区域逐步开放的,等 1-2 周一般就解锁了,或者临时换成主对话框直接输入「帮我画一张 xxx」也能触发。
第 2 步:写第一张生图 prompt
最朴素的写法:
一只柴犬,戴着圆框墨镜,坐在夏威夷沙滩上,背景是日落,写实风格。
按发送,10 秒左右图就出来。Gemini 默认一次给 1 张图。
想要多张候选就在 prompt 末尾加「生成 4 张不同风格的版本」,它会调度 Imagen 模型一次出 4 张。
第 3 步:改图模式(Nano Banana 主场)
如果你想基于一张已有图改:
- 点输入框旁的 + 上传图片
- 写改图指令,比如「把背景换成雪山」「人物头发改成粉色」「加一只猫坐在旁边」
- Gemini 会调用 Nano Banana,保留原图主体特征,只改你指定的部分
[此处放截图:上传图后输入改图指令的界面]
关键经验:Nano Banana 一次最好只改一个点,「换背景 + 加道具 + 换发色」三件事一起要它做,主体特征容易崩。改完看效果,满意再连续追加下一个改动。
第 4 步:多图融合
上传 2-3 张图,写「请把图 1 的人物放进图 2 的场景,光线匹配图 2 的氛围」。Gemini 会做合成。这是 Nano Banana 相对 Imagen 的最大差异——它真的「理解」每张图的内容,而不只是叠图。
适合场景:
- 把自己的证件照放进虚拟场景做头像
- 商品图换背景
- 人物图换装
第 5 步:下载与版权
每张图右下角有按钮:
- Download:下载 PNG 原图,1024×1024 默认尺寸
- Share:生成只读链接
- 再次编辑:点一张图,会自动作为下一次对话的输入图
每张图右下角有 SynthID 水印(不可见、机器可识别),用于声明是 AI 生成,肉眼不影响美观。
5 个 Gemini 生图进阶 prompt
prompt 1:商品 hero 图
电商详情页 / 官网首屏想要一张高级感产品图:
摄影棚级产品图,主体:一只哑光黑色金属保温杯,杯身有一圈细微的金色品牌 logo。
镜头:正面 30 度俯视,特写,浅景深。
光线:双向柔光箱打光,主光从右上 45 度,辅光从左侧填光,背景渐变深灰到纯黑。
背景元素:杯子右下方放一颗咖啡豆和一片新鲜薄荷叶作为点缀。
风格:苹果广告片质感,极简、高级、商业摄影。
输出:16:9 横屏,4K 画质,无文字。
跑出来基本可以直接当详情页主图。
prompt 2:小红书氛围封面
发笔记前的封面图:
ins 风氛围照片,鸟瞰俯拍视角。
主体:一张浅色木桌上摆放一杯刚倒好的拿铁咖啡(杯子里有拉花),旁边放一本翻开的书、一支金属钢笔、一支带绿叶的小盆栽。
光线:柔和的窗光从左上方斜射进来,桌面有自然的斑驳光影。
调色:奶油色调,柔和饱和度,胶片质感,仿少女心 vsco 滤镜。
构图:左下角咖啡杯,右上角植物,中间留白给文字位。
输出:3:4 竖屏,1080p。
直接发小红书,配一句鸡汤就成爆款封面。
prompt 3:风格迁移改老照片
把一张普通照片改成插画风:
基于上传的照片(一张家庭合影),保留所有人物的面部特征、发型、服装颜色和姿势,把整张图改成宫崎骏吉卜力工作室的水彩动画风格。
要求:
- 人物五官保持识别度,不要走形
- 背景细节用手绘水彩笔触表现,云朵柔和、植物色彩饱满
- 光线偏温暖柔和的午后阳光
- 整体氛围温馨、治愈、童话感
输出:保持原图比例。
做家人生日礼物、纪念日卡片,比写贺词有诚意。
prompt 4:图标 / icon 套图
设计师 / 产品经理临时要一套图标:
扁平化矢量图标风格,一套 4 个工具类 icon。
主题:日历、邮件、待办清单、日记本。
风格要求:
- 圆角设计,统一的视觉语言
- 主色 #2563eb 蓝色,辅助色 #f59e0b 橙色
- 白色背景,每个 icon 居中
- 简洁线条,不堆细节,远看也清晰
排版:四个 icon 横向排列,等大等距。
输出:1024×256,PNG 透明背景。
跑两次挑一套就能直接用。
prompt 5:人物虚拟头像
把自己的照片改成各种风格头像:
基于上传的我的照片,生成一张 LinkedIn 职业头像。
要求:
- 保留我的面部特征、发型、肤色,要能一眼认出
- 服装改成深蓝色西装 + 白衬衫
- 背景改成虚化的现代办公室场景,浅景深
- 表情自然微笑,专业感
- 光线柔和、肤色健康
输出:正方形 1:1,1024×1024。
5 分钟搞定一张能用 3 年的职业头像。
5 个 Gemini 生图常见坑
坑 1:人物面部细节崩
特写脸时眼睛、嘴角偶尔出问题。
解法:
- prompt 里避免「extreme close-up」「focus on face only」
- 加一句「natural facial features, anatomically correct」
- 多生成几次挑最自然的;或者改成 3/4 侧脸构图,正脸出错率最高
坑 2:图里中文文字写成乱码
让 Gemini 在海报上写中文字往往出错。
解法:
- 短英文单词(如「SALE」「NEW」)成功率比中文高很多
- 要嵌中文字,prompt 里写「leave a clean white space for text overlay」让模型留白
- 出图后用 Photoshop / Canva / 创客贴自己加字,最稳
坑 3:颜色对不上参考
你说「主色 #2563eb」但出来一片浅蓝。
解法:
- 给具体的颜色名而不是色号:「a deep royal blue, similar to navy」
- 上传一张参考图,写「match the color palette of the reference image」
- 出图后用 Photoshop / Figma 自己调色,AI 出图基本只能给方向
坑 4:改图把整张图重画了
Nano Banana 应该「只改你指定部分」,但有时整张图都换了。
解法:
- prompt 明确写「keep everything else exactly the same, only change [具体部分]」
- 改动越具体越好,「换背景成雪山」比「让这张图更冷一点」效果稳
- 如果连续改 3-4 次后越改越乱,重新上传原图开新对话
坑 5:生图额度突然用完
免费版有时一天就 5-10 张就提示用完。
解法:
- 免费额度是动态的,Google 不公开具体数字,按当时负载浮动
- 复杂 prompt(多元素、4K)比简单 prompt 扣得多
- 长期重度用考虑 AI Plus(每月 19.99 美元),额度数十倍提升
- 临时救急:去 即梦 / 可灵 等国产工具补位
Gemini 生图 vs Midjourney vs 即梦 vs DALL·E
| 维度 | Gemini (Nano Banana + Imagen 4) | Midjourney v7 | 即梦 3.0 | DALL·E 3 (在 ChatGPT 里) |
|---|---|---|---|---|
| 生图质量 | 强 | 最强(艺术性) | 强 | 中 |
| 改图能力 | 强(Nano Banana 强项) | 中 | 中 | 弱 |
| 中文 prompt | 中等 | 中等 | 最强(国产优势) | 中等 |
| 中文字嵌入 | 弱 | 弱 | 较强 | 弱 |
| 入口体验 | 直接对话框 | Discord / 网页 | App / 网页 | ChatGPT 内 |
| 起步价 | 免费(有限额) | 10 美元/月 | 免费 | 20 美元/月(ChatGPT Plus) |
| 商用授权 | 付费档含 | 付费档含 | 含 | 付费档含 |
| 中国可用 | 需海外网络 | 需海外网络 | 直接可用 | 需海外网络 |
结论:
- 要免费 + 改图强 → Gemini(Nano Banana 改图是真香)
- 要艺术感最炸 → Midjourney
- 要中文 + 国内访问 → 即梦 / 可灵
- 要在 ChatGPT 里顺手画 → DALL·E
更多对比看 AI 画图教程 cluster。
在中国能用吗
Gemini 生图跟主 Gemini 一样有地区限制。中国大陆需要海外网络环境 + Google 账号,详细情况见 Gemini 国内可以用吗 和 Gemini 是否可用一览。
国产替代非常强:
- 即梦 3.0:字节出品,中文最强,国内访问最快
- 可灵 2.0:快手出品,图+视频一体
- 文心一格:百度,免费量大
- 通义万相:阿里,电商场景优化
下一步
把生图玩熟后,接着看:
- Gemini Veo 视频教程 — 8 秒带声 AI 视频
- Gemini Lyria 音乐 — 配乐工具
- Gemini Canvas 怎么用 — 网页/海报原型
- Gemini Gems 是什么 — 把生图模板存成自定义助手
- Gemini 完整使用指南 — cluster 入口总览
常见问题
Q:Gemini 生图和 Imagen 是一回事吗? A:不完全是。Imagen 4 是 Google 底层的文生图模型,Gemini 里调用它来「从 0 出大图」。Nano Banana 则是 Gemini 3 的多模态原生能力,主要做「基于一张已有图改」。Gemini App 自动派给合适的模型,你不用手动切。
Q:生成的图有水印吗? A:Gemini 所有生成图都带 SynthID 不可见水印(机器可识别为 AI 生成),肉眼看不到,不影响商用美观。
Q:能用同一个人物生成多张连续的图吗?
A:可以,但一致性不算最强。上传一张参考头像,连续 5-10 张内基本能保持面部特征,超过就开始漂移。要严格人物一致性,Midjourney 的 --cref 参数或专门工具更稳。
Q:图片能商用吗? A:付费档(AI Plus 及以上)生成的图默认带商用授权,做广告、电商、自媒体没问题。免费版主要给个人非商业用,商用前最好升档。
Q:能生成多大尺寸? A:默认 1024×1024,可指定 1:1 / 4:3 / 3:4 / 16:9 / 9:16。要更大尺寸(如 4K 印刷)建议出图后用 Topaz / Real-ESRGAN 等专业放大工具。
Q:能生成真人 / 名人吗? A:不能。Gemini 拒绝直接生成具体名人形象(演员、政客、运动员),也限制裸体 / 暴力内容。要做名人风格 mock 可以描述「类似某种风格的虚构人物」绕开。
Q:生图比文字慢很多吗? A:单张 5-20 秒,比文字慢但比视频快。复杂 prompt(多元素、高分辨率)会到 30 秒。