🤖 AI 跟我学 新手入门

Gemini 生图教程:Nano Banana 与 Imagen 实测

Gemini 生图教程:手把手教你用 Nano Banana 改图、Imagen 出大图,覆盖 Gemini 画图入口、prompt 写法、AI 生图避坑全流程

发布 2026/05/20 📎 参考官方文档

30 秒了解:Gemini 生图现在是个什么状态

Gemini 生图分两条线:一条叫 Nano Banana(基于 Gemini 3 原生图像能力),擅长「改一张已有图」——抠人物换背景、风格迁移、多张图合成;另一条叫 Imagen 4,擅长「从零生成一张全新图」,画质更细、对长 prompt 理解更深。 你不用在两者间切换,Gemini App 会按你的 prompt 自动派给最合适的模型。

适合做什么:海报底图、社媒配图、电商商品图改造、个人头像、PPT 素材、ins 风氛围图。

不适合:

  • 要求精确文字嵌入(中文长句、复杂 logo 字样仍偶尔崩)
  • 多人物群像保持高度面部一致
  • 直接出 4K 印刷级海报(建议 Imagen 出图再用专业工具放大)

下面把入口、操作步骤、5 个进阶 prompt 模板、5 个常见坑、和 Midjourney / 即梦的差异讲完。

准备工作

  • 入口:Gemini 网页版 gemini.google.com、Gemini 手机 App、Google Slides / Docs 的 Help me visualize 都能调
  • 账号:免费版每天有少量配额(约 10-20 张),AI Plus / Pro 数十倍提升
  • 网络:中国大陆需要海外网络环境 + Google 账号,详见 Gemini 国内可以用吗
  • 耗时:单张 5-20 秒,比视频快很多

如果你不太确定自己的账号在哪一档,去 Gemini 收费怎么算 对一下额度。

详细操作步骤

第 1 步:找到生图入口

进入 gemini.google.com,主对话框下方一排功能按钮里找到 Create image(图标是一个山+太阳的样式),点亮它。

[此处放截图:主对话框 Create image 按钮位置]

手机 App 里入口在输入框左侧 + 菜单里,叫「Image」。

如果你看不到这个按钮,多半是账号没灰度到。Gemini 的图像功能是按区域逐步开放的,等 1-2 周一般就解锁了,或者临时换成主对话框直接输入「帮我画一张 xxx」也能触发。

第 2 步:写第一张生图 prompt

最朴素的写法:

一只柴犬,戴着圆框墨镜,坐在夏威夷沙滩上,背景是日落,写实风格。

按发送,10 秒左右图就出来。Gemini 默认一次给 1 张图。

想要多张候选就在 prompt 末尾加「生成 4 张不同风格的版本」,它会调度 Imagen 模型一次出 4 张。

第 3 步:改图模式(Nano Banana 主场)

如果你想基于一张已有图改:

  1. 点输入框旁的 + 上传图片
  2. 写改图指令,比如「把背景换成雪山」「人物头发改成粉色」「加一只猫坐在旁边」
  3. Gemini 会调用 Nano Banana,保留原图主体特征,只改你指定的部分

[此处放截图:上传图后输入改图指令的界面]

关键经验:Nano Banana 一次最好只改一个点,「换背景 + 加道具 + 换发色」三件事一起要它做,主体特征容易崩。改完看效果,满意再连续追加下一个改动。

第 4 步:多图融合

上传 2-3 张图,写「请把图 1 的人物放进图 2 的场景,光线匹配图 2 的氛围」。Gemini 会做合成。这是 Nano Banana 相对 Imagen 的最大差异——它真的「理解」每张图的内容,而不只是叠图。

适合场景:

  • 把自己的证件照放进虚拟场景做头像
  • 商品图换背景
  • 人物图换装

第 5 步:下载与版权

每张图右下角有按钮:

  • Download:下载 PNG 原图,1024×1024 默认尺寸
  • Share:生成只读链接
  • 再次编辑:点一张图,会自动作为下一次对话的输入图

每张图右下角有 SynthID 水印(不可见、机器可识别),用于声明是 AI 生成,肉眼不影响美观。

5 个 Gemini 生图进阶 prompt

prompt 1:商品 hero 图

电商详情页 / 官网首屏想要一张高级感产品图:

📋 Prompt 模板

摄影棚级产品图,主体:一只哑光黑色金属保温杯,杯身有一圈细微的金色品牌 logo。

镜头:正面 30 度俯视,特写,浅景深。

光线:双向柔光箱打光,主光从右上 45 度,辅光从左侧填光,背景渐变深灰到纯黑。

背景元素:杯子右下方放一颗咖啡豆和一片新鲜薄荷叶作为点缀。

风格:苹果广告片质感,极简、高级、商业摄影。

输出:16:9 横屏,4K 画质,无文字。

跑出来基本可以直接当详情页主图。

prompt 2:小红书氛围封面

发笔记前的封面图:

📋 Prompt 模板

ins 风氛围照片,鸟瞰俯拍视角。

主体:一张浅色木桌上摆放一杯刚倒好的拿铁咖啡(杯子里有拉花),旁边放一本翻开的书、一支金属钢笔、一支带绿叶的小盆栽。

光线:柔和的窗光从左上方斜射进来,桌面有自然的斑驳光影。

调色:奶油色调,柔和饱和度,胶片质感,仿少女心 vsco 滤镜。

构图:左下角咖啡杯,右上角植物,中间留白给文字位。

输出:3:4 竖屏,1080p。

直接发小红书,配一句鸡汤就成爆款封面。

prompt 3:风格迁移改老照片

把一张普通照片改成插画风:

📋 Prompt 模板

基于上传的照片(一张家庭合影),保留所有人物的面部特征、发型、服装颜色和姿势,把整张图改成宫崎骏吉卜力工作室的水彩动画风格。

要求:

  1. 人物五官保持识别度,不要走形
  2. 背景细节用手绘水彩笔触表现,云朵柔和、植物色彩饱满
  3. 光线偏温暖柔和的午后阳光
  4. 整体氛围温馨、治愈、童话感

输出:保持原图比例。

做家人生日礼物、纪念日卡片,比写贺词有诚意。

prompt 4:图标 / icon 套图

设计师 / 产品经理临时要一套图标:

📋 Prompt 模板

扁平化矢量图标风格,一套 4 个工具类 icon。

主题:日历、邮件、待办清单、日记本。

风格要求:

  1. 圆角设计,统一的视觉语言
  2. 主色 #2563eb 蓝色,辅助色 #f59e0b 橙色
  3. 白色背景,每个 icon 居中
  4. 简洁线条,不堆细节,远看也清晰

排版:四个 icon 横向排列,等大等距。

输出:1024×256,PNG 透明背景。

跑两次挑一套就能直接用。

prompt 5:人物虚拟头像

把自己的照片改成各种风格头像:

📋 Prompt 模板

基于上传的我的照片,生成一张 LinkedIn 职业头像。

要求:

  1. 保留我的面部特征、发型、肤色,要能一眼认出
  2. 服装改成深蓝色西装 + 白衬衫
  3. 背景改成虚化的现代办公室场景,浅景深
  4. 表情自然微笑,专业感
  5. 光线柔和、肤色健康

输出:正方形 1:1,1024×1024。

5 分钟搞定一张能用 3 年的职业头像。

5 个 Gemini 生图常见坑

坑 1:人物面部细节崩

特写脸时眼睛、嘴角偶尔出问题。

解法:

  • prompt 里避免「extreme close-up」「focus on face only」
  • 加一句「natural facial features, anatomically correct」
  • 多生成几次挑最自然的;或者改成 3/4 侧脸构图,正脸出错率最高

坑 2:图里中文文字写成乱码

让 Gemini 在海报上写中文字往往出错。

解法:

  • 短英文单词(如「SALE」「NEW」)成功率比中文高很多
  • 要嵌中文字,prompt 里写「leave a clean white space for text overlay」让模型留白
  • 出图后用 Photoshop / Canva / 创客贴自己加字,最稳

坑 3:颜色对不上参考

你说「主色 #2563eb」但出来一片浅蓝。

解法:

  • 给具体的颜色名而不是色号:「a deep royal blue, similar to navy」
  • 上传一张参考图,写「match the color palette of the reference image」
  • 出图后用 Photoshop / Figma 自己调色,AI 出图基本只能给方向

坑 4:改图把整张图重画了

Nano Banana 应该「只改你指定部分」,但有时整张图都换了。

解法:

  • prompt 明确写「keep everything else exactly the same, only change [具体部分]」
  • 改动越具体越好,「换背景成雪山」比「让这张图更冷一点」效果稳
  • 如果连续改 3-4 次后越改越乱,重新上传原图开新对话

坑 5:生图额度突然用完

免费版有时一天就 5-10 张就提示用完。

解法:

  • 免费额度是动态的,Google 不公开具体数字,按当时负载浮动
  • 复杂 prompt(多元素、4K)比简单 prompt 扣得多
  • 长期重度用考虑 AI Plus(每月 19.99 美元),额度数十倍提升
  • 临时救急:去 即梦 / 可灵 等国产工具补位

Gemini 生图 vs Midjourney vs 即梦 vs DALL·E

维度Gemini (Nano Banana + Imagen 4)Midjourney v7即梦 3.0DALL·E 3 (在 ChatGPT 里)
生图质量最强(艺术性)
改图能力强(Nano Banana 强项)
中文 prompt中等中等最强(国产优势)中等
中文字嵌入较强
入口体验直接对话框Discord / 网页App / 网页ChatGPT 内
起步价免费(有限额)10 美元/月免费20 美元/月(ChatGPT Plus)
商用授权付费档含付费档含付费档含
中国可用需海外网络需海外网络直接可用需海外网络

结论

  • 要免费 + 改图强 → Gemini(Nano Banana 改图是真香)
  • 要艺术感最炸 → Midjourney
  • 要中文 + 国内访问 → 即梦 / 可灵
  • 要在 ChatGPT 里顺手画 → DALL·E

更多对比看 AI 画图教程 cluster。

在中国能用吗

Gemini 生图跟主 Gemini 一样有地区限制。中国大陆需要海外网络环境 + Google 账号,详细情况见 Gemini 国内可以用吗Gemini 是否可用一览

国产替代非常强:

  • 即梦 3.0:字节出品,中文最强,国内访问最快
  • 可灵 2.0:快手出品,图+视频一体
  • 文心一格:百度,免费量大
  • 通义万相:阿里,电商场景优化

下一步

把生图玩熟后,接着看:

常见问题

Q:Gemini 生图和 Imagen 是一回事吗? A:不完全是。Imagen 4 是 Google 底层的文生图模型,Gemini 里调用它来「从 0 出大图」。Nano Banana 则是 Gemini 3 的多模态原生能力,主要做「基于一张已有图改」。Gemini App 自动派给合适的模型,你不用手动切。

Q:生成的图有水印吗? A:Gemini 所有生成图都带 SynthID 不可见水印(机器可识别为 AI 生成),肉眼看不到,不影响商用美观。

Q:能用同一个人物生成多张连续的图吗? A:可以,但一致性不算最强。上传一张参考头像,连续 5-10 张内基本能保持面部特征,超过就开始漂移。要严格人物一致性,Midjourney 的 --cref 参数或专门工具更稳。

Q:图片能商用吗? A:付费档(AI Plus 及以上)生成的图默认带商用授权,做广告、电商、自媒体没问题。免费版主要给个人非商业用,商用前最好升档。

Q:能生成多大尺寸? A:默认 1024×1024,可指定 1:1 / 4:3 / 3:4 / 16:9 / 9:16。要更大尺寸(如 4K 印刷)建议出图后用 Topaz / Real-ESRGAN 等专业放大工具。

Q:能生成真人 / 名人吗? A:不能。Gemini 拒绝直接生成具体名人形象(演员、政客、运动员),也限制裸体 / 暴力内容。要做名人风格 mock 可以描述「类似某种风格的虚构人物」绕开。

Q:生图比文字慢很多吗? A:单张 5-20 秒,比文字慢但比视频快。复杂 prompt(多元素、高分辨率)会到 30 秒。