🤖 AI 跟我学 新手入门

Nano Banana 怎么用?Gemini 画图新手教程

Nano Banana 怎么用?详解 Gemini 画图、Imagen、谷歌画图三大入门要点,谷歌新一代文生图模型从注册到出图的中文保姆教程

发布 2026/05/20

Nano Banana 是 2025 年下半年在 Gemini 生态内被热议的画图能力代号,因社区博文和模型测试中频繁出现「nano-banana」标识而得名它本质指向 Gemini 接入的新一代图像生成模型(基于 Google 的 Imagen 系列),主打对话式画图、与 Gemini 多模态串联、人体准确性显著进步

这篇按「是什么 → 在哪用 → 第一张图 → 与 Imagen 关系 → 与同类对比 → 常见坑」6 段把 Nano Banana 讲透。看完你能跑出第一张 Gemini 画图作品。

提醒:Nano Banana 是社区俗称,官方正式名称、模型版本号、可用区域、定价随 Google 滚动发布在变化。本文基于截稿时社区共识整理,实际使用以 gemini.google.com 或 aistudio.google.com 官方页为准

30 秒了解:Nano Banana 是什么

Nano Banana 是 Gemini 生态内一组图像生成 / 编辑能力的社区称呼,对应模型属于 Google Imagen 系列的演进版本。主要特征:

  • 对话式画图:在 Gemini 对话框里说「画一张猫」就出图,像 GPT-4o 画图一样自然
  • 人体 / 手指准确:相比早期 Imagen 和 SD,人体结构和手指准确率显著提升
  • 图像编辑能力强:传一张图说「把背景换成海滩」、「把猫换成狗」能精准改图
  • 多语言友好:英文最佳,但中文 prompt 出图也可用
  • 与 Gemini 多模态串联:可以「先聊出想法 → 让 AI 自动写 prompt → 直接出图」一气呵成

适合谁

  • 已经在用 Gemini 的人(生态内功能,无额外注册
  • 喜欢对话式画图胜于参数面板的人
  • 需要精准图像编辑(换背景 / 换主体 / 局部重绘)的人
  • 设计师 / 自媒体想用 Google 全家桶串联工作流的人

不适合谁

  • 国内用户Gemini 国内不直接可用,需要可用环境
  • 偏爱节点流深度可控的 SD / Flux 玩家
  • 极致追求开源可定制的人

准备工作

需要什么

  • 一个能用 Google 账号(个人 Google 账号即可)
  • 一个可访问 Google 服务的网络环境国内用户需自行解决可用性
  • 一个浏览器或 Gemini App

三种主要入口

入口难度适合
Gemini 网页版(gemini.google.com)新手起步,对话出图
Gemini App(iOS / Android)移动端用
Google AI Studio(aistudio.google.com)开发者 / 试模型
Imagen API via Vertex AI开发者集成自家产品

新手推荐从 Gemini 网页版开始

详细操作步骤

第 1 步:登录 Gemini

打开 gemini.google.com,用 Google 账号登录。国内用户需自行确保可用性

[此处放截图:Gemini 对话主界面]

没有 Google 账号的人需要先注册(手机号 + 邮箱),部分地区可能需要海外手机号验证

第 2 步:在对话里直接说画图

进入对话界面后,在输入框直接写:

Draw a cute orange cat sitting by a window with soft morning light, photorealistic style

或中文:

画一张橘猫坐在窗边,温暖晨光,写实风格

Gemini 会自动识别这是画图请求,调用 Nano Banana / Imagen 出图,等 10-30 秒得到结果。

[此处放截图:Gemini 对话出图结果]

第 3 步:对话式改图

第一张不满意?直接在对话里说改

  • 「换成黑猫」
  • 「加一杯咖啡在猫旁边」
  • 「换成黄昏的光线」
  • 「再画一张同款但视角换成俯视」

Gemini 会用对话上下文理解修改意图,比手动改 prompt 重跑直观

第 4 步:图生图 / 编辑

上传一张图(点对话框旁边的「+」或「图片」按钮),然后说:

  • 「把背景换成日落海滩」
  • 「把这只猫换成柯基犬」
  • 「让这张照片更明亮一些」
  • 「按这张图的风格再画一张但主体换成兔子」

精细图像编辑是 Nano Banana 的强项之一——能精准识别和替换图中元素。

第 5 步:进阶——用 Google AI Studio

想要更精细控制 + 看 prompt 的代码版:

  • 打开 aistudio.google.com
  • 选 Gemini 模型 + 图像生成能力
  • 在 Playground 调参数、贴 prompt
  • 直接看 / 复制对应 API 调用代码

[此处放截图:AI Studio 出图面板]

第 6 步:开发者用 API

通过 Vertex AIAI Studio API

  • 获取 Google Cloud / AI Studio API Key
  • 用 Python / Node SDK 调用
  • 计费按调用量 + 模型档位

简化 Python 示例(伪代码):

import google.generativeai as genai

genai.configure(api_key="你的 Key")
model = genai.GenerativeModel("gemini-pro-vision-image-gen")  
# 注意:实际模型名以官方文档为准
result = model.generate_image(
    prompt="A cozy ramen shop in Tokyo, cinematic film photography",
    size="1024x1024",
)
result.save("output.png")

⚠️ 上面代码仅示意,实际 API 名、模型 ID、参数以 Google 官方文档为准

5 个 Nano Banana 进阶技巧

技巧 1:用「自然语言描述」胜过堆词

Nano Banana 文本理解强,自然语言长 prompt 比关键词堆叠更有效。试试:

A young woman with curly red hair, wearing a navy blue knitted sweater, 
sits on a wooden bench in a snowy park. She's reading a hardcover book, 
holding a paper cup of coffee in her other hand. Soft winter sunlight 
filters through the bare tree branches above. The atmosphere is quiet 
and contemplative. Shot like a 35mm film photograph with subtle grain.

red hair, sweater, park, book, coffee, winter, 35mm film, photorealistic 这种关键词堆出图更稳。

技巧 2:先聊清楚再让 AI 出 prompt

Gemini 的多模态优势:先对话出想法,再让 Gemini 自己写 prompt

我想做一张公众号封面,主题是「AI 改变设计师的工作方式」。
帮我先讨论一下视觉创意(构图、配色、风格选择),
确定后你直接帮我画出来。

Gemini 会先和你讨论几轮,最后直接画,比自己写 prompt 省力。

技巧 3:「局部重绘」式精修

上传初稿后说:

这张图基本满意,但右上角的天空有点死板。
保持其他部分不变,只把天空换成日落的橙紫色调。

Nano Banana 能做指定区域修改而保留其他部分,精度远超 SDXL 的 inpainting

技巧 4:批量风格统一

需要一组同风格图(如一篇文章的 5 张配图):

帮我画 5 张图,统一风格是「极简扁平插画 + 浅蓝主色 + 圆角图形」,
主题分别是:
1. 程序员在写代码
2. 设计师在画原型
3. PM 在开会
4. 数据分析师看图表
5. 团队远程协作

Gemini 会用相同风格描述生成 5 张图,风格一致性优于手动逐张写 prompt。

技巧 5:嵌英文字

Nano Banana 系列的图中文字能力强(英文):

A vintage poster design with the text "PAGE ONE COFFEE" in bold retro font, 
1950s diner aesthetic, warm color palette, coffee cup illustration in the center.

出图通常能正确生成 “PAGE ONE COFFEE”。中文嵌字仍不稳,建议外部用 Photoshop / Figma 加。

常见坑 + 解决办法

现象原因解决
Gemini 不出图直接回文字没识别为画图请求 / 区域限制prompt 里明确说 “画一张” 或 “Draw”
国内访问被限制Gemini 部分地区受限切换可用网络环境
出图风格平庸prompt 太通用加细节 + 加风格参考词(「电影感」「胶片感」)
人脸出公众人物模型安全策略Gemini 通常会拒画特定人物
API 返回 401Key 错或没启用模型AI Studio / GCP 控制台确认权限
中文 prompt 出图歪Imagen 训练主要英文用 GPT 翻成英文 prompt
出图与 prompt 严重不符内容触发安全策略改用更中性的表述重写
编辑改图不精准描述歧义用「保留 X,只把 Y 改成 Z」结构清晰描述

实战案例:用 Gemini + Nano Banana 做一组系列插图

下面给一个完整的系列插图实战流程模板:

📋 Prompt 模板

Gemini + Nano Banana - 系列插图实战流程

场景:给一篇「2026 远程办公趋势」博文做 4 张配图

对话流程(直接在 Gemini 网页版操作):

第 1 轮: 我想给一篇关于「2026 远程办公趋势」的博文画 4 张配图。 风格要统一:极简扁平插画、主色调浅蓝和米白、圆角几何元素、 人物简笔画风格、画面留白多、配色高级。 4 张内容分别是:

  1. 一个人在家用笔记本电脑视频会议
  2. 一群人远程协作看共享文档
  3. 数字游民在咖啡馆带笔记本工作
  4. 团队在虚拟会议室开会有 AI 助手参与

请先把 4 张的 prompt 都写出来给我看,然后再画。

第 2 轮(看完 prompt 调整后): prompt 看起来不错。第 4 张的「AI 助手」具象化一下, 比如画成桌面上的一个发光的几何图形助手。 然后帮我画出来。

第 3 轮(出图后): 第 2 张人物太多了,简化成 3 个人物的画面。 其他 3 张保留,只重画第 2 张。

预期效果:

  • 4 张风格统一的扁平插画
  • 全程对话式调整,无需手写复杂 prompt
  • 单张时间 30-60 秒
  • 风格一致性远胜分别用 SD / MJ 出图
  • 后续可在 Photoshop 加标题文字组成最终封面

进阶玩法:

  • 让 Gemini 同时写博文的 4 个段落标题
  • 让 Gemini 给每张配图建议配文
  • 形成「文 + 图」一体化产出

这套流程跑下来 10-15 分钟出 4 张系列配图,风格统一性比传统工作流好得多

Nano Banana vs 其他主流文生图

维度Nano Banana / ImagenGPT ImageMidjourneyFlux
入口Gemini / AI StudioChatGPT / APIDiscord / 网页本地 / 在线服务
对话式极强极强
文本理解
画质天花板极高极高
图像编辑极强
图中文字强(英文)
开源 / 闭源闭源闭源闭源开源(dev/schnell)
国内可用
商用授权看协议Plus 含Pro 起schnell 可商用

整体格局

一个判断「我该用 Nano Banana 吗」的 prompt

把下面发给 Gemini / ChatGPT / Claude:

📋 Prompt 模板

我在考虑要不要把 Nano Banana / Gemini 画图作为我的主力 AI 画图工具,请帮我做一个具体判断。

我的情况:

  1. 我的所在地:「国内 / 海外 / 经常往返」
  2. 我的网络环境:「能稳定访问 Google / 不能 / 有时能」
  3. 我现在用的工具:「ChatGPT 画图 / Midjourney / 即梦 / SD / 没用过」
  4. 我的主要用途:「日常对话出图 / 自媒体配图 / 商业设计 / 开发集成」
  5. 我对画质要求:「能用就行 / 中等以上 / 必须顶级」
  6. 我对图像编辑(局部改图)需求:「无 / 偶尔 / 高频」

请帮我:

  • 给一个明确判断:用 Nano Banana / 用其他工具 / 多个组合
  • 推荐用法:Gemini 对话 / AI Studio / Vertex API
  • 给一个新手起步 prompt 模板
  • 提醒我有什么坑要注意

请直接给一个明确判断,不要让我自己选。

九成情况下得到的建议会落在:「能稳访问 Google + 已用 Gemini 生态 → Nano Banana 主力;国内主用 → 即梦 / 文心一格更顺手」

进阶 / 下一步

最后一句忠告:Nano Banana 的最大卖点是「对话式 + 强编辑 + 多模态串联」,不是画质天花板。如果你已经稳定用 Gemini 做对话和开发,它是顺手延伸;如果你国内主用、不打算碰 Gemini 生态,即梦 AIMidjourney 更实际