Nano Banana 怎么用？Gemini 画图新手教程

Nano Banana 是 2025 年下半年在 Gemini 生态内被热议的画图能力代号，因社区博文和模型测试中频繁出现「nano-banana」标识而得名。它本质指向 Gemini 接入的新一代图像生成模型（基于 Google 的 Imagen 系列），主打对话式画图、与 Gemini 多模态串联、人体准确性显著进步。

这篇按「是什么 → 在哪用 → 第一张图 → 与 Imagen 关系 → 与同类对比 → 常见坑」6 段把 Nano Banana 讲透。看完你能跑出第一张 Gemini 画图作品。

提醒：Nano Banana 是社区俗称，官方正式名称、模型版本号、可用区域、定价随 Google 滚动发布在变化。本文基于截稿时社区共识整理，实际使用以 gemini.google.com 或 aistudio.google.com 官方页为准。

30 秒了解：Nano Banana 是什么

Nano Banana 是 Gemini 生态内一组图像生成 / 编辑能力的社区称呼，对应模型属于 Google Imagen 系列的演进版本。主要特征：

对话式画图：在 Gemini 对话框里说「画一张猫」就出图，像 GPT-4o 画图一样自然
人体 / 手指准确：相比早期 Imagen 和 SD，人体结构和手指准确率显著提升
图像编辑能力强：传一张图说「把背景换成海滩」、「把猫换成狗」能精准改图
多语言友好：英文最佳，但中文 prompt 出图也可用
与 Gemini 多模态串联：可以「先聊出想法 → 让 AI 自动写 prompt → 直接出图」一气呵成

适合谁

已经在用 Gemini 的人（生态内功能，无额外注册）
喜欢对话式画图胜于参数面板的人
需要精准图像编辑（换背景 / 换主体 / 局部重绘）的人
设计师 / 自媒体想用 Google 全家桶串联工作流的人

不适合谁

国内用户（Gemini 国内不直接可用，需要可用环境）
偏爱节点流深度可控的 SD / Flux 玩家
极致追求开源可定制的人

准备工作

需要什么

一个能用 Google 账号（个人 Google 账号即可）
一个可访问 Google 服务的网络环境（国内用户需自行解决可用性）
一个浏览器或 Gemini App

三种主要入口

入口	难度	适合
Gemini 网页版（gemini.google.com）	低	新手起步，对话出图
Gemini App（iOS / Android）	低	移动端用
Google AI Studio（aistudio.google.com）	中	开发者 / 试模型
Imagen API via Vertex AI	高	开发者集成自家产品

新手推荐从 Gemini 网页版开始。

详细操作步骤

第 1 步：登录 Gemini

打开 gemini.google.com，用 Google 账号登录。国内用户需自行确保可用性。

[此处放截图：Gemini 对话主界面]

没有 Google 账号的人需要先注册（手机号 + 邮箱），部分地区可能需要海外手机号验证。

第 2 步：在对话里直接说画图

进入对话界面后，在输入框直接写：

Draw a cute orange cat sitting by a window with soft morning light, photorealistic style

或中文：

画一张橘猫坐在窗边，温暖晨光，写实风格

Gemini 会自动识别这是画图请求，调用 Nano Banana / Imagen 出图，等 10-30 秒得到结果。

[此处放截图：Gemini 对话出图结果]

第 3 步：对话式改图

第一张不满意？直接在对话里说改：

「换成黑猫」
「加一杯咖啡在猫旁边」
「换成黄昏的光线」
「再画一张同款但视角换成俯视」

Gemini 会用对话上下文理解修改意图，比手动改 prompt 重跑直观。

第 4 步：图生图 / 编辑

上传一张图（点对话框旁边的「+」或「图片」按钮），然后说：

「把背景换成日落海滩」
「把这只猫换成柯基犬」
「让这张照片更明亮一些」
「按这张图的风格再画一张但主体换成兔子」

精细图像编辑是 Nano Banana 的强项之一——能精准识别和替换图中元素。

第 5 步：进阶——用 Google AI Studio

想要更精细控制 + 看 prompt 的代码版：

打开 aistudio.google.com
选 Gemini 模型 + 图像生成能力
在 Playground 调参数、贴 prompt
直接看 / 复制对应 API 调用代码

[此处放截图：AI Studio 出图面板]

第 6 步：开发者用 API

通过 Vertex AI 或 AI Studio API：

获取 Google Cloud / AI Studio API Key
用 Python / Node SDK 调用
计费按调用量 + 模型档位

简化 Python 示例（伪代码）：

import google.generativeai as genai

genai.configure(api_key="你的 Key")
model = genai.GenerativeModel("gemini-pro-vision-image-gen")  
# 注意：实际模型名以官方文档为准
result = model.generate_image(
    prompt="A cozy ramen shop in Tokyo, cinematic film photography",
    size="1024x1024",
)
result.save("output.png")

⚠️ 上面代码仅示意，实际 API 名、模型 ID、参数以 Google 官方文档为准。

5 个 Nano Banana 进阶技巧

技巧 1：用「自然语言描述」胜过堆词

Nano Banana 文本理解强，自然语言长 prompt 比关键词堆叠更有效。试试：

A young woman with curly red hair, wearing a navy blue knitted sweater, 
sits on a wooden bench in a snowy park. She's reading a hardcover book, 
holding a paper cup of coffee in her other hand. Soft winter sunlight 
filters through the bare tree branches above. The atmosphere is quiet 
and contemplative. Shot like a 35mm film photograph with subtle grain.

比 red hair, sweater, park, book, coffee, winter, 35mm film, photorealistic 这种关键词堆出图更稳。

技巧 2：先聊清楚再让 AI 出 prompt

Gemini 的多模态优势：先对话出想法，再让 Gemini 自己写 prompt。

我想做一张公众号封面，主题是「AI 改变设计师的工作方式」。
帮我先讨论一下视觉创意（构图、配色、风格选择），
确定后你直接帮我画出来。

Gemini 会先和你讨论几轮，最后直接画，比自己写 prompt 省力。

技巧 3：「局部重绘」式精修

上传初稿后说：

这张图基本满意，但右上角的天空有点死板。
保持其他部分不变，只把天空换成日落的橙紫色调。

Nano Banana 能做指定区域修改而保留其他部分，精度远超 SDXL 的 inpainting。

技巧 4：批量风格统一

需要一组同风格图（如一篇文章的 5 张配图）：

帮我画 5 张图，统一风格是「极简扁平插画 + 浅蓝主色 + 圆角图形」，
主题分别是：
1. 程序员在写代码
2. 设计师在画原型
3. PM 在开会
4. 数据分析师看图表
5. 团队远程协作

Gemini 会用相同风格描述生成 5 张图，风格一致性优于手动逐张写 prompt。

技巧 5：嵌英文字

Nano Banana 系列的图中文字能力强（英文）：

A vintage poster design with the text "PAGE ONE COFFEE" in bold retro font, 
1950s diner aesthetic, warm color palette, coffee cup illustration in the center.

出图通常能正确生成 “PAGE ONE COFFEE”。中文嵌字仍不稳，建议外部用 Photoshop / Figma 加。

常见坑 + 解决办法

现象	原因	解决
Gemini 不出图直接回文字	没识别为画图请求 / 区域限制	prompt 里明确说 “画一张” 或 “Draw”
国内访问被限制	Gemini 部分地区受限	切换可用网络环境
出图风格平庸	prompt 太通用	加细节 + 加风格参考词（「电影感」「胶片感」）
人脸出公众人物	模型安全策略	Gemini 通常会拒画特定人物
API 返回 401	Key 错或没启用模型	AI Studio / GCP 控制台确认权限
中文 prompt 出图歪	Imagen 训练主要英文	用 GPT 翻成英文 prompt
出图与 prompt 严重不符	内容触发安全策略	改用更中性的表述重写
编辑改图不精准	描述歧义	用「保留 X，只把 Y 改成 Z」结构清晰描述

实战案例：用 Gemini + Nano Banana 做一组系列插图

下面给一个完整的系列插图实战流程模板：

📋 Prompt 模板

Gemini + Nano Banana - 系列插图实战流程

场景：给一篇「2026 远程办公趋势」博文做 4 张配图

对话流程（直接在 Gemini 网页版操作）：

第 1 轮：我想给一篇关于「2026 远程办公趋势」的博文画 4 张配图。风格要统一：极简扁平插画、主色调浅蓝和米白、圆角几何元素、人物简笔画风格、画面留白多、配色高级。 4 张内容分别是：

一个人在家用笔记本电脑视频会议
一群人远程协作看共享文档
数字游民在咖啡馆带笔记本工作
团队在虚拟会议室开会有 AI 助手参与

请先把 4 张的 prompt 都写出来给我看，然后再画。

第 2 轮（看完 prompt 调整后）： prompt 看起来不错。第 4 张的「AI 助手」具象化一下，比如画成桌面上的一个发光的几何图形助手。然后帮我画出来。

第 3 轮（出图后）：第 2 张人物太多了，简化成 3 个人物的画面。其他 3 张保留，只重画第 2 张。

预期效果：

4 张风格统一的扁平插画
全程对话式调整，无需手写复杂 prompt
单张时间 30-60 秒
风格一致性远胜分别用 SD / MJ 出图
后续可在 Photoshop 加标题文字组成最终封面

进阶玩法：

让 Gemini 同时写博文的 4 个段落标题
让 Gemini 给每张配图建议配文
形成「文 + 图」一体化产出

这套流程跑下来 10-15 分钟出 4 张系列配图，风格统一性比传统工作流好得多。

Nano Banana vs 其他主流文生图

维度	Nano Banana / Imagen	GPT Image	Midjourney	Flux
入口	Gemini / AI Studio	ChatGPT / API	Discord / 网页	本地 / 在线服务
对话式	极强	极强	弱	弱
文本理解	强	强	中	强
画质天花板	高	高	极高	极高
图像编辑	极强	强	中	中
图中文字	强（英文）	强	中	强
开源 / 闭源	闭源	闭源	闭源	开源（dev/schnell）
国内可用	否	否	否	是
商用授权	看协议	Plus 含	Pro 起	schnell 可商用

整体格局：

想要对话式 + 强编辑：Nano Banana / GPT Image
想要极致画质 + 美学天花板：Midjourney
想要开源可定制：Flux / Stable Diffusion
想要国内无障碍：即梦 AI / 文心一格 / 通义万相

一个判断「我该用 Nano Banana 吗」的 prompt

把下面发给 Gemini / ChatGPT / Claude：

📋 Prompt 模板

我在考虑要不要把 Nano Banana / Gemini 画图作为我的主力 AI 画图工具，请帮我做一个具体判断。

我的情况：

我的所在地：「国内 / 海外 / 经常往返」
我的网络环境：「能稳定访问 Google / 不能 / 有时能」
我现在用的工具：「ChatGPT 画图 / Midjourney / 即梦 / SD / 没用过」
我的主要用途：「日常对话出图 / 自媒体配图 / 商业设计 / 开发集成」
我对画质要求：「能用就行 / 中等以上 / 必须顶级」
我对图像编辑（局部改图）需求：「无 / 偶尔 / 高频」

请帮我：

给一个明确判断：用 Nano Banana / 用其他工具 / 多个组合
推荐用法：Gemini 对话 / AI Studio / Vertex API
给一个新手起步 prompt 模板
提醒我有什么坑要注意

请直接给一个明确判断，不要让我自己选。

九成情况下得到的建议会落在：「能稳访问 Google + 已用 Gemini 生态 → Nano Banana 主力；国内主用 → 即梦 / 文心一格更顺手」。

进阶 / 下一步

Gemini 教程合集 - Gemini 系入门
GPT Image 教程 - ChatGPT 画图对照组
Flux 模型教程 - 开源天花板
Midjourney 教程 - 闭源美学之王
AI 画图选哪个 - 完整选型决策
AI 画图教程 - 回 ai-image 总览

最后一句忠告：Nano Banana 的最大卖点是「对话式 + 强编辑 + 多模态串联」，不是画质天花板。如果你已经稳定用 Gemini 做对话和开发，它是顺手延伸；如果你国内主用、不打算碰 Gemini 生态，即梦 AI 或 Midjourney 更实际。