Gemini Veo 生成视频教程：8 秒带声 AI 视频

30 秒了解：Gemini Veo 怎么用

Gemini Veo 是 Google 在 Gemini 里内置的文生视频模型，最新主打的是 Veo 3.1：一句中文或英文 prompt，就能生成一段 8 秒、1080p、带原生同步音效和对白的视频。不像早期 Sora / 可灵只出无声画面，Veo 3 系列的关键升级是画面 + 声音 + 镜头运动同时生成——风吹叶子的沙沙声、人物说话的口型、镜头推拉的呼吸感都对得上。

适合场景：短视频开头、产品演示、社交媒体素材、广告 demo、教学示意、个人创作。不适合：超过 8 秒的连贯叙事、特定人物形象一致性要求高的剧情、需要精细对白时机控制的场面。

下面把入口、prompt 写法、5 个进阶玩法和与 Sora 的对比一次讲完。

准备工作

入口：Gemini 网页版 gemini.google.com 主对话框、Gemini 手机 App、Google Vids 网页版都能调
账号要求：免费版每月有少量试用次数；AI Plus 每月约 50 个视频额度；AI Pro 200 个；Ultra 几乎无限 + 优先排队
耗时：单段 8 秒视频生成约 30 秒到 3 分钟，看当时排队情况
输出：mp4 文件，1080p / 24fps，带音轨

如果你还没用过 Gemini 视频功能，先看 Gemini 是什么了解基础能力。

详细操作步骤

第 1 步：打开视频生成模式

进入 gemini.google.com，在主对话框下方工具区找到 Video（图标是一个三角形播放符号）。

[此处放截图：主对话框 Video 按钮位置]

或者你可以直接说「帮我生成一段视频：xxx」，Gemini 会自动切到 Veo。

第 2 步：写好你的视频 prompt

视频 prompt 不是写「一只猫在跑」就完事。结构化 prompt 出片质量差 10 倍，推荐这个模板：

[镜头类型] + [主体描述] + [动作] + [环境/背景] + [氛围/光线] + [声音元素] + [运镜方式]

举例：

中近景镜头，一只橙色短毛猫，慢镜头跳上深色木质书桌，背景是日落时分窗边洒进的橙黄色光，氛围温馨慵懒，可以听到猫爪轻触桌面的清脆声和远处微弱的雨声，镜头从左侧缓慢横移。

按发送，等 1-3 分钟。

第 3 步：审看初版

视频出来后默认在对话区直接播放。点 fullscreen 看细节，重点检查 4 件事：

主体特征对不对（颜色、品种、姿势）
动作是否自然（有没有手指多一根、肢体扭曲）
音画同步（说话口型对不对、环境声合理吗）
镜头运动是不是你要的

第 4 步：迭代或重生成

不满意有两种改法：

小调整：直接对 Gemini 说「再生成一版，背景换成清晨蓝色光」「猫换成黑色，其他保持」，它会基于原 prompt 改动指定部分
大方向不对：重写 prompt，注意从结构化 6 要素里找哪个要素没写清楚

💡 实战经验：Veo 同一个 prompt 生成 3 版后挑最好的一版作为 base，再做局部微调，比 10 次完全重生成省时。

第 5 步：下载或导出

视频右下角有按钮：

Download：直接下载 mp4
Share：生成 Google 临时分享链接
Send to Vids：一键导入 Google Vids 做剪辑拼接
Send to YouTube Shorts：直接发到你的 YouTube 频道（要先绑定）

5 个 Veo 进阶玩法

玩法 1：电影感开场画面

做视频博主、Vlog 都用得到的「钩子画面」：

📋 Prompt 模板

4K 电影级画面，超广角航拍镜头，俯视角度。一片金黄色秋季森林，画面正中一条蜿蜒的石板小路通向远方。路上一个穿深红色斗篷的小人物（背影），缓慢向前走。

光线：清晨柔和金光从树冠间斜射而下，丁达尔效应明显。

声音：风穿过树叶的沙沙声、远处零星的鸟鸣、踩在石板上的脚步声。

运镜：镜头从高空缓慢俯冲下降同时向前推进，最后停在距人物背影 5 米处。

调色：暖色调，对比度略高，仿王家卫摄影风格。

这种 prompt Veo 3.1 的输出基本能直接当电影预告片开头用。

玩法 2：产品 hero 视频

电商详情页头图、官网 banner：

📋 Prompt 模板

产品广告级画面，黑色镜面桌面上摆放一个全新的纯白色无线耳机充电盒。

特写镜头：耳机盒缓慢自动打开，两只耳机从盒中升起。

光线：摄影棚双向柔光，背景渐变深灰到纯黑，耳机盒边缘有一圈微弱蓝色 LED 光。

声音：盒子打开的精密机械感咔嗒声、轻微的电子充电”叮”声、低频环境氛围音。

运镜：镜头从盒子正前方 15 度俯视角度，缓慢拉近到耳机正面。

风格：苹果广告片质感，极简、高级、未来感。

5 分钟搞定的产品视频比传统拍摄省一万块预算。

玩法 3：教学示意动画

讲一个抽象概念给学生 / 客户看：

📋 Prompt 模板

信息图风格动画，2D 简约线条画面。背景纯白。

中间有 3 个圆圈：左边写「输入」（蓝色），中间写「处理」（橙色），右边写「输出」（绿色）。

动画过程：

一个小数据包从左侧滑入「输入」圆圈
数据包变成多个小颗粒进入「处理」圆圈
圆圈里出现旋转齿轮特效
整理后的数据包从「输出」滑出，飞向右侧屏幕外

声音：轻快的电子提示音、齿轮转动声、数据传输 whoosh 声。

运镜：固定机位，画面平稳。

风格：扁平化、教学风、节奏明快。

老师讲课、技术 sharing 时秒做演示动画。

玩法 4：氛围短片 / 社交媒体素材

小红书 / Instagram / TikTok 的氛围帖：

📋 Prompt 模板

ASMR 氛围画面，超特写镜头。

主体：一杯刚冲好的拿铁咖啡，奶泡上手工拉花的天鹅图案。

动作：一根金属勺子缓慢划过奶泡，留下一道细线。蒸汽从杯口袅袅升起。

光线：暖色窗光从右上 45 度打入，杯子边缘有金色高光。

声音：勺子刮过陶瓷的细微摩擦声、咖啡液面轻微涌动声、远处隐约的 Lo-Fi 钢琴。

运镜：极慢镜头，缓慢围绕杯子顺时针旋转 30 度。

调色：奶油色调，柔和饱和度。

这种「看着就治愈」的内容 Veo 强项。

玩法 5：旧照变视频

把一张静态老照片复活：

📋 Prompt 模板

基于这张照片（上传一张老照片），帮我生成一段 8 秒视频：

要求：

保留照片里所有人物的面部特征和服装，做到高度相似
让画面里的人物有自然的微动作：眨眼、微笑、轻微转头
加上当时环境合理的氛围声（如果是户外加风声鸟鸣、室内加家居环境声）
镜头从静止缓慢推近主角的脸，最后给一个温柔表情特写
调色保持原照片的怀旧感（如果是黑白就保持黑白，加轻微胶片颗粒）

家庭老照片做成视频做生日礼物或纪念册，情感冲击力极强。

5 个 Veo 常见坑

坑 1：人物面部细节崩坏

近景看人脸时眼睛、嘴角细节经常出问题。

解法：

prompt 里避免要求过近的脸部特写，远景或中景出错率低很多
加一句「focus on full body, not facial close-up」可降低正脸概率
真要拍人脸，多生成几次挑最好的；或者拍背影 / 侧脸 / 半遮挡构图

坑 2：手指数量出错

人物拿东西、做手势时手指经常多一根少一根。

解法：

prompt 里写「hands not visible」或让人物双手插口袋 / 背在身后
实在要露手，写明「holding [具体物品]，hand naturally relaxed」减少错误
拍特写时避开手部入镜

坑 3：8 秒太短讲不完故事

完整叙事至少要 30 秒，Veo 单次只给 8 秒。

解法：

分段生成：用同一个角色描述生成 3-4 段，每段对应一个动作
用 Google Vids 拼接，加转场和配乐
拍法借鉴 TikTok：开场 0.5 秒钩子 + 中间 5 秒主体 + 结尾 2.5 秒收尾，刚好 8 秒讲一个点

坑 4：中文 prompt 效果不如英文

中文描述 Veo 也能懂，但精细控制（光线、运镜）英文表达更准。

解法：

简单画面用中文 prompt 没问题
要电影感、广告级精细控制时用英文写
实在不会英文，让 Gemini 帮你把中文 prompt 翻成英文电影术语再用

坑 5：生成时间太久或失败

排队 5 分钟还在转圈、有时候直接报错。

解法：

错峰跑：避开太平洋时间晚上（中国清晨）和欧洲下班时段
单次任务别堆太多复杂要求，复杂度高任务排队更慢
失败后等 30 秒再重试，不要疯狂点
实在卡死刷新页面，之前的 prompt 保留在对话历史里可以复用

Gemini Veo vs Sora 2 vs 可灵 / 即梦

维度	Gemini Veo 3.1	OpenAI Sora 2	可灵 2.0 / 即梦
单段时长	8 秒	5-20 秒	5-10 秒
分辨率	1080p / 4K (Ultra)	1080p	1080p
原生音频	是（口型同步）	是	无（要后期配）
中文 prompt 效果	中等	中等	强（国产优势）
一致性（多镜头）	中	强	中
套餐起步价	19.99 美元 / 月	20 美元 / 月	免费有限次 / 60 元
中国可用	需海外网络	需海外网络	直接可用
商用授权	含	含	含
API 接入	Vertex AI	暂未开放	开放

结论：拍带声音的短视频选 Veo（带口型同步是最大优势）；拍超长连贯故事选 Sora；中国境内做内容直接用可灵 / 即梦。三家可以交叉用。

更多视频工具对比看 AI 视频教程。

在中国能用吗

Gemini Veo 跟主 Gemini 一样有地区限制。中国大陆需要合规网络环境 + 海外 Google 账号。具体见 Gemini 国内可以用吗。

国产替代非常成熟：

可灵 2.0：快手出品，中文 prompt 最自然
即梦：字节出品，国内访问最快
Vidu 2：清华团队，多镜头一致性强
混元视频：腾讯，免费额度大

下一步

体验完 Veo 后建议看：

Gemini 生成音乐教程 — Lyria 配乐工具
Gemini Audio Overview — 把对话变播客
Gemini Canvas 怎么用 — 视觉创作搭子
Gemini Ultra 怎么样 — Veo 4K 模式评估
Gemini 完整使用指南 — cluster 入口总览

常见问题

Q：Veo 生成的视频商用要不要授权费？ A：付费套餐（AI Plus 及以上）生成的视频默认带商用授权，可以用在广告 / 电商 / 自媒体。免费版生成的有限制，主要给个人非商业使用。

Q：能上传一张图作为视频起始帧吗？ A：可以。点 prompt 输入框旁的「+」上传图片，写「用这张图作为视频第一帧，然后画面里的人开始走动」类似指令。

Q：能控制视频里说什么话吗？ A：能。prompt 里明确写「The character says: ‘[具体台词]’」，Veo 3 系列会同步生成对应口型的对白音轨。中英文都支持，中文效果略弱于英文。

Q：Veo 一次能生成多个版本吗？ A：单次 prompt 默认生成 1 个版本。要 3-4 个变体就连续点重生成，或者改一个细节再发。

Q：Veo 输出能改长宽比吗？ A：支持 16:9（横屏）、9:16（竖屏，发小红书 / TikTok）、1:1（正方形）。在 prompt 末尾加「aspect ratio: 9:16」即可。

Q：生成失败但额度被扣了怎么办？ A：明显失败的（系统错误、非内容违规）联系 Google 支持会退还额度。内容触发安全过滤的不退，下次 prompt 注意避开敏感元素。

Q：和 Google Vids 是一回事吗？ A：不是。Veo 是「生成单段视频」的模型；Google Vids 是「视频剪辑工具」。Veo 出片可以一键导入 Vids 做拼接 / 配字幕 / 加转场，两者配合用最爽。