Gemini Veo 生成视频教程:8 秒带声 AI 视频
Gemini Veo 生成视频教程:从入口到 prompt 写法、带声音的 AI 文生视频实操、5 个进阶玩法、和 Sora / 可灵的差异一文看完
30 秒了解:Gemini Veo 怎么用
Gemini Veo 是 Google 在 Gemini 里内置的文生视频模型,最新主打的是 Veo 3.1:一句中文或英文 prompt,就能生成一段 8 秒、1080p、带原生同步音效和对白的视频。 不像早期 Sora / 可灵只出无声画面,Veo 3 系列的关键升级是画面 + 声音 + 镜头运动同时生成——风吹叶子的沙沙声、人物说话的口型、镜头推拉的呼吸感都对得上。
适合场景:短视频开头、产品演示、社交媒体素材、广告 demo、教学示意、个人创作。不适合:超过 8 秒的连贯叙事、特定人物形象一致性要求高的剧情、需要精细对白时机控制的场面。
下面把入口、prompt 写法、5 个进阶玩法和与 Sora 的对比一次讲完。
准备工作
- 入口:Gemini 网页版
gemini.google.com主对话框、Gemini 手机 App、Google Vids 网页版都能调 - 账号要求:免费版每月有少量试用次数;AI Plus 每月约 50 个视频额度;AI Pro 200 个;Ultra 几乎无限 + 优先排队
- 耗时:单段 8 秒视频生成约 30 秒到 3 分钟,看当时排队情况
- 输出:mp4 文件,1080p / 24fps,带音轨
如果你还没用过 Gemini 视频功能,先看 Gemini 是什么 了解基础能力。
详细操作步骤
第 1 步:打开视频生成模式
进入 gemini.google.com,在主对话框下方工具区找到 Video(图标是一个三角形播放符号)。
[此处放截图:主对话框 Video 按钮位置]
或者你可以直接说「帮我生成一段视频:xxx」,Gemini 会自动切到 Veo。
第 2 步:写好你的视频 prompt
视频 prompt 不是写「一只猫在跑」就完事。结构化 prompt 出片质量差 10 倍,推荐这个模板:
[镜头类型] + [主体描述] + [动作] + [环境/背景] + [氛围/光线] + [声音元素] + [运镜方式]
举例:
中近景镜头,一只橙色短毛猫,慢镜头跳上深色木质书桌,背景是日落时分窗边洒进的橙黄色光,氛围温馨慵懒,可以听到猫爪轻触桌面的清脆声和远处微弱的雨声,镜头从左侧缓慢横移。
按发送,等 1-3 分钟。
第 3 步:审看初版
视频出来后默认在对话区直接播放。点 fullscreen 看细节,重点检查 4 件事:
- 主体特征对不对(颜色、品种、姿势)
- 动作是否自然(有没有手指多一根、肢体扭曲)
- 音画同步(说话口型对不对、环境声合理吗)
- 镜头运动是不是你要的
第 4 步:迭代或重生成
不满意有两种改法:
- 小调整:直接对 Gemini 说「再生成一版,背景换成清晨蓝色光」「猫换成黑色,其他保持」,它会基于原 prompt 改动指定部分
- 大方向不对:重写 prompt,注意从结构化 6 要素里找哪个要素没写清楚
💡 实战经验:Veo 同一个 prompt 生成 3 版后挑最好的一版作为 base,再做局部微调,比 10 次完全重生成省时。
第 5 步:下载或导出
视频右下角有按钮:
- Download:直接下载 mp4
- Share:生成 Google 临时分享链接
- Send to Vids:一键导入 Google Vids 做剪辑拼接
- Send to YouTube Shorts:直接发到你的 YouTube 频道(要先绑定)
5 个 Veo 进阶玩法
玩法 1:电影感开场画面
做视频博主、Vlog 都用得到的「钩子画面」:
4K 电影级画面,超广角航拍镜头,俯视角度。一片金黄色秋季森林,画面正中一条蜿蜒的石板小路通向远方。路上一个穿深红色斗篷的小人物(背影),缓慢向前走。
光线:清晨柔和金光从树冠间斜射而下,丁达尔效应明显。
声音:风穿过树叶的沙沙声、远处零星的鸟鸣、踩在石板上的脚步声。
运镜:镜头从高空缓慢俯冲下降同时向前推进,最后停在距人物背影 5 米处。
调色:暖色调,对比度略高,仿王家卫摄影风格。
这种 prompt Veo 3.1 的输出基本能直接当电影预告片开头用。
玩法 2:产品 hero 视频
电商详情页头图、官网 banner:
产品广告级画面,黑色镜面桌面上摆放一个全新的纯白色无线耳机充电盒。
特写镜头:耳机盒缓慢自动打开,两只耳机从盒中升起。
光线:摄影棚双向柔光,背景渐变深灰到纯黑,耳机盒边缘有一圈微弱蓝色 LED 光。
声音:盒子打开的精密机械感咔嗒声、轻微的电子充电”叮”声、低频环境氛围音。
运镜:镜头从盒子正前方 15 度俯视角度,缓慢拉近到耳机正面。
风格:苹果广告片质感,极简、高级、未来感。
5 分钟搞定的产品视频比传统拍摄省一万块预算。
玩法 3:教学示意动画
讲一个抽象概念给学生 / 客户看:
信息图风格动画,2D 简约线条画面。背景纯白。
中间有 3 个圆圈:左边写「输入」(蓝色),中间写「处理」(橙色),右边写「输出」(绿色)。
动画过程:
- 一个小数据包从左侧滑入「输入」圆圈
- 数据包变成多个小颗粒进入「处理」圆圈
- 圆圈里出现旋转齿轮特效
- 整理后的数据包从「输出」滑出,飞向右侧屏幕外
声音:轻快的电子提示音、齿轮转动声、数据传输 whoosh 声。
运镜:固定机位,画面平稳。
风格:扁平化、教学风、节奏明快。
老师讲课、技术 sharing 时秒做演示动画。
玩法 4:氛围短片 / 社交媒体素材
小红书 / Instagram / TikTok 的氛围帖:
ASMR 氛围画面,超特写镜头。
主体:一杯刚冲好的拿铁咖啡,奶泡上手工拉花的天鹅图案。
动作:一根金属勺子缓慢划过奶泡,留下一道细线。蒸汽从杯口袅袅升起。
光线:暖色窗光从右上 45 度打入,杯子边缘有金色高光。
声音:勺子刮过陶瓷的细微摩擦声、咖啡液面轻微涌动声、远处隐约的 Lo-Fi 钢琴。
运镜:极慢镜头,缓慢围绕杯子顺时针旋转 30 度。
调色:奶油色调,柔和饱和度。
这种「看着就治愈」的内容 Veo 强项。
玩法 5:旧照变视频
把一张静态老照片复活:
基于这张照片(上传一张老照片),帮我生成一段 8 秒视频:
要求:
- 保留照片里所有人物的面部特征和服装,做到高度相似
- 让画面里的人物有自然的微动作:眨眼、微笑、轻微转头
- 加上当时环境合理的氛围声(如果是户外加风声鸟鸣、室内加家居环境声)
- 镜头从静止缓慢推近主角的脸,最后给一个温柔表情特写
- 调色保持原照片的怀旧感(如果是黑白就保持黑白,加轻微胶片颗粒)
家庭老照片做成视频做生日礼物或纪念册,情感冲击力极强。
5 个 Veo 常见坑
坑 1:人物面部细节崩坏
近景看人脸时眼睛、嘴角细节经常出问题。
解法:
- prompt 里避免要求过近的脸部特写,远景或中景出错率低很多
- 加一句「focus on full body, not facial close-up」可降低正脸概率
- 真要拍人脸,多生成几次挑最好的;或者拍背影 / 侧脸 / 半遮挡构图
坑 2:手指数量出错
人物拿东西、做手势时手指经常多一根少一根。
解法:
- prompt 里写「hands not visible」或让人物双手插口袋 / 背在身后
- 实在要露手,写明「holding [具体物品],hand naturally relaxed」减少错误
- 拍特写时避开手部入镜
坑 3:8 秒太短讲不完故事
完整叙事至少要 30 秒,Veo 单次只给 8 秒。
解法:
- 分段生成:用同一个角色描述生成 3-4 段,每段对应一个动作
- 用 Google Vids 拼接,加转场和配乐
- 拍法借鉴 TikTok:开场 0.5 秒钩子 + 中间 5 秒主体 + 结尾 2.5 秒收尾,刚好 8 秒讲一个点
坑 4:中文 prompt 效果不如英文
中文描述 Veo 也能懂,但精细控制(光线、运镜)英文表达更准。
解法:
- 简单画面用中文 prompt 没问题
- 要电影感、广告级精细控制时用英文写
- 实在不会英文,让 Gemini 帮你把中文 prompt 翻成英文电影术语再用
坑 5:生成时间太久或失败
排队 5 分钟还在转圈、有时候直接报错。
解法:
- 错峰跑:避开太平洋时间晚上(中国清晨)和欧洲下班时段
- 单次任务别堆太多复杂要求,复杂度高任务排队更慢
- 失败后等 30 秒再重试,不要疯狂点
- 实在卡死刷新页面,之前的 prompt 保留在对话历史里可以复用
Gemini Veo vs Sora 2 vs 可灵 / 即梦
| 维度 | Gemini Veo 3.1 | OpenAI Sora 2 | 可灵 2.0 / 即梦 |
|---|---|---|---|
| 单段时长 | 8 秒 | 5-20 秒 | 5-10 秒 |
| 分辨率 | 1080p / 4K (Ultra) | 1080p | 1080p |
| 原生音频 | 是(口型同步) | 是 | 无(要后期配) |
| 中文 prompt 效果 | 中等 | 中等 | 强(国产优势) |
| 一致性(多镜头) | 中 | 强 | 中 |
| 套餐起步价 | 19.99 美元 / 月 | 20 美元 / 月 | 免费有限次 / 60 元 |
| 中国可用 | 需海外网络 | 需海外网络 | 直接可用 |
| 商用授权 | 含 | 含 | 含 |
| API 接入 | Vertex AI | 暂未开放 | 开放 |
结论:拍带声音的短视频选 Veo(带口型同步是最大优势);拍超长连贯故事选 Sora;中国境内做内容直接用可灵 / 即梦。三家可以交叉用。
更多视频工具对比看 AI 视频教程。
在中国能用吗
Gemini Veo 跟主 Gemini 一样有地区限制。中国大陆需要合规网络环境 + 海外 Google 账号。具体见 Gemini 国内可以用吗。
国产替代非常成熟:
- 可灵 2.0:快手出品,中文 prompt 最自然
- 即梦:字节出品,国内访问最快
- Vidu 2:清华团队,多镜头一致性强
- 混元视频:腾讯,免费额度大
下一步
体验完 Veo 后建议看:
- Gemini 生成音乐教程 — Lyria 配乐工具
- Gemini Audio Overview — 把对话变播客
- Gemini Canvas 怎么用 — 视觉创作搭子
- Gemini Ultra 怎么样 — Veo 4K 模式评估
- Gemini 完整使用指南 — cluster 入口总览
常见问题
Q:Veo 生成的视频商用要不要授权费? A:付费套餐(AI Plus 及以上)生成的视频默认带商用授权,可以用在广告 / 电商 / 自媒体。免费版生成的有限制,主要给个人非商业使用。
Q:能上传一张图作为视频起始帧吗? A:可以。点 prompt 输入框旁的「+」上传图片,写「用这张图作为视频第一帧,然后画面里的人开始走动」类似指令。
Q:能控制视频里说什么话吗? A:能。prompt 里明确写「The character says: ‘[具体台词]’」,Veo 3 系列会同步生成对应口型的对白音轨。中英文都支持,中文效果略弱于英文。
Q:Veo 一次能生成多个版本吗? A:单次 prompt 默认生成 1 个版本。要 3-4 个变体就连续点重生成,或者改一个细节再发。
Q:Veo 输出能改长宽比吗? A:支持 16:9(横屏)、9:16(竖屏,发小红书 / TikTok)、1:1(正方形)。在 prompt 末尾加「aspect ratio: 9:16」即可。
Q:生成失败但额度被扣了怎么办? A:明显失败的(系统错误、非内容违规)联系 Google 支持会退还额度。内容触发安全过滤的不退,下次 prompt 注意避开敏感元素。
Q:和 Google Vids 是一回事吗? A:不是。Veo 是「生成单段视频」的模型;Google Vids 是「视频剪辑工具」。Veo 出片可以一键导入 Vids 做拼接 / 配字幕 / 加转场,两者配合用最爽。