🤖 AI 跟我学 新手入门

Gemini Veo 生成视频教程:8 秒带声 AI 视频

Gemini Veo 生成视频教程:从入口到 prompt 写法、带声音的 AI 文生视频实操、5 个进阶玩法、和 Sora / 可灵的差异一文看完

发布 2026/05/19 📎 参考官方文档

30 秒了解:Gemini Veo 怎么用

Gemini Veo 是 Google 在 Gemini 里内置的文生视频模型,最新主打的是 Veo 3.1:一句中文或英文 prompt,就能生成一段 8 秒、1080p、带原生同步音效和对白的视频。 不像早期 Sora / 可灵只出无声画面,Veo 3 系列的关键升级是画面 + 声音 + 镜头运动同时生成——风吹叶子的沙沙声、人物说话的口型、镜头推拉的呼吸感都对得上。

适合场景:短视频开头、产品演示、社交媒体素材、广告 demo、教学示意、个人创作。不适合:超过 8 秒的连贯叙事、特定人物形象一致性要求高的剧情、需要精细对白时机控制的场面。

下面把入口、prompt 写法、5 个进阶玩法和与 Sora 的对比一次讲完。

准备工作

  • 入口:Gemini 网页版 gemini.google.com 主对话框、Gemini 手机 App、Google Vids 网页版都能调
  • 账号要求:免费版每月有少量试用次数;AI Plus 每月约 50 个视频额度;AI Pro 200 个;Ultra 几乎无限 + 优先排队
  • 耗时:单段 8 秒视频生成约 30 秒到 3 分钟,看当时排队情况
  • 输出:mp4 文件,1080p / 24fps,带音轨

如果你还没用过 Gemini 视频功能,先看 Gemini 是什么 了解基础能力。

详细操作步骤

第 1 步:打开视频生成模式

进入 gemini.google.com,在主对话框下方工具区找到 Video(图标是一个三角形播放符号)。

[此处放截图:主对话框 Video 按钮位置]

或者你可以直接说「帮我生成一段视频:xxx」,Gemini 会自动切到 Veo。

第 2 步:写好你的视频 prompt

视频 prompt 不是写「一只猫在跑」就完事。结构化 prompt 出片质量差 10 倍,推荐这个模板:

[镜头类型] + [主体描述] + [动作] + [环境/背景] + [氛围/光线] + [声音元素] + [运镜方式]

举例:

中近景镜头,一只橙色短毛猫,慢镜头跳上深色木质书桌,背景是日落时分窗边洒进的橙黄色光,氛围温馨慵懒,可以听到猫爪轻触桌面的清脆声和远处微弱的雨声,镜头从左侧缓慢横移。

按发送,等 1-3 分钟。

第 3 步:审看初版

视频出来后默认在对话区直接播放。点 fullscreen 看细节,重点检查 4 件事

  1. 主体特征对不对(颜色、品种、姿势)
  2. 动作是否自然(有没有手指多一根、肢体扭曲)
  3. 音画同步(说话口型对不对、环境声合理吗)
  4. 镜头运动是不是你要的

第 4 步:迭代或重生成

不满意有两种改法:

  • 小调整:直接对 Gemini 说「再生成一版,背景换成清晨蓝色光」「猫换成黑色,其他保持」,它会基于原 prompt 改动指定部分
  • 大方向不对:重写 prompt,注意从结构化 6 要素里找哪个要素没写清楚

💡 实战经验:Veo 同一个 prompt 生成 3 版后挑最好的一版作为 base,再做局部微调,比 10 次完全重生成省时。

第 5 步:下载或导出

视频右下角有按钮:

  • Download:直接下载 mp4
  • Share:生成 Google 临时分享链接
  • Send to Vids:一键导入 Google Vids 做剪辑拼接
  • Send to YouTube Shorts:直接发到你的 YouTube 频道(要先绑定)

5 个 Veo 进阶玩法

玩法 1:电影感开场画面

做视频博主、Vlog 都用得到的「钩子画面」:

📋 Prompt 模板

4K 电影级画面,超广角航拍镜头,俯视角度。一片金黄色秋季森林,画面正中一条蜿蜒的石板小路通向远方。路上一个穿深红色斗篷的小人物(背影),缓慢向前走。

光线:清晨柔和金光从树冠间斜射而下,丁达尔效应明显。

声音:风穿过树叶的沙沙声、远处零星的鸟鸣、踩在石板上的脚步声。

运镜:镜头从高空缓慢俯冲下降同时向前推进,最后停在距人物背影 5 米处。

调色:暖色调,对比度略高,仿王家卫摄影风格。

这种 prompt Veo 3.1 的输出基本能直接当电影预告片开头用。

玩法 2:产品 hero 视频

电商详情页头图、官网 banner:

📋 Prompt 模板

产品广告级画面,黑色镜面桌面上摆放一个全新的纯白色无线耳机充电盒。

特写镜头:耳机盒缓慢自动打开,两只耳机从盒中升起。

光线:摄影棚双向柔光,背景渐变深灰到纯黑,耳机盒边缘有一圈微弱蓝色 LED 光。

声音:盒子打开的精密机械感咔嗒声、轻微的电子充电”叮”声、低频环境氛围音。

运镜:镜头从盒子正前方 15 度俯视角度,缓慢拉近到耳机正面。

风格:苹果广告片质感,极简、高级、未来感。

5 分钟搞定的产品视频比传统拍摄省一万块预算。

玩法 3:教学示意动画

讲一个抽象概念给学生 / 客户看:

📋 Prompt 模板

信息图风格动画,2D 简约线条画面。背景纯白。

中间有 3 个圆圈:左边写「输入」(蓝色),中间写「处理」(橙色),右边写「输出」(绿色)。

动画过程:

  1. 一个小数据包从左侧滑入「输入」圆圈
  2. 数据包变成多个小颗粒进入「处理」圆圈
  3. 圆圈里出现旋转齿轮特效
  4. 整理后的数据包从「输出」滑出,飞向右侧屏幕外

声音:轻快的电子提示音、齿轮转动声、数据传输 whoosh 声。

运镜:固定机位,画面平稳。

风格:扁平化、教学风、节奏明快。

老师讲课、技术 sharing 时秒做演示动画。

玩法 4:氛围短片 / 社交媒体素材

小红书 / Instagram / TikTok 的氛围帖:

📋 Prompt 模板

ASMR 氛围画面,超特写镜头。

主体:一杯刚冲好的拿铁咖啡,奶泡上手工拉花的天鹅图案。

动作:一根金属勺子缓慢划过奶泡,留下一道细线。蒸汽从杯口袅袅升起。

光线:暖色窗光从右上 45 度打入,杯子边缘有金色高光。

声音:勺子刮过陶瓷的细微摩擦声、咖啡液面轻微涌动声、远处隐约的 Lo-Fi 钢琴。

运镜:极慢镜头,缓慢围绕杯子顺时针旋转 30 度。

调色:奶油色调,柔和饱和度。

这种「看着就治愈」的内容 Veo 强项。

玩法 5:旧照变视频

把一张静态老照片复活:

📋 Prompt 模板

基于这张照片(上传一张老照片),帮我生成一段 8 秒视频:

要求:

  1. 保留照片里所有人物的面部特征和服装,做到高度相似
  2. 让画面里的人物有自然的微动作:眨眼、微笑、轻微转头
  3. 加上当时环境合理的氛围声(如果是户外加风声鸟鸣、室内加家居环境声)
  4. 镜头从静止缓慢推近主角的脸,最后给一个温柔表情特写
  5. 调色保持原照片的怀旧感(如果是黑白就保持黑白,加轻微胶片颗粒)

家庭老照片做成视频做生日礼物或纪念册,情感冲击力极强。

5 个 Veo 常见坑

坑 1:人物面部细节崩坏

近景看人脸时眼睛、嘴角细节经常出问题。

解法

  • prompt 里避免要求过近的脸部特写,远景或中景出错率低很多
  • 加一句「focus on full body, not facial close-up」可降低正脸概率
  • 真要拍人脸,多生成几次挑最好的;或者拍背影 / 侧脸 / 半遮挡构图

坑 2:手指数量出错

人物拿东西、做手势时手指经常多一根少一根。

解法

  • prompt 里写「hands not visible」或让人物双手插口袋 / 背在身后
  • 实在要露手,写明「holding [具体物品],hand naturally relaxed」减少错误
  • 拍特写时避开手部入镜

坑 3:8 秒太短讲不完故事

完整叙事至少要 30 秒,Veo 单次只给 8 秒。

解法

  • 分段生成:用同一个角色描述生成 3-4 段,每段对应一个动作
  • Google Vids 拼接,加转场和配乐
  • 拍法借鉴 TikTok:开场 0.5 秒钩子 + 中间 5 秒主体 + 结尾 2.5 秒收尾,刚好 8 秒讲一个点

坑 4:中文 prompt 效果不如英文

中文描述 Veo 也能懂,但精细控制(光线、运镜)英文表达更准。

解法

  • 简单画面用中文 prompt 没问题
  • 要电影感、广告级精细控制时用英文写
  • 实在不会英文,让 Gemini 帮你把中文 prompt 翻成英文电影术语再用

坑 5:生成时间太久或失败

排队 5 分钟还在转圈、有时候直接报错。

解法

  • 错峰跑:避开太平洋时间晚上(中国清晨)和欧洲下班时段
  • 单次任务别堆太多复杂要求,复杂度高任务排队更慢
  • 失败后等 30 秒再重试,不要疯狂点
  • 实在卡死刷新页面,之前的 prompt 保留在对话历史里可以复用

Gemini Veo vs Sora 2 vs 可灵 / 即梦

维度Gemini Veo 3.1OpenAI Sora 2可灵 2.0 / 即梦
单段时长8 秒5-20 秒5-10 秒
分辨率1080p / 4K (Ultra)1080p1080p
原生音频是(口型同步)无(要后期配)
中文 prompt 效果中等中等强(国产优势)
一致性(多镜头)
套餐起步价19.99 美元 / 月20 美元 / 月免费有限次 / 60 元
中国可用需海外网络需海外网络直接可用
商用授权
API 接入Vertex AI暂未开放开放

结论:拍带声音的短视频选 Veo(带口型同步是最大优势);拍超长连贯故事选 Sora;中国境内做内容直接用可灵 / 即梦。三家可以交叉用。

更多视频工具对比看 AI 视频教程

在中国能用吗

Gemini Veo 跟主 Gemini 一样有地区限制。中国大陆需要合规网络环境 + 海外 Google 账号。具体见 Gemini 国内可以用吗

国产替代非常成熟:

  • 可灵 2.0:快手出品,中文 prompt 最自然
  • 即梦:字节出品,国内访问最快
  • Vidu 2:清华团队,多镜头一致性强
  • 混元视频:腾讯,免费额度大

下一步

体验完 Veo 后建议看:

常见问题

Q:Veo 生成的视频商用要不要授权费? A:付费套餐(AI Plus 及以上)生成的视频默认带商用授权,可以用在广告 / 电商 / 自媒体。免费版生成的有限制,主要给个人非商业使用。

Q:能上传一张图作为视频起始帧吗? A:可以。点 prompt 输入框旁的「+」上传图片,写「用这张图作为视频第一帧,然后画面里的人开始走动」类似指令。

Q:能控制视频里说什么话吗? A:能。prompt 里明确写「The character says: ‘[具体台词]’」,Veo 3 系列会同步生成对应口型的对白音轨。中英文都支持,中文效果略弱于英文。

Q:Veo 一次能生成多个版本吗? A:单次 prompt 默认生成 1 个版本。要 3-4 个变体就连续点重生成,或者改一个细节再发。

Q:Veo 输出能改长宽比吗? A:支持 16:9(横屏)、9:16(竖屏,发小红书 / TikTok)、1:1(正方形)。在 prompt 末尾加「aspect ratio: 9:16」即可。

Q:生成失败但额度被扣了怎么办? A:明显失败的(系统错误、非内容违规)联系 Google 支持会退还额度。内容触发安全过滤的不退,下次 prompt 注意避开敏感元素。

Q:和 Google Vids 是一回事吗? A:不是。Veo 是「生成单段视频」的模型;Google Vids 是「视频剪辑工具」。Veo 出片可以一键导入 Vids 做拼接 / 配字幕 / 加转场,两者配合用最爽。