🤖 AI 跟我学 新手入门

AI 数字人怎么做?口播视频保姆教程

AI 数字人怎么做?这篇手把手讲从选工具、克隆形象、写口播稿到生成视频发布的完整流程,附 prompt 模板、国产 vs 海外工具对比与商用避坑指南,新手 1 小时出第一条

发布 2026/05/20

你是不是也羡慕过那种账号:每天稳定更新口播视频,主播形象固定、声音熟悉,但你从来没见过本人?很多时候那不是真人在拍,而是 AI 数字人——把一段文字稿交给工具,5 分钟后就出来一段”主播在说话”的视频,不用打灯、不用化妆、不用 NG 重录。

这篇手把手讲 AI 数字人怎么做:从选工具、克隆自己形象、写口播稿、合成视频到导出发布的完整流程。无论你是想做知识科普、企业培训、电商带货还是个人 IP,看完都能在 1 小时内出第一条数字人视频。

30 秒了解 AI 数字人能做什么

AI 数字人是指用 AI 合成的虚拟主播形象,给它一段文字稿,它能用接近真人的口型、表情、声音念出来,做成视频。常见三类:

  • 2D 数字人:基于真人照片或视频克隆,正面半身像最常见,适合口播
  • 3D 数字人:建模驱动,能多角度多动作,制作门槛高
  • 写实虚拟人:完全 AI 生成的虚构形象,介于 2D 和 3D 之间

新人入门 95% 选 2D,性价比最高、出片最稳。这篇全部讲 2D 路线。

适合谁用:

  • 自媒体博主,想日更口播但不愿出镜
  • 企业内训 / 课程录制,要批量产标准化口播课
  • 跨境电商,要多语言出海做产品介绍
  • 政务 / 新闻播报,要稳定形象播报内容
  • 24 小时直播间,做无人值守带货

不适合谁:

  • 拍剧情、Vlog、综艺这种强表演感场景
  • 用户已经习惯你真人形象的成熟账号(换数字人掉粉风险)
  • 一次性视频项目(数字人优势在批量复用)

怎么选工具:国产 vs 海外四象限

国产数字人这两年发展极快,价格和易用度对国内用户更友好。海外工具优势在多语言和欧美口型质量

工具国别免费档克隆门槛适合谁
HeyGen美国1 分钟/月中(要付费档)出海、多语言
D-ID以色列14 天试用照片快速出片
Synthesia英国36 秒/月高(要审核)企业培训
闪剪字节部分免费抖音、视频号
腾讯智影腾讯有免费额度视频号、企业
来画国内试用版动画 + 数字人
万兴播爆万兴试用跨境带货

新人推荐路径:

  • 国内日更口播:先试 闪剪 或腾讯智影,免费档够练手
  • 专业克隆 + 多语言:上 HeyGen,付费档解锁克隆形象
  • 照片秒变数字人:试 D-ID,单图就能开口
  • 企业批量:Synthesia 或万兴播爆,模板化生产

不知道选哪个?看 AI 视频工具有哪些 横向对比一遍再决定。

一份万能口播稿 prompt

数字人视频的关键不在工具,而在稿子写得像不像人。AI 写出来的稿子直接念有股 PPT 味,必须用专门的口播 prompt 改造。

📋 Prompt 模板

你是一位专业短视频口播稿撰稿人,专门给 AI 数字人写口播脚本。

我要做一条 [时长] 秒的口播视频,主题是 [一句话主题]。

观众:[目标人群描述]

请按口播稿规范输出:

  1. 开头 5 秒钩子

    • 一句话戳中观众痛点或好奇心
    • 不用”大家好""今天给大家分享”等套话
  2. 正文 3-5 个信息点

    • 每个信息点一段,不超过 2 句话
    • 每句话不超过 20 字
    • 用具体场景或数据,不堆形容词
  3. 结尾行动号召

    • 一句话,引导关注 / 点赞 / 评论其中一个

口播稿规范:

  • 每句换行,方便配音停顿
  • 长句拆短句,符合呼吸节奏
  • 避免书面语:「然而 / 因此 / 综上所述」全改口语
  • 避免生僻词,初中生听一遍就能懂
  • 数字念出来要顺:「2026」念「二零二六」,「30%」念「百分之三十」
  • 总字数控制在 [时长 × 4] 字

把方括号替换成你的实际值,丢给 DeepSeek、Kimi 或豆包跑一稿,再自己读一遍微调即可。

完整 5 步流程

第 1 步:选定数字人形象

两种思路:

用公模形象(最快):每个工具自带几十到几百个公模数字人形象,挑一个跟你账号定位匹配的:

  • 知识科普:选商务感强的男 / 女主播
  • 美妆生活:选亲和力强的年轻女性
  • 财经 / 法律:选成熟稳重的中年形象
  • 电商带货:选有冲击力的活泼形象

克隆自己的形象(最 IP)

  1. 用手机或相机拍一段 1-3 分钟正面视频(不同工具要求不同)
  2. 上传到工具,等待训练(HeyGen 通常 30 分钟到几小时)
  3. 训练完后就有了”你自己的”数字人,可反复使用

第一次推荐先用公模出 5-10 条视频试水,确认账号定位再花钱克隆。

第 2 步:用 AI 写口播稿

套用上一节的万能口播 prompt,生成第一稿。

定稿前自己大声念一遍——念不顺的地方就是不像人说话的地方,直接改成顺口的版本。这一步比让 AI 反复改 5 轮更有效。

第 3 步:选发音人

每个工具都自带几十到上百个发音人,按以下原则挑:

  • 音色匹配形象:男主播配男声、年轻形象配年轻音色,错位会出戏
  • 语速匹配内容:知识科普稍慢(每分钟 280-320 字),剧情 / 带货稍快(350-400 字)
  • 试听 30 秒:贴一段你的稿子先生成 30 秒 demo,确认音色不刺耳
  • 方言 / 外语需求:HeyGen、闪剪都支持多语言;国产工具方言支持比海外强

如果想要更高质量声音,可单独用 ElevenLabs 或魔音工坊生成音频,再导入数字人工具做唇形同步——很多工具都支持”导入音频驱动嘴型”。

第 4 步:合成视频

把稿子和发音人选好,点生成。

合成时间跟时长和工具有关:

  • 30 秒短视频:1-3 分钟出片
  • 3 分钟课程:5-10 分钟
  • 高峰期(晚上)排队会更久

合成中可以最小化窗口去做别的,完成会有提示。

生成后先单独看口型同步——如果某句话嘴型对不上,单独修改那句重生成,不用全片重做。

第 5 步:剪辑 + 发布

把数字人视频导入剪映或其他剪辑软件,做这几件事:

  • 加字幕:剪映”识别字幕”一键搞定,80% 用户开静音刷
  • 配 BGM:选跟内容调性匹配的轻音乐,音量压到 -25dB 以下
  • 加 B-roll:穿插 2-5 段实拍或 AI 生成画面(即梦、可灵都行),打破单调感
  • 加封面:截最有冲击的一帧 + 大字幕,封面 CTR 比内容更重要

剪辑完成后按平台规格导出:

  • 抖音 / 视频号:1080×1920 竖屏
  • 视频号长视频 / B 站:1920×1080 横屏
  • 小红书:3:4 或 1:1

给三种典型场景的 prompt 变体

场景 1:知识科普数字人

📋 Prompt 模板

你是知识科普口播稿撰稿人。

主题:[一个具体知识点] 受众:[年龄段 + 知识背景] 时长:60 秒

请写一段数字人口播稿,结构:

  1. 钩子(5 秒):用一个反常识结论或痛点提问开场
  2. 正文(45 秒):
    • 用 1 个生活化例子讲清楚
    • 给 2-3 个可记住的关键信息
    • 信息要具体到数字或场景,不要泛泛而谈
  3. 结尾(10 秒):给一个可立即执行的行动建议

要求:

  • 全程口语,避免学术化表达
  • 必要术语用一句白话解释
  • 字数 240 字以内
  • 每句单独成行

场景 2:电商带货数字人

📋 Prompt 模板

你是电商口播稿撰稿人。

产品:[产品名 + 一句话描述] 卖点:[3 个核心卖点] 价格区间:[价格] 目标客户:[人群画像]

请写一段 45 秒带货口播稿,结构:

  1. 钩子(5 秒):戳中目标客户痛点
  2. 卖点演示(25 秒):3 个卖点对应 3 段,每段给一个具体使用场景
  3. 性价比(10 秒):对比同类价格说服力
  4. 行动号召(5 秒):引导主页或评论区

要求:

  • 避免「震撼」「绝绝子」「破天荒」等套话
  • 不夸大功效,避免医疗 / 美容违规词
  • 全程口语,像朋友推荐
  • 字数 180 字以内
  • 每句单独成行

场景 3:企业培训数字人

📋 Prompt 模板

你是企业培训课件口播稿撰稿人。

课程主题:[课程名] 本节内容:[本节要讲的具体知识点] 学员:[岗位 / 经验等级] 时长:3 分钟

请写一段培训口播稿,结构:

  1. 本节学习目标(20 秒):学完后能做什么
  2. 核心内容(2 分钟):
    • 拆 3-4 个小要点
    • 每个要点配一个实际工作场景
    • 关键概念用一句话定义
  3. 本节小结 + 下节预告(40 秒)

要求:

  • 语气专业但不古板
  • 关键术语第一次出现时给定义
  • 字数 700-800 字
  • 每句单独成行,方便配音停顿

5 个让数字人更像真人的技巧

技巧 1:稿子里加”语气词”

AI 写的稿太干净,没有真人那种自然停顿。手动加一些「嗯」「对」「我跟你说」这种语气词,听起来立刻立体一档

技巧 2:每段插一个停顿

很多工具支持在稿子里加 <break> 或暂停符号,每段开头加 0.5 秒停顿比一口气念到底自然得多。

技巧 3:穿插 B-roll 破单调

纯数字人头像念 3 分钟太催眠。每 15-30 秒切一段实拍画面、AI 生成画面或图表,注意力会被反复拉回

技巧 4:开头结尾用真人,中间用数字人

如果观众已经认你的真人形象,纯数字人会突兀。可以开头 5 秒、结尾 5 秒留真人画面,中间长段口播用数字人。

技巧 5:发音人不要全片同一个

讲到不同角色对白时切换发音人,对话感会出来,比单调主播体验好得多。

一个常见的失败案例

新人最常踩的坑:克隆完自己形象就开始狂产视频,结果观众一眼识破”AI 感”,掉粉

典型现象:

  • 数字人眨眼频率不自然
  • 嘴型在快速念稿时跟不上
  • 表情永远是一档”商务微笑”
  • 背景永远是绿幕扣的虚拟场景

补救方法:

  • 延长合成时长:很多工具高质量档对眨眼、嘴型优化更好
  • 加 B-roll 转移注意:观众盯不到一直数字人脸就不会过早识破
  • 稿子写得更口语:再好的数字人念书面语都假,稿子才是关键
  • 加真实背景或绿幕换成实景:避免一眼假的虚拟办公室

商用与合规要点

数字人涉及肖像权和声音权,商用前必读以下三点

  1. 克隆自己形象 OK:自己拍自己用没问题
  2. 克隆他人形象需授权:哪怕你买了工具,把别人脸做成数字人没书面授权也违法
  3. 公模形象看协议:每家工具公模形象的商用授权范围不同,付费档通常含商用,免费档慎用
  4. 2026 起多国要求 AI 内容标注:抖音、视频号都已上线”AI 生成”标签,老老实实标注,不影响推流

参考 商用 AI 视频选哪个 看版权清晰的工具清单。

进阶玩法 + 类似场景

学会数字人这套流程,同样的方法还能用来做企业宣传片、年终汇报片、招聘介绍、直播间数字人主播,核心都是”稳定形象 + 批量稿子 + 工具自动合成”。人省下来的时间,去想选题和创意才是真正的杠杆

常见问题

Q:克隆形象需要拍多长的素材? HeyGen 一般 2-5 分钟正面口播视频;闪剪、腾讯智影从几十秒到几分钟不等;D-ID 单张高清照片就能起步。具体看工具要求。

Q:克隆形象多少钱? 国产工具大多几十到几百元;HeyGen 个人版每月几十美元起,企业版数百美元;Synthesia 起步价更高。

Q:数字人能识别它是 AI 生成的吗? 质量高的 2D 数字人普通观众难一眼识破,但仔细看眨眼、嘴型、表情还是能看出来。AI 检测工具识别率很高,真正想隐藏 AI 痕迹不现实,建议直接标注 AI 生成。

Q:数字人能直播带货吗? 能。腾讯智影、万兴播爆等都支持 24 小时数字人直播。但目前各大平台对纯数字人直播有不同程度的资质要求和流量限制,启动前先看平台规则。

Q:国产数字人和 HeyGen 哪个更好? 中文口型同步 + 国内场景 → 国产;英文 / 多语言 + 海外质感 → HeyGen。两者价格区间和易用度不同,按需求选不冲突。