AI 数字人怎么做?口播视频保姆教程
AI 数字人怎么做?这篇手把手讲从选工具、克隆形象、写口播稿到生成视频发布的完整流程,附 prompt 模板、国产 vs 海外工具对比与商用避坑指南,新手 1 小时出第一条
你是不是也羡慕过那种账号:每天稳定更新口播视频,主播形象固定、声音熟悉,但你从来没见过本人?很多时候那不是真人在拍,而是 AI 数字人——把一段文字稿交给工具,5 分钟后就出来一段”主播在说话”的视频,不用打灯、不用化妆、不用 NG 重录。
这篇手把手讲 AI 数字人怎么做:从选工具、克隆自己形象、写口播稿、合成视频到导出发布的完整流程。无论你是想做知识科普、企业培训、电商带货还是个人 IP,看完都能在 1 小时内出第一条数字人视频。
30 秒了解 AI 数字人能做什么
AI 数字人是指用 AI 合成的虚拟主播形象,给它一段文字稿,它能用接近真人的口型、表情、声音念出来,做成视频。常见三类:
- 2D 数字人:基于真人照片或视频克隆,正面半身像最常见,适合口播
- 3D 数字人:建模驱动,能多角度多动作,制作门槛高
- 写实虚拟人:完全 AI 生成的虚构形象,介于 2D 和 3D 之间
新人入门 95% 选 2D,性价比最高、出片最稳。这篇全部讲 2D 路线。
适合谁用:
- 自媒体博主,想日更口播但不愿出镜
- 企业内训 / 课程录制,要批量产标准化口播课
- 跨境电商,要多语言出海做产品介绍
- 政务 / 新闻播报,要稳定形象播报内容
- 24 小时直播间,做无人值守带货
不适合谁:
- 拍剧情、Vlog、综艺这种强表演感场景
- 用户已经习惯你真人形象的成熟账号(换数字人掉粉风险)
- 一次性视频项目(数字人优势在批量复用)
怎么选工具:国产 vs 海外四象限
国产数字人这两年发展极快,价格和易用度对国内用户更友好。海外工具优势在多语言和欧美口型质量。
| 工具 | 国别 | 免费档 | 克隆门槛 | 适合谁 |
|---|---|---|---|---|
| HeyGen | 美国 | 1 分钟/月 | 中(要付费档) | 出海、多语言 |
| D-ID | 以色列 | 14 天试用 | 低 | 照片快速出片 |
| Synthesia | 英国 | 36 秒/月 | 高(要审核) | 企业培训 |
| 闪剪 | 字节 | 部分免费 | 低 | 抖音、视频号 |
| 腾讯智影 | 腾讯 | 有免费额度 | 中 | 视频号、企业 |
| 来画 | 国内 | 试用版 | 低 | 动画 + 数字人 |
| 万兴播爆 | 万兴 | 试用 | 中 | 跨境带货 |
新人推荐路径:
- 国内日更口播:先试 闪剪 或腾讯智影,免费档够练手
- 专业克隆 + 多语言:上 HeyGen,付费档解锁克隆形象
- 照片秒变数字人:试 D-ID,单图就能开口
- 企业批量:Synthesia 或万兴播爆,模板化生产
不知道选哪个?看 AI 视频工具有哪些 横向对比一遍再决定。
一份万能口播稿 prompt
数字人视频的关键不在工具,而在稿子写得像不像人。AI 写出来的稿子直接念有股 PPT 味,必须用专门的口播 prompt 改造。
你是一位专业短视频口播稿撰稿人,专门给 AI 数字人写口播脚本。
我要做一条 [时长] 秒的口播视频,主题是 [一句话主题]。
观众:[目标人群描述]
请按口播稿规范输出:
开头 5 秒钩子
- 一句话戳中观众痛点或好奇心
- 不用”大家好""今天给大家分享”等套话
正文 3-5 个信息点
- 每个信息点一段,不超过 2 句话
- 每句话不超过 20 字
- 用具体场景或数据,不堆形容词
结尾行动号召
- 一句话,引导关注 / 点赞 / 评论其中一个
口播稿规范:
- 每句换行,方便配音停顿
- 长句拆短句,符合呼吸节奏
- 避免书面语:「然而 / 因此 / 综上所述」全改口语
- 避免生僻词,初中生听一遍就能懂
- 数字念出来要顺:「2026」念「二零二六」,「30%」念「百分之三十」
- 总字数控制在 [时长 × 4] 字
把方括号替换成你的实际值,丢给 DeepSeek、Kimi 或豆包跑一稿,再自己读一遍微调即可。
完整 5 步流程
第 1 步:选定数字人形象
两种思路:
用公模形象(最快):每个工具自带几十到几百个公模数字人形象,挑一个跟你账号定位匹配的:
- 知识科普:选商务感强的男 / 女主播
- 美妆生活:选亲和力强的年轻女性
- 财经 / 法律:选成熟稳重的中年形象
- 电商带货:选有冲击力的活泼形象
克隆自己的形象(最 IP):
- 用手机或相机拍一段 1-3 分钟正面视频(不同工具要求不同)
- 上传到工具,等待训练(HeyGen 通常 30 分钟到几小时)
- 训练完后就有了”你自己的”数字人,可反复使用
第一次推荐先用公模出 5-10 条视频试水,确认账号定位再花钱克隆。
第 2 步:用 AI 写口播稿
套用上一节的万能口播 prompt,生成第一稿。
定稿前自己大声念一遍——念不顺的地方就是不像人说话的地方,直接改成顺口的版本。这一步比让 AI 反复改 5 轮更有效。
第 3 步:选发音人
每个工具都自带几十到上百个发音人,按以下原则挑:
- 音色匹配形象:男主播配男声、年轻形象配年轻音色,错位会出戏
- 语速匹配内容:知识科普稍慢(每分钟 280-320 字),剧情 / 带货稍快(350-400 字)
- 试听 30 秒:贴一段你的稿子先生成 30 秒 demo,确认音色不刺耳
- 方言 / 外语需求:HeyGen、闪剪都支持多语言;国产工具方言支持比海外强
如果想要更高质量声音,可单独用 ElevenLabs 或魔音工坊生成音频,再导入数字人工具做唇形同步——很多工具都支持”导入音频驱动嘴型”。
第 4 步:合成视频
把稿子和发音人选好,点生成。
合成时间跟时长和工具有关:
- 30 秒短视频:1-3 分钟出片
- 3 分钟课程:5-10 分钟
- 高峰期(晚上)排队会更久
合成中可以最小化窗口去做别的,完成会有提示。
生成后先单独看口型同步——如果某句话嘴型对不上,单独修改那句重生成,不用全片重做。
第 5 步:剪辑 + 发布
把数字人视频导入剪映或其他剪辑软件,做这几件事:
- 加字幕:剪映”识别字幕”一键搞定,80% 用户开静音刷
- 配 BGM:选跟内容调性匹配的轻音乐,音量压到 -25dB 以下
- 加 B-roll:穿插 2-5 段实拍或 AI 生成画面(即梦、可灵都行),打破单调感
- 加封面:截最有冲击的一帧 + 大字幕,封面 CTR 比内容更重要
剪辑完成后按平台规格导出:
- 抖音 / 视频号:1080×1920 竖屏
- 视频号长视频 / B 站:1920×1080 横屏
- 小红书:3:4 或 1:1
给三种典型场景的 prompt 变体
场景 1:知识科普数字人
你是知识科普口播稿撰稿人。
主题:[一个具体知识点] 受众:[年龄段 + 知识背景] 时长:60 秒
请写一段数字人口播稿,结构:
- 钩子(5 秒):用一个反常识结论或痛点提问开场
- 正文(45 秒):
- 用 1 个生活化例子讲清楚
- 给 2-3 个可记住的关键信息
- 信息要具体到数字或场景,不要泛泛而谈
- 结尾(10 秒):给一个可立即执行的行动建议
要求:
- 全程口语,避免学术化表达
- 必要术语用一句白话解释
- 字数 240 字以内
- 每句单独成行
场景 2:电商带货数字人
你是电商口播稿撰稿人。
产品:[产品名 + 一句话描述] 卖点:[3 个核心卖点] 价格区间:[价格] 目标客户:[人群画像]
请写一段 45 秒带货口播稿,结构:
- 钩子(5 秒):戳中目标客户痛点
- 卖点演示(25 秒):3 个卖点对应 3 段,每段给一个具体使用场景
- 性价比(10 秒):对比同类价格说服力
- 行动号召(5 秒):引导主页或评论区
要求:
- 避免「震撼」「绝绝子」「破天荒」等套话
- 不夸大功效,避免医疗 / 美容违规词
- 全程口语,像朋友推荐
- 字数 180 字以内
- 每句单独成行
场景 3:企业培训数字人
你是企业培训课件口播稿撰稿人。
课程主题:[课程名] 本节内容:[本节要讲的具体知识点] 学员:[岗位 / 经验等级] 时长:3 分钟
请写一段培训口播稿,结构:
- 本节学习目标(20 秒):学完后能做什么
- 核心内容(2 分钟):
- 拆 3-4 个小要点
- 每个要点配一个实际工作场景
- 关键概念用一句话定义
- 本节小结 + 下节预告(40 秒)
要求:
- 语气专业但不古板
- 关键术语第一次出现时给定义
- 字数 700-800 字
- 每句单独成行,方便配音停顿
5 个让数字人更像真人的技巧
技巧 1:稿子里加”语气词”
AI 写的稿太干净,没有真人那种自然停顿。手动加一些「嗯」「对」「我跟你说」这种语气词,听起来立刻立体一档。
技巧 2:每段插一个停顿
很多工具支持在稿子里加 <break> 或暂停符号,每段开头加 0.5 秒停顿比一口气念到底自然得多。
技巧 3:穿插 B-roll 破单调
纯数字人头像念 3 分钟太催眠。每 15-30 秒切一段实拍画面、AI 生成画面或图表,注意力会被反复拉回。
技巧 4:开头结尾用真人,中间用数字人
如果观众已经认你的真人形象,纯数字人会突兀。可以开头 5 秒、结尾 5 秒留真人画面,中间长段口播用数字人。
技巧 5:发音人不要全片同一个
讲到不同角色对白时切换发音人,对话感会出来,比单调主播体验好得多。
一个常见的失败案例
新人最常踩的坑:克隆完自己形象就开始狂产视频,结果观众一眼识破”AI 感”,掉粉。
典型现象:
- 数字人眨眼频率不自然
- 嘴型在快速念稿时跟不上
- 表情永远是一档”商务微笑”
- 背景永远是绿幕扣的虚拟场景
补救方法:
- 延长合成时长:很多工具高质量档对眨眼、嘴型优化更好
- 加 B-roll 转移注意:观众盯不到一直数字人脸就不会过早识破
- 稿子写得更口语:再好的数字人念书面语都假,稿子才是关键
- 加真实背景或绿幕换成实景:避免一眼假的虚拟办公室
商用与合规要点
数字人涉及肖像权和声音权,商用前必读以下三点:
- 克隆自己形象 OK:自己拍自己用没问题
- 克隆他人形象需授权:哪怕你买了工具,把别人脸做成数字人没书面授权也违法
- 公模形象看协议:每家工具公模形象的商用授权范围不同,付费档通常含商用,免费档慎用
- 2026 起多国要求 AI 内容标注:抖音、视频号都已上线”AI 生成”标签,老老实实标注,不影响推流
参考 商用 AI 视频选哪个 看版权清晰的工具清单。
进阶玩法 + 类似场景
- 想做更全面的短视频流程:AI 做短视频 看完整生产链路
- 想知道生成时长上限:AI 视频时长多少
- 海外专业级数字人:HeyGen 怎么用
- 照片秒变数字人:D-ID 怎么用
- 没预算先试免费的:免费 AI 视频工具
- 学写更好的 prompt:Prompt 教程
学会数字人这套流程,同样的方法还能用来做企业宣传片、年终汇报片、招聘介绍、直播间数字人主播,核心都是”稳定形象 + 批量稿子 + 工具自动合成”。人省下来的时间,去想选题和创意才是真正的杠杆。
常见问题
Q:克隆形象需要拍多长的素材? HeyGen 一般 2-5 分钟正面口播视频;闪剪、腾讯智影从几十秒到几分钟不等;D-ID 单张高清照片就能起步。具体看工具要求。
Q:克隆形象多少钱? 国产工具大多几十到几百元;HeyGen 个人版每月几十美元起,企业版数百美元;Synthesia 起步价更高。
Q:数字人能识别它是 AI 生成的吗? 质量高的 2D 数字人普通观众难一眼识破,但仔细看眨眼、嘴型、表情还是能看出来。AI 检测工具识别率很高,真正想隐藏 AI 痕迹不现实,建议直接标注 AI 生成。
Q:数字人能直播带货吗? 能。腾讯智影、万兴播爆等都支持 24 小时数字人直播。但目前各大平台对纯数字人直播有不同程度的资质要求和流量限制,启动前先看平台规则。
Q:国产数字人和 HeyGen 哪个更好? 中文口型同步 + 国内场景 → 国产;英文 / 多语言 + 海外质感 → HeyGen。两者价格区间和易用度不同,按需求选不冲突。