🤖 AI 跟我学 新手入门

D-ID 怎么用?照片说话数字人教程

D-ID 怎么用?这篇手把手讲 D-ID 上传照片做数字人、写文字稿、生成口播视频的完整流程,附 prompt 模板、常见坑与跟 HeyGen、国产工具的差异

发布 2026/05/20

D-ID 是国外做”照片说话”最早的一批数字人工具。给它一张照片 + 一段文字稿,它能让照片里的人开口念出来——你能拿历史人物的肖像做”采访”,也能让自家产品代言人形象出现在不同场景的口播视频里。它的口型同步成熟、入门门槛比 HeyGen 略低,是数字人新手常被推荐的第一个工具。

这篇手把手讲 D-ID 怎么用——从注册、第一段照片说话视频、上传自定义头像,到声音克隆、多语言、常见坑和跟 HeyGen、国产数字人工具的差异。

30 秒了解 D-ID

D-ID 是一款主打”照片说话 / 静图开口”的海外 AI 数字人工具,主入口是 d-id.com,免费试用可生成基础视频,付费档解锁更长时长、更高清画质、商用授权。 它的差异化卖点是从单张照片就能生成数字人 + 操作界面非常傻瓜化

适合谁用:

  • 教育 / 历史 / 文化博主,想让历史人物或绘画形象”开口讲解”
  • 营销文案策划,要做”产品代言人形象”快速口播
  • 小白入门者,想用最低门槛体验数字人玩法
  • 跨境出海的轻量级用户,做几条短视频不需要大型工具

不适合谁:

  • 国内主要做内容、没有海外网络环境的人——注册和付费有门槛
  • 想要高度专业影视质感的团队——D-ID 偏”半身像 + 口播”,不是剧情片
  • 要做大量长视频的人——免费档时长有限,付费起步价不低

如果你想做的不是数字人而是其他类型的 AI 视频,先看 AI 视频工具有哪些 看看是不是有更合适的选择。

准备工作

开始之前先把这几件准备好:

  • 注册入口:d-id.com 官网
  • 网络:稳定的海外网络环境
  • 邮箱:建议 Gmail / Outlook 等海外邮箱
  • 支付方式:付费档需要海外信用卡或 PayPal
  • 素材准备:一张你想”让它说话”的照片(人像、绘画、雕塑都行)
  • 文字稿:你要让 TA 说的话,中文或英文都行

如果你的网络和支付都不方便,直接跳到后面”国产数字人替代”一节。

详细操作步骤

第 1 步:注册 D-ID 账号

打开 d-id.com,点右上角 Sign Up / Start Free Trial

[此处放截图:D-ID 首页注册按钮位置]

注册方式:

  • Google 账号一键登录(最快)
  • 邮箱 + 密码(建议 Gmail)

注册完会自动进 Studio,新账号通常会送一小笔免费积分,可以试做几段短视频。

如果国内邮箱收不到验证邮件,直接换 Gmail。

第 2 步:用预置头像做第一段视频

第一次不建议直接上传自己的照片——先用预置头像跑一遍流程。

  1. 进 Studio 点 Create Video
  2. 顶部默认会出现一排预置头像(不同年龄、性别、肤色)
  3. 选一个你顺眼的
  4. 在右侧输入文字稿
  5. 选语言(D-ID 支持中文、英文、西班牙语等几十种)
  6. 选声音(每种语言都有男声/女声多个选项)
  7. Generate Video

[此处放截图:D-ID Studio 主界面,标注头像选择、文字稿输入、声音选择]

等 1-3 分钟,第一段视频出来。这一段先让你熟悉界面,下一步再玩自定义头像。

第 3 步:上传自定义照片让它”开口说话”

D-ID 最有意思的玩法是这个:

  1. 点左上角 AddUpload Image
  2. 上传一张人像照片(正面、表情自然、五官清晰最稳)
  3. 上传成功后,这张照片会出现在你的头像列表里
  4. 选它作为说话的对象
  5. 输入文字稿,生成

[此处放截图:上传照片入口位置]

支持的照片类型很广:

  • 真人照片(注意:必须有授权,不能拿陌生人照片乱传)
  • 自己的自拍
  • 历史人物肖像(教学场景)
  • 油画 / 绘画作品
  • 卡通形象 / 动漫角色

哪些照片最稳:正面、单人、五官完整清晰、表情自然、光线均匀。侧脸、模糊、戴墨镜、多人挤一起都会让 AI 学错。

第 4 步:调整声音和语调

文字稿写完之后,注意这几个声音设置:

  • 语言:选目标语言(中文 → 选”Chinese, Mandarin”或”Mandarin Chinese”)
  • 声音:每个语言有多个声音选项,建议都试听一下挑最自然的
  • 语速:可以拉慢或加快
  • 音调 / 风格:部分声音支持”高兴”「严肃」「平静」这类情绪标签

中文场景建议:先听 3-5 个候选声音,挑一个最不像 AI 的,能省后期修补声音的时间。

第 5 步:声音克隆(高级功能)

如果你要做自己的”专属数字人”——头像是自己 + 声音也是自己,需要走声音克隆:

  1. Voice Cloning 入口
  2. 录一段 1-3 分钟的清晰人声样本
  3. 上传等处理
  4. 处理完成后,这个声音会出现在你的语音列表里
  5. 之后做视频时选它即可

声音克隆是付费功能,免费档通常没有。

第 6 步:导出和后续编辑

视频生成完成后:

  • 下载:MP4 格式
  • 分享链接:直接给客户/同事看
  • 嵌入:可以嵌入网页

下载的 MP4 可以拖进剪映、Premiere、Final Cut 继续做后期。

5 个 D-ID 出片更稳的技巧

1. 照片选「正面 + 闭嘴 / 微笑」

闭嘴或微微张嘴的正面照效果最好。已经在大笑、张大口、做夸张表情的照片,AI 反而难处理嘴型

2. 文字稿别写太长

D-ID 的视频本质是”口播+静图”,太长会让观众觉得无聊。单段控制在 30-60 秒,要做长内容就拆多段,中间穿插画面或字幕。

3. 中文口播要选「中文原生声音」

不要拿英文声音去念中文稿,发音会很怪。在声音选择那里看清楚标签,选「Chinese」开头的语音引擎。

4. 同一段稿子可以多生成几次

D-ID 也有抽卡感。同一张照片 + 同一段稿子,跑 2-3 次,挑嘴型最自然的那次。

5. 重要内容用付费档

免费版有时长限制和水印。如果你做的是正式商用内容,建议直接付费——免费版的水印和限时挺影响成片质量。

常见坑和解决办法

现象可能原因解决办法
国内打不开 d-id.com网络问题用稳定海外网络环境
上传照片报错文件太大 / 格式不支持压缩到 5MB 内,存为 JPG / PNG
嘴型对不上照片侧脸 / 五官不清换正面清晰照重做
中文发音奇怪选了英文声音引擎切换到中文原生声音
视频有水印免费版默认升级付费档
付费遇到银行拒付卡不支持海外订阅换 PayPal / 国际信用卡
同一段稿子出片差异大抽卡运气多生成 2-3 次取最好

一段实战案例:让一张历史人物绘画”做自我介绍”

教学场景非常适合 D-ID。假设你做的是历史科普 / 文化博主,想让”达芬奇自画像”开口讲一段话:

  1. 找一张达芬奇自画像的高清正面图,上传
  2. 选自画像作为说话对象
  3. 选英文(或意大利语)+ 一个低沉成熟男声
  4. 输入下面这段稿子:
📋 Prompt 模板

Hello, I am Leonardo da Vinci.

I lived between 1452 and 1519, during the Italian Renaissance.

People remember me for the Mona Lisa and The Last Supper, but I also studied anatomy, engineering, and flying machines.

In this short video, I will show you three things I cared about that you might find surprising.

  1. 生成,等 1-3 分钟
  2. 下载 MP4,拖进剪映,配上文艺复兴风格背景音乐,加中文字幕

这种”让历史人物开口”的玩法在科普 / 教育内容里很受欢迎,是 D-ID 最自然的使用场景之一。

D-ID vs HeyGen vs 国产数字人

简单对比一下:

维度D-IDHeyGen国产数字人(腾讯智影 / 小冰 / 商汤等)
国内可用难(需海外网络)难(需海外网络)容易
注册门槛海外邮箱海外邮箱手机号
最低门槛玩法一张照片就能玩 ⭐需要至少一段视频部分一张照片也行
视频质量上限中等高 ⭐中到高
多语言唇形同步中等强 ⭐中等
入门友好度极高 ⭐中等
价格美元订阅美元订阅人民币订阅
国内合规强 ⭐

简单结论:

  • 想用一张照片玩数字人 → D-ID 最方便
  • 要做出海多语种、企业级口播 → HeyGen 更稳
  • 国内用户日常做内容 → 优先国产工具

国产替代方案的详细盘点可以看 国内 AI 视频盘点

进阶 / 下一步

学完 D-ID 基础玩法,推荐继续看:

FAQ

Q:D-ID 国内能直接用吗? 打不打得开看网络环境,注册和付费需要海外渠道。国内用户用起来门槛偏高,建议先看国产数字人有没有替代方案。

Q:D-ID 免费版能做多长视频? 通常给一小笔免费积分,可以体验预置头像 + 短视频生成,具体时长以官网当下活动为准。

Q:D-ID 上传别人的照片合法吗? 不合法。D-ID 在使用条款里明确禁止未授权使用他人照片。建议只用自己授权的照片、公共领域历史人物或自家产品形象。

Q:D-ID 和 HeyGen 选哪个? 小白入门或者想用单张照片玩 → D-ID。出海企业 / 多语种内容批量产 → HeyGen。

Q:D-ID 跟可灵、海螺这些是同一类工具吗? 不是。可灵、海螺是”文生视频 / 图生视频”——给文字或图,AI 出片。D-ID 是”照片说话”——给一张图 + 一段稿,AI 让图开口念出来。功能完全不同,可以看 AI 视频是什么 区分清楚。

Q:国内有没有类似 D-ID 的”照片说话”工具? 有。腾讯智影、即构数字人、部分国产数字人产品都有”上传照片做说话视频”的功能。如果你目标用户在国内,优先选国产工具。