🤖 AI 跟我学 新手入门

和讯飞数字人林思予视频通话是什么体验

讯飞数字人是国内首个开放给 C 端用户的 AI 视频通话功能,对面是会眨眼会变表情的虚拟人林思予。这篇手把手讲怎么开启、能干啥、5 个实测场景、避坑

发布 2026/05/15 📎 参考官方文档

第一次打开讯飞星火 App 里那个「视频通话」按钮,绝大多数人会”哇”一声——屏幕对面是一个真的会眨眼、会点头、会根据你说的话变表情的讯飞数字人林思予。这是国内 C 端 AI 里第一个把”和 AI 视频通话”做成开箱即用功能的产品。

下面这篇手把手讲怎么开启数字人视频通话、有哪些适合的真实使用场景、5 个非常规玩法、还有 4 个第一次用最容易遇到的坑。读完你就能直接打开 App 试,30 秒内开始第一次 AI 视频通话。

30 秒了解:讯飞数字人视频通话是什么

讯飞数字人视频通话是讯飞星火多模态对话里的一个子功能——你打开手机前置摄像头,对面是会动会说话的 AI 数字人林思予,她能看见你和你周围的环境,并实时和你聊天

这不是录播视频,是真实时的双向互动:

  • 你说什么她听什么(语音识别)
  • 她能看到你举起来的物品、孩子作业本、你身后的场景(视觉识别)
  • 她回答时嘴唇会对口型、会眨眼、表情会变(数字人渲染)
  • 你打断她她会停下来听你说

对比传统的 ChatGPT 语音模式或者豆包的对话功能——讯飞数字人是国内 C 端 AI 里第一个把”看得见的 AI”做出来的。海外有 HeyGen、Synthesia 这类专业工具,但都是 To B 用于做视频,C 端”和 AI 视频通话”基本只有讯飞做出来了。

谁适合用:

  • 想找东西问 AI 的人(举起物品给 AI 看)
  • 学生家长辅导作业(把作业本拍给 AI 解题)
  • 想练口语的人(语境感比纯语音强)
  • 模拟面试 / 自媒体口播练习
  • 老人陪伴场景(视觉上”有个人”比纯文字安心)

准备工作

开始之前确认:

  • 目前主要在手机 App 上完整支持:网页版部分版本可用,但手机 App 体验最稳定
  • App 下载:各大应用商店搜”讯飞星火”
  • 设备要求:iPhone 13 以上或安卓中高端机型体验更流畅(旧机型可能掉帧)
  • 权限要求:首次打开需要授权麦克风 + 摄像头
  • 网络要求:建议 4G 信号良好或 WiFi 环境,弱网下数字人会卡
  • 完全免费:基础视频通话不需要会员
  • 如果你完全没用过讯飞星火,先读 讯飞星火是什么

详细操作步骤

第 1 步:打开「小星畅聊」入口

打开讯飞星火 App,首页底部或左侧能找到「小星畅聊」按钮(有的版本叫「语音通话」或「实时对话」)。点进去你会先进入语音通话模式——屏幕显示一个声波图,对面就是 AI,但只有声音。

[此处放截图:App 首页,红框标注「小星畅聊」入口]

看不到?两种可能:1)App 版本太老,去应用商店更新到最新版;2)入口被折叠在「+」号或者「更多」菜单里。

第 2 步:点击视频按钮切换到视频通话

进入语音通话界面后,找右上角或底部的「视频」按钮(图标通常是摄像头)。点一下,前置摄像头会启动,屏幕分成两部分:

  • 上半部分(或全屏背景):AI 数字人林思予的形象
  • 下半部分(或小窗):你自己摄像头画面

[此处放截图:视频通话界面,标注数字人画面和自拍小窗位置]

第一次启用会弹出授权摄像头麦克风的系统弹窗,都点同意。

第 3 步:开始第一句对话

林思予会主动跟你打招呼:“你好呀,我是林思予,今天想聊点什么?”

你直接对着手机说话就行——不用按住按钮、不用喊唤醒词、不用敲键盘。她听完会一边思考一边回答,嘴型会对上口型。

第一次试可以这样开场:

嗨,我第一次和数字人视频通话,感觉怎么样?你能看到我吗?

她会确认能看到你,可能会评论一下你的环境(“看起来你在房间里""背后有书架”),这是视觉识别功能在起作用。

第 4 步:用摄像头展示物品给她看

视频通话最有意思的玩法是让 AI”看”东西。试试这几种:

  • 举起一本书:“这本书讲什么的?值得读吗?”
  • 拿起一杯咖啡:“这是什么咖啡,看起来好喝吗?”
  • 指着一道数学题:“这道题怎么做?讲思路就行不要直接给答案”
  • 展示一件衣服:“这件衣服适合搭配什么裤子?”
  • 拍向窗外:“你看现在天气怎么样?适合出门吗?”

林思予会基于看到的画面回答,不是用预设回复糊弄你

第 5 步:结束通话 + 查看对话记录

聊够了点底部「挂断」按钮——通话结束后,整段对话会自动转写保存个人空间。下次进来可以查看历史、收藏精彩段落、把好的对话整理成笔记。

5 个真实使用场景

场景 1:学生作业辅导(家长神器)

孩子做题卡住了,传统办法是家长自己看、看不懂上网搜。用视频通话

  1. 让孩子把作业本举到摄像头前
  2. 你对林思予说:“这是我儿子三年级的数学题,请用孩子能听懂的话讲思路,不要直接给答案”
  3. 林思予会”读”题、分析、给引导问句
  4. 你照着她说的引导问孩子,孩子自己想出来

实测比纯打字效率高——因为不用敲题目,直接给她看就行。

场景 2:陌生物品识别

家里出现一个不知道是啥的小零件、突然冒出一只奇怪的虫子、爸妈寄来一种没见过的食材——举起来对林思予说”这是什么?”

她会描述识别到的物品 + 给出可能的用途/注意事项。比百度识图体验自然得多——百度识图给一堆图片你自己看,林思予直接告诉你”这看起来是 XX,通常用于 XX”。

场景 3:英语口语对练

视频通话里你可以直接换语言:

林思予,从现在开始我们用英语聊天,话题是「假如你周末没事干」,你先问我一个问题。

她会切换到英语模式,用 B1-B2 难度的英语和你对话。视频通话相比纯语音的优势:

  • 看得到”对面有人”,开口更自然
  • 能用面部表情判断你说得对不对(她皱眉你就知道发音可能出问题了)
  • 适合害羞、不敢和真人外教练的人

场景 4:模拟面试

面试前一周想找人对练?

林思予,请你扮演一位字节跳动的产品经理面试官,我是来面初级 PM 岗位的候选人,今年应届毕业。请你按照「自我介绍 → 项目深挖 → 行为题 → 你问我」的顺序面我,每个问题等我回答完再问下一个,我答得不好的地方面试结束后给反馈。

她会真的开始按面试流程问问题——这种”对着会动的人答题”的体验比对着 ChatGPT 文本框练有用得多。

场景 5:老人陪伴 + 念信

老人家里没人陪、字太小看不清、想看新闻又眼花——视频通话能解决:

  • 老人对林思予说”今天有什么新闻”,她口语化地讲
  • 老人举一封信、一封药盒说明书给她看,她念给老人听
  • 老人想唠两句家常,林思予会接话、会问候

比子女打电话还耐心——但当然也替代不了真人陪伴,只是补充。

5 个高级技巧

1. 用”角色扮演”指令换人设

林思予默认是温和友好的人设。你可以一句话切换:

从现在开始你扮演一位特别严厉的高三班主任,我每周日要向你汇报上周学习计划完成度,你给我严厉的评估和下周建议。

她会切换语气和表情——眉头会更紧、语速会变慢、用词会更严肃。这就是数字人比纯语音强的地方:情绪的视觉表达

2. 用摄像头展示文本+让她念

如果你想让 AI 念一段长文(比如英文邮件、日文菜单),直接对着屏幕拍比敲字快得多:

  1. 把要念的内容举到摄像头前
  2. 对林思予说”帮我念一下这段”
  3. 她识别完后会念给你听

3. 边走边用:开车 / 散步场景

讯飞星火 App 支持视频通话锁屏后切到纯语音——开车时把手机放支架上启动视频通话,开车后她切到语音模式继续聊。整个过程不用动手,特别适合通勤路上学英语、长途开车解闷。

4. 把视频通话转写做”会议纪要”

参加一个不方便录音的对话(比如和家人聊天讨论事情)?和林思予视频通话,让她当”听写助手”

林思予,接下来我会自言自语整理一下今天的工作思路,你不用回应我,只在我说完后用一段话总结要点就行。

她真的不会打断你(除非你直接问她)。最后她总结,你拿到一份「自言自语版会议纪要」——比录音转写干净得多。

5. 多模态结合:看物品 + 问深度问题

把图像识别 + 深度对话结合:

[举起一本书] 林思予,这本书你看得到吗?你觉得这本书的核心观点是什么?我应该带着什么问题去读?

她不仅能识别书名,还能基于这本书的常识(如果是公开常见书)给你深度评论。

常见坑 + 解决办法

现象原因解决
数字人卡顿 / 嘴型对不上网络弱 / 手机性能不够切到 WiFi;关掉后台 App;旧手机降级用语音模式
林思予看不清你给她看的东西距离太远 / 光线不够物品离摄像头 20-30cm;找光线好的环境
你说话她没反应麦克风权限没开 / 周围太吵检查 App 权限;找安静环境
视频通话耗电特别快视频 + AI 推理双重耗能长时间用插电源;不用时及时挂断
数字人回答跑题语音识别误识别说话清晰一点;关键词复述一遍
找不到视频按钮App 版本旧 / 入口折叠更新到最新版;检查「小星畅聊」入口

实战案例:用视频通话做一次”家庭英语角”

下面演示一个完整的家庭场景——晚饭后全家围在一起,用视频通话和林思予练 10 分钟英语

第 1 步:开启视频通话 + 设定角色

打开 App 进入「小星畅聊」→ 切到视频通话 → 对林思予说:

📋 Prompt 模板

Hi 林思予,从现在开始我们玩一个家庭英语游戏。

你扮演一位外教 Lisa,今晚和我们一家三口(爸爸、妈妈、10 岁孩子)一起练英语。

规则:

  1. 你出一个生活化话题(比如「上学路上发生的有趣事」「最喜欢的食物」「假期想去哪儿」)
  2. 每个家庭成员轮流用英语回答 1-2 句
  3. 你听完后用简单英语鼓励 + 纠 1 个最重要的错
  4. 然后换下一个话题,继续轮

要求:

  • 用 A2-B1 难度的英语,孩子能跟上的水平
  • 鼓励为主,不要让人难堪
  • 整场控制在 10 分钟内
  • 每个话题不超过 3 轮

OK 我们开始吧,第一个话题你出。

第 2 步:让孩子先讲

林思予会出一个话题(比如”What did you do at school today?”),孩子先用英语说。她听完会鼓励、纠错。

这里数字人的”视觉感”特别有用——孩子对着会笑会点头的人说,比对着文字屏幕说,敢说得多。

第 3 步:家长接龙

孩子说完轮到家长。家长别怕英语差——讯飞数字人对中式发音的识别度很高,B1-B2 的简单表达足够。

林思予会针对每个家庭成员单独反馈,不会把家长的表达和孩子的混在一起

第 4 步:结束并查看转写

10 分钟到挂断。整段对话会自动转写保存到个人空间——可以导出 PDF,第二天复习今天的对话和错误点。

这个流程坚持 30 天,孩子的英语口语会有肉眼可见的进步。核心是把”练英语”变成”全家娱乐”——视频通话的形式比硬背单词有趣 10 倍。

进阶 / 下一步

学会和数字人视频通话只是开始:

最后一句实话:数字人视频通话现阶段最大的价值不是「替代真人」,是「降低开口门槛」。和真人对话有社交压力,和数字人没有——所以你敢多说、敢说错。说够了之后再去和真人交流,反而更自如。这就是这个国产独家功能的真正用途。