🤖 AI 跟我学 新手入门

通义听悟怎么用?录音转写会议纪要全流程

通义听悟怎么用?这篇教你 5 分钟跑通"录音上传→自动转写→AI 总结→生成会议纪要"全流程,附 5 个高级玩法和 4 个常见坑

发布 2026/05/04

30 秒了解:通义听悟是什么

通义听悟是阿里巴巴出的一款 AI 会议助手,核心能力是「录音/视频自动转写成文字 + 自动生成结构化会议纪要」,对中文识别尤其稳,支持区分发言人、提取关键词、生成行动清单。

适合人群:经常开会、做访谈、上网课、看视频学习、做记者/编辑/研究员的人——任何需要把”听到的内容”变成”可搜索、可编辑文字”的场景。

它是阿里通义大模型家族的一部分,独立产品,跟通义千问对话功能不同——听悟专攻”语音/视频转文字 + 总结”这一件事

准备工作

  • 一个阿里云账号 / 钉钉账号 / 支付宝账号(任一可登录)
  • 浏览器(推荐 Chrome / Edge)打开 tingwu.aliyun.com
  • 如果用 App:在 App Store / 各大安卓应用市场搜「通义听悟」

入口:

入口适合
网页版(tingwu.aliyun.com)电脑上传文件、批量处理
App(手机/平板)录音笔功能、随时录会议
钉钉内嵌钉钉开会自动转写
浏览器插件在线视频会议同声转写

注:通义听悟有免费时长和付费会员档,具体免费小时数和付费档以官网 tingwu.aliyun.com 当前页面为准——厂商定价调整较频繁。

详细操作步骤

第 1 步:登录并进入主界面

打开 tingwu.aliyun.com,点右上角「登录」,选择阿里云/钉钉/支付宝账号扫码登录。

进入主界面后,左侧通常是「我的笔记 / 转写记录」,中间是上传/录制入口。

[此处放截图:通义听悟主界面,红框标注「上传文件」和「开始录音」按钮]

第 2 步:选择转写方式

通义听悟支持 4 种输入方式:

  1. 本地文件上传:MP3 / WAV / M4A / MP4 / MOV 等常见格式
  2. 实时录音:直接用电脑或手机麦克风录
  3. 实时会议转写:参加在线会议(腾讯会议 / 飞书 / Zoom)时同步转写
  4. 视频网址:粘贴 B 站/YouTube 等视频 URL(部分支持)

第一次用建议先上传一段本地录音练手。

第 3 步:上传录音文件

点「上传文件」,从电脑选一个音频或视频文件。上传前会让你填几个选项:

  • 语言:默认中文,可选英文、粤语、四川话等方言(方言识别准确率略低于普通话)
  • 是否区分发言人:勾选后会标注「说话人 1 / 说话人 2」,多人会议必勾
  • 垂直领域:可选「通用 / 教育 / 金融 / 医疗 / 法律 / IT」——选对了术语识别更准
  • 是否生成 AI 总结:勾选后转写完会自动出”摘要 + 行动项”

注意:30 分钟以内的录音通常 1-2 分钟出结果。长录音(几小时)会排队,可以关掉网页等通知。

第 4 步:查看转写结果

转写完成后,进入笔记详情页,能看到:

  • 左侧:原始音频 + 时间轴(点任意时间点能播放原音对照)
  • 中间:完整文字稿(按段落分,每段开头标注「说话人 X | 时间」)
  • 右侧:AI 总结(摘要 / 关键词 / 行动项 / 章节目录)

最实用的几个功能:

  1. 点文字跳音频:发现某段文字识别错了,点过去能听原话
  2. 替换发言人名字:把「说话人 1」改成实际人名,全文一键替换
  3. 批注 / 高亮:重要段落能高亮、加批注
  4. 导出:支持导出 Word / PDF / SRT 字幕 / Markdown

第 5 步:生成会议纪要

点右上角「智能总结」或「会议纪要」按钮,听悟会基于转写文字稿自动生成结构化纪要,通常包含:

  • 会议主题 / 时间 / 参与者
  • 核心议题(按讨论顺序)
  • 关键决策
  • 行动项(谁、做什么、何时完成)
  • 待跟进问题

生成后可以手动编辑,导出 Word 或直接分享链接。

第 6 步:分享或归档

笔记可以:

  • 生成分享链接(设置权限:仅查看 / 可编辑)
  • 导出多种格式(Word / PDF / Markdown / 纯文本)
  • 归档到文件夹便于检索

5 个高级玩法

1. 实时会议同声转写

腾讯会议 / 飞书 / Zoom 开会时,打开通义听悟的「实时会议」功能,能边开会边出文字稿。开会结束立刻拿到完整记录 + AI 纪要。

适合场景:

  • 你是会议记录者,开完就要发纪要
  • 开会全英文,需要同步看中文转写理解
  • 你迟到了,能看前面的”实时回放文字”快速跟上

2. 提问式回顾长会议

对一段几小时的录音,不想从头看转写稿,直接对 AI 提问:

📋 Prompt 模板

基于这段会议转写,请帮我回答:

  1. 我们最终决定了什么(按决策重要性排序)
  2. 谁承诺了什么(具体到「人 + 行动 + 时间」)
  3. 我([你的名字])需要在会议后做哪 3 件事
  4. 哪些问题被提出但没结论
  5. 下次开会之前我应该提前准备什么

请只基于转写内容回答,不要编。引用具体段落时标时间戳。

听悟内置的”对话式提问”功能能直接拿这个 prompt 用,比看完整篇转写省时间。

3. 多语言访谈转写 + 翻译

如果你做记者/研究/采购,需要听一段外语访谈:

  1. 上传时语言选英文/对应语种
  2. 转写完成后导出英文文稿
  3. 把文稿喂给 DeepSeek 或 ChatGPT 做翻译 + 摘要

听悟自带翻译功能,但复杂段落用 LLM 重译效果更准。

4. 把课程视频做成”可搜索学习库”

学习场景:

  1. 上传一节课的视频(B 站 / 网课 / 培训)
  2. 转写完成后导出 Markdown
  3. 存到自己的笔记软件(Obsidian / Notion / 飞书文档)
  4. 之后想找某个概念,直接搜文字

之前 1 小时视频找一个概念要拖进度条 10 分钟;做成文字后 10 秒能搜到。

5. 给老人/孩子做”会议复述”

家里老人开线上会议(社区会议、家长会、医生问诊)听不清?

  1. 让他用手机的通义听悟 App 录全程
  2. 录完上传,让 AI 生成”3 段话版本的纪要”
  3. 你帮他读这 3 段,比从头听 1 小时省事

家长会场景尤其管用——AI 能自动提炼”老师要求孩子做的事”,比家长自己整理快多了。

常见坑 + 解决办法

现象原因解决
转写错字多、人名识别错行业术语没选对 / 噪音大上传时选对应”垂直领域” / 用降噪录音
不区分发言人 / 把多人合并成一个没勾选「区分发言人」上传时勾选 / 重新处理
长录音排队几小时高峰时段服务器忙错峰上传 / 升级付费档跳过排队
方言识别效果差方言模型覆盖有限改用普通话录 / 不行的话人工修正
视频网址转写失败部分平台不支持先下载视频再本地上传
免费时长用完免费档有月度上限等下月重置 / 开通付费档

一个实战案例:把 1 小时会议变 5 分钟纪要

下面是个真实流程。假设你刚开完一个 1 小时的产品评审会:

第 1 步:会前打开通义听悟 App,点「开始录音」,放在桌上录全程。

第 2 步:开完会停止录音,App 自动开始转写(1-2 分钟)。

第 3 步:在 App 里查看转写结果,把”说话人 1/2/3”替换成真实人名。

第 4 步:用下面这个 prompt 让听悟的智能总结输出结构化纪要:

📋 Prompt 模板

基于这段产品评审会的转写,请生成一份会议纪要。

输出格式:

会议基本信息

  • 会议主题:[从转写内容提炼]
  • 时间:[转写文件时间]
  • 参与者:[从发言人识别]

核心议题

按讨论顺序,每个议题:

  • 议题:[一句话]
  • 讨论要点:[2-3 条]
  • 结论:[决定 / 待定 / 否决]

关键决策

[列具体决策,每条带”谁拍的板”]

行动项(Action Items)

| 谁 | 做什么 | 何时完成 | 备注 |

待跟进问题

[本次没结论但要继续推进的问题]

我([你的名字])的下一步

[聚焦你个人需要做的事]

请只基于转写内容,不要编。模糊的地方标”待确认”。

第 5 步:导出 Word 或复制到群里发。整个流程从开完会到发出纪要不超过 10 分钟。

进阶 / 下一步

通义听悟用顺手的关键:养成”重要会议都录”的习惯——录完不一定每次都看转写,但需要回顾时能省掉”翻进度条”的所有时间。把它和 DeepSeek / 豆包组合起来用,是国内做信息密集型工作(产品、运营、研究、媒体)的人当前能拿到的最强免费工具组合之一。