AI 快讯 编译自 marktechpost #开源工具#语音克隆#本地部署

OmniVoice Studio 开源本地语音克隆工具发布,无需云服务即可实现视频配音与实时听写

OmniVoice Studio 是一款开源桌面应用,支持语音克隆、视频配音、实时听写和说话人分离,所有处理均在本地完成,无需 API 密钥或订阅。它内置 6 种 TTS 引擎,支持 646 种语言,并提供 MCP 服务器接口,可集成 Claude、Cursor 等工具。本文详细介绍其功能、架构及对中文用户的实际意义。

编译发布 2026/05/26 原文发布 2026/05/26

一句话看懂

OmniVoice Studio 是一款完全本地运行的开源语音工具,支持语音克隆、视频配音、实时听写和说话人分离,无需联网或付费,可作为 ElevenLabs 的免费替代方案。

详细发生了什么

ElevenLabs 的语音服务每月收费 5 到 330 美元,所有音频文件都需经过云端处理。OmniVoice Studio 则是一款开源桌面应用,能在本地完成同样的任务,包括语音克隆、视频配音、实时听写、人声分离和说话人分离。

语音克隆仅需 3 秒音频样本,采用零样本学习(zero-shot learning),基于扩散 TTS 模型,默认引擎 OmniVoice 支持 600 多种语言。视频配音功能可接受 YouTube 链接或本地视频,通过 WhisperX 转录、翻译、合成新音频,最终输出 MP4 文件,全程本地运行。实时听写组件是系统级浮动窗口,macOS 下通过 ⌘+⇧+Space 快捷键激活,支持 WebSocket 流式转录并自动粘贴到当前应用。

项目架构为 React 前端 + FastAPI 后端,后端暴露 97 个 API 端点,使用 SSE 流式更新,数据存储在 SQLite 中。核心 ML 库包括 WhisperX(语音识别,99 种语言)、Demucs(音源分离)、Pyannote(说话人分离)和 AudioSeal(神经水印)。桌面封装使用 Tauri(Rust 框架),支持 CUDA、MPS 和 ROCm 加速。

内置 6 种 TTS 引擎:OmniVoice(默认,600+ 语言)、CosyVoice 3(9 语言+18 方言)、MLX-Audio(仅 Apple Silicon)、VoxCPM2(30 语言)、MOSS-TTS-Nano(20 语言,CPU 实时)、KittenTTS(仅英文,CPU)。添加自定义引擎约需 50 行 Python 代码。

中文圈视角

对中文用户来说,OmniVoice Studio 的最大价值在于本地运行多语言支持。国内用户无需担心数据出境问题,所有处理在本地完成,无需 API 密钥或云服务,也无需梯子。它支持 646 种语言的 TTS,包括中文,以及 99 种语言的转录,覆盖绝大多数中文场景。

与国内同类产品对比:

  • 语音克隆:国内如百度、阿里、腾讯都有云端语音克隆 API,但需付费且数据上传云端。OmniVoice Studio 免费且本地运行,适合隐私敏感用户。
  • 视频配音:类似剪映的“文本朗读”功能,但 OmniVoice Studio 支持更多语言和说话人分离,适合多语言内容创作。
  • 实时听写:国内有讯飞输入法、搜狗输入法的语音输入,但 OmniVoice Studio 是系统级浮动窗口,可在任何应用中直接听写,且完全离线。

需要注意的是,默认 OmniVoice 引擎的中文效果可能不如国内专门优化的模型(如 CosyVoice 3 支持中文),但用户可切换引擎。此外,Pyannote 说话人分离需要 Hugging Face token,国内用户可能需要配置代理。

几条值得记住的细节

  • 语音克隆仅需 3 秒音频样本,采用零样本学习,无需预训练。
  • 支持 646 种语言的 TTS 和 99 种语言的转录,远超 ElevenLabs 的 32 种语言。
  • 视频配音支持批量处理,最多可同时处理 50 个视频,每个任务有独立进度条。
  • 内置 MCP 服务器,可集成 Claude、Cursor 等 MCP 客户端,扩展自动化工作流。
  • 最低配置要求 8 GB 内存,GPU 可选(8 GB VRAM 以下自动将 TTS 卸载到 CPU)。

一句话总结

OmniVoice Studio 让语音克隆和视频配音完全本地化、免费化,中文用户无需担心隐私或费用,即可获得媲美 ElevenLabs 的功能。