OmniVoice Studio 开源本地语音克隆工具发布，无需云服务即可实现视频配音与实时听写

一句话看懂

OmniVoice Studio 是一款完全本地运行的开源语音工具，支持语音克隆、视频配音、实时听写和说话人分离，无需联网或付费，可作为 ElevenLabs 的免费替代方案。

详细发生了什么

ElevenLabs 的语音服务每月收费 5 到 330 美元，所有音频文件都需经过云端处理。OmniVoice Studio 则是一款开源桌面应用，能在本地完成同样的任务，包括语音克隆、视频配音、实时听写、人声分离和说话人分离。

语音克隆仅需 3 秒音频样本，采用零样本学习（zero-shot learning），基于扩散 TTS 模型，默认引擎 OmniVoice 支持 600 多种语言。视频配音功能可接受 YouTube 链接或本地视频，通过 WhisperX 转录、翻译、合成新音频，最终输出 MP4 文件，全程本地运行。实时听写组件是系统级浮动窗口，macOS 下通过 ⌘+⇧+Space 快捷键激活，支持 WebSocket 流式转录并自动粘贴到当前应用。

项目架构为 React 前端 + FastAPI 后端，后端暴露 97 个 API 端点，使用 SSE 流式更新，数据存储在 SQLite 中。核心 ML 库包括 WhisperX（语音识别，99 种语言）、Demucs（音源分离）、Pyannote（说话人分离）和 AudioSeal（神经水印）。桌面封装使用 Tauri（Rust 框架），支持 CUDA、MPS 和 ROCm 加速。

内置 6 种 TTS 引擎：OmniVoice（默认，600+ 语言）、CosyVoice 3（9 语言+18 方言）、MLX-Audio（仅 Apple Silicon）、VoxCPM2（30 语言）、MOSS-TTS-Nano（20 语言，CPU 实时）、KittenTTS（仅英文，CPU）。添加自定义引擎约需 50 行 Python 代码。

中文圈视角

对中文用户来说，OmniVoice Studio 的最大价值在于本地运行和多语言支持。国内用户无需担心数据出境问题，所有处理在本地完成，无需 API 密钥或云服务，也无需梯子。它支持 646 种语言的 TTS，包括中文，以及 99 种语言的转录，覆盖绝大多数中文场景。

与国内同类产品对比：

语音克隆：国内如百度、阿里、腾讯都有云端语音克隆 API，但需付费且数据上传云端。OmniVoice Studio 免费且本地运行，适合隐私敏感用户。
视频配音：类似剪映的“文本朗读”功能，但 OmniVoice Studio 支持更多语言和说话人分离，适合多语言内容创作。
实时听写：国内有讯飞输入法、搜狗输入法的语音输入，但 OmniVoice Studio 是系统级浮动窗口，可在任何应用中直接听写，且完全离线。

需要注意的是，默认 OmniVoice 引擎的中文效果可能不如国内专门优化的模型（如 CosyVoice 3 支持中文），但用户可切换引擎。此外，Pyannote 说话人分离需要 Hugging Face token，国内用户可能需要配置代理。

几条值得记住的细节

语音克隆仅需 3 秒音频样本，采用零样本学习，无需预训练。
支持 646 种语言的 TTS 和 99 种语言的转录，远超 ElevenLabs 的 32 种语言。
视频配音支持批量处理，最多可同时处理 50 个视频，每个任务有独立进度条。
内置 MCP 服务器，可集成 Claude、Cursor 等 MCP 客户端，扩展自动化工作流。
最低配置要求 8 GB 内存，GPU 可选（8 GB VRAM 以下自动将 TTS 卸载到 CPU）。

一句话总结

OmniVoice Studio 让语音克隆和视频配音完全本地化、免费化，中文用户无需担心隐私或费用，即可获得媲美 ElevenLabs 的功能。