AI 快讯 编译自 aws_ml_blog #AWS#实时语音转文字#vLLM#SageMaker AI#模型部署

AWS SageMaker AI 联合 vLLM 推出实时语音转文字服务,支持双向流式推理

AWS 宣布 SageMaker AI 支持双向流式推理,结合 vLLM 的 Realtime API 可部署实时语音转文字模型。本文详解如何用 Voxtral-Mini-4B 搭建端到端服务,实现音频流输入与转录文本同时输出。对中文用户,该方案可替代自建 WebSocket 基础设施,但需注意模型对中文的支持程度。

编译发布 2026/05/24 原文发布 2026/05/20

一句话看懂

AWS 将 SageMaker AI 的双向流式推理与 vLLM 的 Realtime API 结合,实现音频边传边转写的实时语音转文字服务,延迟大幅低于传统请求-响应模式。

详细发生了什么

2025年11月起,Amazon SageMaker AI 支持双向流式推理(bidirectional streaming),允许客户端和模型容器之间通过单个持久连接同时发送和接收数据。传统推理需要等完整音频上传后才能开始转录,实时性差。vLLM 的 Realtime API 通过 WebSocket 提供原生流式音频转录,支持多种语音模型。

AWS 博客展示了如何将 Mistral AI 的 Voxtral-Mini-4B-Realtime-2602 模型部署到 SageMaker AI 端点,使用 vLLM 容器实现双向流式推理。架构分三层:客户端通过 HTTP/2 连接 SageMaker AI 运行时端点(端口8443),SageMaker AI 自动将 HTTP/2 事件流桥接到容器内的 WebSocket(ws://localhost:8080/invocations-bidirectional-stream),容器内 FastAPI 桥接器再将消息转发到 vLLM 的 Realtime API(ws://localhost:8081/v1/realtime)。

Realtime API 协议流程:客户端连接后收到 session.created,可选 session.update 配置模型参数,然后发送 input_audio_buffer.append 携带 base64 PCM16 音频块,服务端实时返回 transcription.delta 增量文本,最后 transcription.done 返回完整转录。模型在收到足够音频后立即开始转录,无需等待完整音频。

中文圈视角

国内用户用得上吗? 该方案依赖 AWS SageMaker AI 服务,国内用户需通过 AWS 中国区域(北京/宁夏)或使用全球区域(需网络条件)。对于有 AWS 使用经验的团队,可直接复用现有基础设施。

国产平替对比: 国内类似方案包括阿里云 EAS 的实时推理、百度智能云 BML 的流式部署,以及华为云 ModelArts。但 vLLM 作为开源方案,在模型兼容性和社区支持上更灵活。国产模型如 DeepSeek-R1、Qwen2-Audio 也可通过 vLLM 部署,但需自行适配 Realtime API。

中文场景影响: Voxtral-Mini-4B 主要针对英文优化,中文语音识别效果可能不如国产模型(如 SenseVoice、Paraformer)。建议中文用户优先测试模型对中文的准确率,或考虑使用 Whisper 等支持多语言的模型。

监管合规: 实时语音数据涉及个人信息,使用 AWS 全球区域需注意数据出境合规。国内用户建议选择 AWS 中国区域或国产云平台。

几条值得记住的细节

  • 双向流式推理使用 HTTP/2 端口 8443,客户端需设置 DataType=“UTF8” 以发送 WebSocket 文本帧。
  • vLLM Realtime API 要求音频编码为 16 kHz 单声道 PCM16,以 base64 格式传输。
  • 容器内 FastAPI 桥接器监听 /invocations-bidirectional-stream,自动转发到 vLLM 的 /v1/realtime。
  • 支持 Gradio 实时麦克风演示,可边说话边看到转录文本。
  • 模型需从 Hugging Face 获取 Voxtral-Mini-4B-Realtime-2602,需先申请访问权限。

一句话总结

AWS 让实时语音转文字部署变得更简单,但中文用户需评估模型对中文的支持,或考虑国产替代方案。