AWS SageMaker AI 联合 vLLM 推出实时语音转文字服务，支持双向流式推理

一句话看懂

AWS 将 SageMaker AI 的双向流式推理与 vLLM 的 Realtime API 结合，实现音频边传边转写的实时语音转文字服务，延迟大幅低于传统请求-响应模式。

详细发生了什么

2025年11月起，Amazon SageMaker AI 支持双向流式推理（bidirectional streaming），允许客户端和模型容器之间通过单个持久连接同时发送和接收数据。传统推理需要等完整音频上传后才能开始转录，实时性差。vLLM 的 Realtime API 通过 WebSocket 提供原生流式音频转录，支持多种语音模型。

AWS 博客展示了如何将 Mistral AI 的 Voxtral-Mini-4B-Realtime-2602 模型部署到 SageMaker AI 端点，使用 vLLM 容器实现双向流式推理。架构分三层：客户端通过 HTTP/2 连接 SageMaker AI 运行时端点（端口8443），SageMaker AI 自动将 HTTP/2 事件流桥接到容器内的 WebSocket（ws://localhost:8080/invocations-bidirectional-stream），容器内 FastAPI 桥接器再将消息转发到 vLLM 的 Realtime API（ws://localhost:8081/v1/realtime）。

Realtime API 协议流程：客户端连接后收到 session.created，可选 session.update 配置模型参数，然后发送 input_audio_buffer.append 携带 base64 PCM16 音频块，服务端实时返回 transcription.delta 增量文本，最后 transcription.done 返回完整转录。模型在收到足够音频后立即开始转录，无需等待完整音频。

中文圈视角

国内用户用得上吗？ 该方案依赖 AWS SageMaker AI 服务，国内用户需通过 AWS 中国区域（北京/宁夏）或使用全球区域（需网络条件）。对于有 AWS 使用经验的团队，可直接复用现有基础设施。

国产平替对比： 国内类似方案包括阿里云 EAS 的实时推理、百度智能云 BML 的流式部署，以及华为云 ModelArts。但 vLLM 作为开源方案，在模型兼容性和社区支持上更灵活。国产模型如 DeepSeek-R1、Qwen2-Audio 也可通过 vLLM 部署，但需自行适配 Realtime API。

中文场景影响： Voxtral-Mini-4B 主要针对英文优化，中文语音识别效果可能不如国产模型（如 SenseVoice、Paraformer）。建议中文用户优先测试模型对中文的准确率，或考虑使用 Whisper 等支持多语言的模型。

监管合规： 实时语音数据涉及个人信息，使用 AWS 全球区域需注意数据出境合规。国内用户建议选择 AWS 中国区域或国产云平台。

几条值得记住的细节

双向流式推理使用 HTTP/2 端口 8443，客户端需设置 DataType=“UTF8” 以发送 WebSocket 文本帧。
vLLM Realtime API 要求音频编码为 16 kHz 单声道 PCM16，以 base64 格式传输。
容器内 FastAPI 桥接器监听 /invocations-bidirectional-stream，自动转发到 vLLM 的 /v1/realtime。
支持 Gradio 实时麦克风演示，可边说话边看到转录文本。
模型需从 Hugging Face 获取 Voxtral-Mini-4B-Realtime-2602，需先申请访问权限。

一句话总结

AWS 让实时语音转文字部署变得更简单，但中文用户需评估模型对中文的支持，或考虑国产替代方案。