OpenAI语音AI的WebRTC问题：为低延迟牺牲提示准确性，用户被迫接受劣质输入

一句话看懂

WebRTC为实时通话设计的丢包策略，在语音AI场景下反而会主动破坏用户输入的准确性，且浏览器内无法重传。

前Discord工程师Luke Curley在博客中尖锐批评了OpenAI在语音AI中采用的WebRTC协议。他指出，WebRTC的设计初衷是保持低延迟，因此在网络不佳时会主动丢弃音频包。这在传统电话会议中尚可接受，因为对话依赖快速来回，等待音频重传不可行。

但用于语音AI时，问题就大了：用户精心准备的提示词（prompt）可能被WebRTC降质或截断，导致AI收到垃圾输入，输出自然也是垃圾。Curley强调，他宁愿多等200ms换取准确提示，但WebRTC在浏览器内甚至无法重传丢失的音频包——Discord曾尝试过，发现实现层面已硬编码为实时优先。

该评论是对OpenAI官方博客《How OpenAI delivers low-latency voice AI at scale》的回应。OpenAI宣称其语音AI延迟极低，但Curley认为这是以牺牲输入质量为代价的。

这个问题对中文语音AI开发者有直接警示。国内语音助手（如百度小度、阿里天猫精灵、腾讯云小微）以及实时语音翻译工具，大多也依赖WebRTC或类似协议。如果盲目追求低延迟，可能同样陷入“输入降质”陷阱。

更关键的是，中文语音识别本身对音频质量更敏感——声调、多音字、方言都需要完整音频才能准确解析。WebRTC的丢包策略可能导致中文识别率大幅下降。

目前国产方案中，一些团队开始探索替代协议，如基于QUIC的自定义传输，或采用SVC（可伸缩视频编码）分层传输音频。但浏览器端仍受WebRTC限制，除非使用Native SDK。对于面向C端的语音AI产品，这是个尚未被广泛讨论的盲点。

另外，国内监管要求语音数据不得出境，这意味着许多语音AI服务必须自建传输通道，恰好有机会绕过WebRTC的固有限制。

语音AI不能只盯着输出延迟，输入质量同样关键——WebRTC的丢包策略可能让你花大价钱换来垃圾回答。