【摘要】 5月8日,OpenAI重磅发布三款全新实时语音模型——GPT-Realtime-2、GPT-Realtime-Translate与GPT-Realtime-Whisper。这不仅是简单的语音识别或合成升级,更是AI语音交互从“轮转式问答”向“边听边想、边说边干”的质变。其中,GPT-Realtime-2首次引入GPT-5级推理能力,支持128K超长上下文与可调推理强度,让语音助手能处理打断、调用工具并执行复杂任务;而翻译与转写模型则以极低延迟实现70+语种同传与实时流式转录。OpenAI正试图通过这套“语音全家桶”,将AI彻底推进到能听、会想、敢办事的智能体时代。
说实话,以前跟语音助手打交道,总有种“对牛弹琴”的憋屈感。你一口气交代了三个需求,它要么漏掉一半,要么稍微打断它就死机。造成这种“傻白甜”体验的根本原因,是过去的语音模型只会在“听”和“说”之间机械转换,根本不会“想”。
但今天,OpenAI放了个大招,直接把语音AI的智商天花板捅破了。
5月8日,OpenAI通过Realtime API一口气甩出三款全新音频模型,目标极其明确:让AI不仅能像人一样说话,更要像人一样在说话时进行推理、翻译和转录。这意味着,语音交互终于跨越了“语音转文字->文字大模型思考->文字转语音”的旧时代,进入了“边听边想边干活”的全双工实时智能体阶段。
在三款模型中,GPT-Realtime-2绝对是最硬核的那颗引擎。它是OpenAI首款具备GPT-5级推理能力的语音模型,专门为实时语音Agent(智能体)场景打造。
如果说以前的语音助手是死记硬背的客服,那GPT-Realtime-2就是带了大脑的私人助理。它解决了语音交互中最痛的几个痒点:
这可不是纸上谈兵。美国房产平台Zillow用它做了一波硬核测试,在最难的对抗性测试中,经过prompt优化后,电话任务成功率直接从前代的69%飙升到了95%,甚至在应对Fair Housing(美国住房反歧视合规)这种红线要求时也稳如老狗。旅游巨头Priceline也在用它测试改签、订房等长链条操作,试图把“问答”彻底推进到“办事”。
在Big Bench Audio和Audio MultiChallenge两项硬核评测中,GPT-Realtime-2的准确率和指令遵循率也分别比上一代1.5版本提升了15.2%和13.8%。从“能说”到“会说”,这或许就是代际差距。
光有脑子还不够,全球化场景和办公效率同样需要基建级的打磨。另外两款模型正是为此而生。
GPT-Realtime-Translate主打的是同声传译级体验。它支持70多种输入语言实时转化为13种输出语言。传统的语音翻译总得等人家说完一句才能翻,体验极其割裂。而这个模型能近乎“连续口译”般跟上说话人的节奏,无需停顿等待。德国电信和视频平台Vimeo已经是首批吃螃蟹的人,Vimeo甚至用它让创作者在视频上线的瞬间,就能与全球观众进行跨语言无障碍沟通。
GPT-Realtime-Whisper则是低延迟流式转录的利器。别人话音刚落,字幕、会议纪要就已经生成完毕,甚至能自动触发后续的工作流更新。对开会摸鱼或者需要高频整理录音的打工人来说,这玩意儿就是生产力本身。
把这三款模型摆在一起,OpenAI的商业路线图已经很清晰了:把实时音频拆成推理、翻译、转录三个明确入口,用差异化的定价通吃整个语音AI市场。
当然,语音AI的风险比文字高得多,毕竟声音太容易伪造了。OpenAI这次也把安全护栏拉满了:内置了实时监控的分类器,一旦检测到有害内容或违规交互可以直接掐断会话;开发者也能通过Agents SDK加自定义安全策略。更重要的是,OpenAI明确要求:除非情景明显,否则开发者必须告知用户“正在与AI对话”,并且全面支持欧盟数据驻留。
OpenAI CEO奥特曼在X上感慨,人们越来越习惯用语音跟AI交互了,尤其是需要一次性倾注大量背景信息时;有趣的是,年轻人似乎更爱直接开口说,而中老年人还是偏好打字。这种习惯的变迁,或许正是OpenAI重仓语音交互的底气所在。
从对话走向执行,从单向问答走向实时推理,OpenAI这次的更新不仅仅是模型版本的迭代,更是在宣告:语音不再只是个输入法,它正在成为人与数字世界之间最自然的操作系统。 下一个接力语音推理能力的会是谁?这场战役才刚刚开始。
文章来源: