AI学会“边听边想”!OpenAI连发3款实时语音大模型,GPT-5级推理加持,语音交互告别“傻白甜”

Ai资讯5天前发布 大国Ai
161 0 0

【摘要】 5月8日,OpenAI重磅发布三款全新实时语音模型——GPT-Realtime-2、GPT-Realtime-Translate与GPT-Realtime-Whisper。这不仅是简单的语音识别或合成升级,更是AI语音交互从“轮转式问答”向“边听边想、边说边干”的质变。其中,GPT-Realtime-2首次引入GPT-5级推理能力,支持128K超长上下文与可调推理强度,让语音助手能处理打断、调用工具并执行复杂任务;而翻译与转写模型则以极低延迟实现70+语种同传与实时流式转录。OpenAI正试图通过这套“语音全家桶”,将AI彻底推进到能听、会想、敢办事的智能体时代。


说实话,以前跟语音助手打交道,总有种“对牛弹琴”的憋屈感。你一口气交代了三个需求,它要么漏掉一半,要么稍微打断它就死机。造成这种“傻白甜”体验的根本原因,是过去的语音模型只会在“听”和“说”之间机械转换,根本不会“想”。

但今天,OpenAI放了个大招,直接把语音AI的智商天花板捅破了。

5月8日,OpenAI通过Realtime API一口气甩出三款全新音频模型,目标极其明确:让AI不仅能像人一样说话,更要像人一样在说话时进行推理、翻译和转录。这意味着,语音交互终于跨越了“语音转文字->文字大模型思考->文字转语音”的旧时代,进入了“边听边想边干活”的全双工实时智能体阶段。

GPT-Realtime-2:长出“脑子”的语音助手,能打断、会填词、懂察言观色

在三款模型中,GPT-Realtime-2绝对是最硬核的那颗引擎。它是OpenAI首款具备GPT-5级推理能力的语音模型,专门为实时语音Agent(智能体)场景打造。

如果说以前的语音助手是死记硬背的客服,那GPT-Realtime-2就是带了大脑的私人助理。它解决了语音交互中最痛的几个痒点:

  1. 会打圆场的“前导语”机制:你在思考怎么回话时会说“呃”、“让我想想”,GPT-Realtime-2也会。在调用工具或处理复杂请求时,它会主动抛出“稍等,我正在帮您查一下”之类的填充语,而不是让你在电话那头对着死寂的沉默干等。
  2. 抗打断与超强纠错:你完全可以随时插话纠正它,它不仅不会崩溃,还能顺着你的新指令无缝调整回应,这在实际客服场景中简直是刚需。
  3. 并行干活,透明操作:它可以同时调用好几个外部工具(比如一边查日历一边订机票),还会用语音跟你汇报进度:“正在检查您的日程安排……”
  4. 128K超长记忆:上下文窗口直接从32K飙到128K。打个比方,你可以花十分钟跟它吐槽你买房的各种苛刻条件,它绝不会聊到第五分钟就把你预算忘了,完美适配长链路的业务场景。
  5. 可调节的“脑力分配”:这是个精妙的设计。开发者可以在minimal到xhigh五个级别中调节推理强度。简单寒暄时用低推理,秒回绝不卡顿;遇到复杂的排障或算账需求,拉满推理等级,用计算换深度。

这可不是纸上谈兵。美国房产平台Zillow用它做了一波硬核测试,在最难的对抗性测试中,经过prompt优化后,电话任务成功率直接从前代的69%飙升到了95%,甚至在应对Fair Housing(美国住房反歧视合规)这种红线要求时也稳如老狗。旅游巨头Priceline也在用它测试改签、订房等长链条操作,试图把“问答”彻底推进到“办事”。

AI学会“边听边想”!OpenAI连发3款实时语音大模型,GPT-5级推理加持,语音交互告别“傻白甜”

在Big Bench Audio和Audio MultiChallenge两项硬核评测中,GPT-Realtime-2的准确率和指令遵循率也分别比上一代1.5版本提升了15.2%和13.8%。从“能说”到“会说”,这或许就是代际差距。

GPT-Realtime-Translate & Whisper:打破巴别塔,声音秒变文字流

光有脑子还不够,全球化场景和办公效率同样需要基建级的打磨。另外两款模型正是为此而生。

GPT-Realtime-Translate主打的是同声传译级体验。它支持70多种输入语言实时转化为13种输出语言。传统的语音翻译总得等人家说完一句才能翻,体验极其割裂。而这个模型能近乎“连续口译”般跟上说话人的节奏,无需停顿等待。德国电信和视频平台Vimeo已经是首批吃螃蟹的人,Vimeo甚至用它让创作者在视频上线的瞬间,就能与全球观众进行跨语言无障碍沟通。

GPT-Realtime-Whisper则是低延迟流式转录的利器。别人话音刚落,字幕、会议纪要就已经生成完毕,甚至能自动触发后续的工作流更新。对开会摸鱼或者需要高频整理录音的打工人来说,这玩意儿就是生产力本身。

商业化野心与安全护栏:语音AI市场,OpenAI要通吃

把这三款模型摆在一起,OpenAI的商业路线图已经很清晰了:把实时音频拆成推理、翻译、转录三个明确入口,用差异化的定价通吃整个语音AI市场

  • GPT-Realtime-2:按Token计费,音频输入32美元/百万Token,输出64美元/百万Token(缓存输入仅0.4美元),主打高净值复杂场景。
  • GPT-Realtime-Translate:按时长计费,0.034美元/分钟。
  • GPT-Realtime-Whisper:按时长计费,0.017美元/分钟,以极低的门槛收割高频基础转写需求。

当然,语音AI的风险比文字高得多,毕竟声音太容易伪造了。OpenAI这次也把安全护栏拉满了:内置了实时监控的分类器,一旦检测到有害内容或违规交互可以直接掐断会话;开发者也能通过Agents SDK加自定义安全策略。更重要的是,OpenAI明确要求:除非情景明显,否则开发者必须告知用户“正在与AI对话”,并且全面支持欧盟数据驻留。

OpenAI CEO奥特曼在X上感慨,人们越来越习惯用语音跟AI交互了,尤其是需要一次性倾注大量背景信息时;有趣的是,年轻人似乎更爱直接开口说,而中老年人还是偏好打字。这种习惯的变迁,或许正是OpenAI重仓语音交互的底气所在。

从对话走向执行,从单向问答走向实时推理,OpenAI这次的更新不仅仅是模型版本的迭代,更是在宣告:语音不再只是个输入法,它正在成为人与数字世界之间最自然的操作系统。 下一个接力语音推理能力的会是谁?这场战役才刚刚开始。


文章来源:

  • 中华网《OpenAI发布三款实时语音模型 提升交互自然度与执行能力》
  • ZAKER新闻《AI有嘴了,OpenAI连发三语音模型》
  • 环球网科技《人声接近真人,OpenAI一口气更新三款超强语音AI》
  • 网易订阅《OpenAI让模型“张嘴”,你要注意了:辱骂AI,也很贵》
  • 新浪科技《OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力》
  • 腾讯新闻《OpenAI发布新一代实时语音模型,能够像人说话一样进行推理、翻译和转录》
    更多前沿AI工具与资讯,欢迎访问大国Ai导航(daguoai.com)探索。
© 版权声明

相关文章

暂无评论

none
暂无评论...