聊天窗口内的声波图标轻轻一点,语音与文本的界限被打破,AI正从工具变成伙伴。
2025年11月26日,OpenAI宣布对ChatGPT语音功能进行重大升级,将语音对话直接嵌入主聊天界面,用户无需切换模式即可进行语音交流。这一更新使语音输入与传统文本聊天彻底融合,打造更自然的交互体验。
新功能允许用户边说话边实时查看文字转录、相关图片或地图信息,历史消息可随时回溯。OpenAI表示,此举是打造“更自然交互”的关键一步,标志着AI辅助正从“对话窗口”走向“随时响应”的新阶段。
本次更新最直观的变化是语音模式与主聊天的界面整合。用户现在只需点击输入框旁边的“声波”图标,就能直接在当前聊天窗口开启语音对话,彻底告别了以往需要切换到独立语音模式的繁琐流程。
OpenAI将这一设计称为“交互零打断”,平均延迟控制在300毫秒以内。在官方示例中,用户提问附近烘焙店推荐时,ChatGPT不仅会语音回答,还会同步显示店铺位置地图和糕点照片。
这种多模态同屏体验让用户能够一边说话,一边观看答案实时出现,同时回顾之前的交流内容。技术层面,新功能由GPT-5.1-large模型和多模态视觉编码器驱动,支持高达100k tokens的上下文窗口。
Behind the scenes, this update is powered by significant technical improvements. The voice functionality incorporates 端侧VAD(语音活动检测) 和云端自动语音识别技术,转录准确率达到96%,支持12种语言。
值得注意的是,ChatGPT的语音和文本模式仍使用不同模型。文本聊天利用最新的GPT-5.1模型,而语音聊天则基于GPT-4o模型。这种差异意味着用户在两种模式下可能获得略有不同的体验。
付费用户在使用语音模式时几乎没有任何限制,并可优先体验更高级的语音模型。免费用户则将默认使用较为基础的GPT-4o mini模型,且每日使用次数受限。
新语音功能的亮点在于语音与视觉内容的实时同步。当用户进行语音提问时,界面会同时显示相关视觉结果,如路线地图、数据图表或商品图片等。
例如,当用户询问天气情况时,ChatGPT不仅会语音回答,还会显示当地天气预报图;询问路线时,会同步展示地图导航信息。这种多模态交互使得信息获取更加直观高效。
OpenAI将这一更新视为“ChatGPT6.0体验”的第一步,后续将加入购物比价、群聊语音等场景,持续拓展多模态边界。
对于习惯传统操作方式的用户,OpenAI保留了“后悔药开关”。用户可以在设置中找到“语音”选项,切换回“沉浸式音频模式”或“独立语音模式”,继续使用熟悉的分离界面。
这种灵活设置考虑到了不同用户的偏好差异。一些用户可能更喜欢纯粹的音频交互,而另一些用户则倾向于体验全新的集成模式。
硬件适配方面,新功能已针对iPhone15系列与Pixel9进行优化,在低功耗模式下对设备续航的影响小于4%。
此次更新已面向所有移动端与网页用户全面推送。Plus、Pro和Team用户可立即在全平台使用新功能,免费版将分批开放。
用户只需更新App或刷新网页即可体验新功能。OpenAI还计划在2026年第一季度向开发者开放RealtimeMultimodal接口,支持在第三方App内调用同款语音+视觉能力。
这为未来更多应用集成ChatGPT的语音功能奠定了基础,可能彻底改变我们与移动应用、智能家居和车载系统的交互方式。
此次语音功能升级将ChatGPT向真正意义上的智能伙伴又推进了一步。当AI能够看、听、说,并且以更自然的方式与人类互动,技术正悄然重塑人机交互的边界。
随着语音、图像、动作能力的不断整合,ChatGPT不再仅仅是回答问题的工具,而是逐步成为能够随时响应、多模态交互的智能伙伴。
这场变革才刚刚开始。
本文综合参考OpenAI官方公告及多家科技媒体报导,主要信息来自AIPress.com.cn、聚大模型前言、ChinaZ等权威平台,新闻发布时间与核心事实经过多方交叉验证。