GPT-5.3-Codex正式发布:OpenAI推出首个自我训练的“编程代理”

Ai资讯19小时前发布 大国Ai
34 0 0

它参与了自己的诞生,在多项基准测试中刷新纪录,并正从一个代码编写工具演变为能接管电脑上几乎所有专业工作的通用协作者。

2026年2月6日,人工智能领域迎来双重爆点。Anthropic率先升级了其旗舰模型Claude Opus 4.6,紧接着,OpenAI扔出了被视为“迄今最强编程代理”的GPT-5.3-Codex

此次发布不仅标志着企业级软件开发“AI编程大战”进入白热化,更因该模型“自我训练”的颠覆性特质而备受瞩目。

GPT-5.3-Codex正式发布:OpenAI推出首个自我训练的“编程代理”

01 自我训练与性能突破

GPT-5.3-Codex最引人注目的特点是其参与自身创造过程的能力。OpenAI官方指出,这是其首个在自身创建过程中发挥关键作用的模型。

Codex团队使用早期版本进行训练调试、部署管理和结果诊断,这被视为AI发展的重要里程碑。

在性能上,新模型实现了全面“屠榜”。在真实的软件工程评测SWE-Bench Pro上取得了57%的成绩。

在衡量终端操作能力的Terminal-Bench 2.0上获得77.3%的得分,较上一代提升13个百分点,并大幅超越同期发布的Anthropic Opus 4.6的65.4%。

效率提升同样显著。新模型在完成同等任务时所需的token数量不到上一代的一半,同时单个token的推理速度提升超过25%。

02 使用方法与获取途径

对于开发者而言,GPT-5.3-Codex提供了灵活的使用方式。用户可以通过交互式模式使用,直接输入 codex 进入交互界面后下达任务,例如修复某个文件的bug。

也可以采用直接命令模式,无需进入交互界面,一次性执行如解释代码库等任务。

模型访问方面,用户可通过官方API端点进行调用。根据相关信息,GPT系列模型通常通过统一的端点提供服务,并配有相应的AI SDK包以便集成。

目前,GPT-5.3-Codex已向所有ChatGPT付费用户开放,覆盖应用、CLI、IDE扩展和网页端等所有Codex可用的平台,API访问正在安全推进中。

03 核心功能与工具链

GPT-5.3-Codex的定位已超越传统的代码生成工具。OpenAI的目标是将其从一个仅能编写和审查代码的代理,进化为几乎可以完成开发者和专业人士在电脑上所有任务的通用代理。

这包括调试、部署、撰写文档、用户研究、数据分析等,目标直指更广泛的企业生产力软件市场。

其代码审查能力经过专门训练,能有效发现代码中的关键缺陷。在评估中,它的错误评论率仅为4.4%,而高影响力评论占比则达到了52.4%。

工具链也全面更新。Codex CLI的工作流被重构,现在支持在命令行中附加图片,还带有待办事项列表、联网搜索等工具。

同时,Codex IDE扩展可将代理带入VS Code、Cursor等编辑器中,无缝预览本地更改,并利用打开的文件等上下文信息,让提示更简短,响应更快。

04 适用场景与模型选择

为满足不同场景的需求,GPT-5.3-Codex及GPT-5系列提供了多种模型选项,用户可根据任务复杂度和预算进行选择。

对于复杂编程任务与算法优化,推荐使用 sonnet-gpt-5-codex-high 模型,它推理能力最强,适用于高难度场景。

日常编程开发与代码审查 可选择 sonnet-gpt-5-codex-medium 模型,在能力与速度间取得平衡。

若仅需快速编程辅助或代码片段生成sonnet-gpt-5-codex-low 模型能以更快的响应速度完成任务。

需要指出的是,尽管AI编程工具进步飞速,但在面对现实的复杂软件开发时仍存在局限。例如,普林斯顿大学的SWE-bench测试显示,当前最强的AI最多也只能完成约四分之三的真实世界软件工程任务。


05 结语

GPT-5.3-Codex的发布,标志着AI从“编码助手”向“通用计算机协作者”的范式转变。其自我训练的属性、性能的跨越式提升以及向广义生产力工具的扩展,不仅重新定义了编程辅助工具的边界,也预示着AI融入专业工作流的深度将达到新的水平。

然而,正如业界观察所提示,AI在编程中的“失误”往往难以预料,人类开发者对复杂项目的全局掌控和创造性解决问题的能力,在可预见的未来仍不可替代。人机协作,而非取代,仍是这场变革的主旋律。

来源:综合自AGI Hunt公众号、环球网、中新网、STCN等报道。

© 版权声明

相关文章

暂无评论

none
暂无评论...