摘要: 2025年12月23日,正在冲刺“全球大模型第一股”的智谱AI正式开源其新一代旗舰模型GLM-4.7。该模型在编程、推理与智能体能力上实现全面突破,尤其在权威编码评估系统Code Arena中,力压GPT-5.2,位列开源模型与国产模型双料第一。GLM-4.7通过强化长程任务规划与工具协同,显著降低了编程门槛,其API已通过BigModel.cn开放,并集成于z.ai全栈开发平台,标志着AI驱动的高效开发时代已然到来。
今日,中国人工智能领域迎来一项里程碑式发布。智谱AI正式宣布开源其最新旗舰大模型GLM-4.7。这不仅是一次技术的迭代,更被业界视为推动“人人编程”时代加速到来的关键引擎。在AI编程能力日益成为核心生产力的当下,GLM-4.7的亮相,为全球开发者,特别是中国开源社区,注入了一剂强心针。
GLM-4.7最引人瞩目的成绩,在于其编程能力的权威认证。在全球百万开发者参与盲测的顶级编码评估系统Code Arena中,GLM-4.7一举夺得开源模型第一和国产模型第一的桂冠,其表现甚至超过了备受瞩目的GPT-5.2。这一成绩并非偶然,而是其全方位能力提升的集中体现。
新模型面向Coding场景进行了深度强化,特别是在长程任务规划与工具协同方面取得了显著进展。这意味着,面对一个复杂的软件开发需求,GLM-4.7能够像一位经验丰富的项目经理,自主进行任务拆解、步骤规划,并调用合适的工具链逐步执行,最终交付可运行的完整代码。
GLM-4.7的升级并非单点优化,而是在编程、推理与智能体三个核心维度实现了协同突破。
1. 编程:从“生成代码”到“交付任务” GLM-4.7显著提升了在多语言编码和终端智能体中的效果。它深度适配了包括Claude Code、TRAE在内的主流编程框架,并实现了“先思考、再行动”的机制,使得处理复杂任务时的表现更加稳定可靠。在实际测试中,面对100个覆盖前端、后端等领域的真实编程任务,GLM-4.7在代码的稳定性和最终可交付性上,相比前代模型有了肉眼可见的提升。开发者反馈,他们可以更自然地以“任务描述”为核心进行开发,模型能理解需求并形成从设计到实现的端到端闭环。
2. 推理:逻辑能力的质的飞跃 在被誉为“人类最后的考试”的HLE基准测试中,GLM-4.7取得了42.8%的成绩,相比GLM-4.6实现了41%的巨大提升,并超越了GPT-5.1。强大的推理能力是复杂编程和问题解决的基石。GLM-4.7引入了“保留式思考”与“轮级思考”等新模式,让模型在长对话中能记住关键推理步骤以节省成本,也能根据任务复杂度动态调整“思考深度”,在响应速度与准确性间取得最佳平衡。
3. 智能体:工具调用与多模态协同的新高度 在衡量网页交互能力的BrowseComp评测和工具调用能力的τ²-Bench中,GLM-4.7分别获得67.5分和87.4分的开源SOTA成绩,后者已超过Claude Sonnet 4.5。更重要的是,在z.ai全栈开发模式中,GLM-4.7集成了全新的Skills模块,将智谱的多模态能力(如图像识别GLM-4.6V、语音合成GLM-TTS等)统一调度。现在,开发者只需一句简单的描述,GLM-4.7就能协同这些多模态技能,将创意快速转化为一个功能丰富的应用。
技术的价值在于应用。GLM-4.7开源的同时,也已完成全面的产品化部署。
来自全球开发社区的早期反馈也印证了其价值。TRAE表示GLM-4.6已是其用户的主流选择之一,GLM-4.7现已上线TRAE中国版。YouWare则指出,GLM-4.7在前端美学、任务完成度和推理效率上均有大幅提升。
从在权威评测中超越国际顶尖模型,到对长程任务规划和多模态协同的深度支持,GLM-4.7的开源释放出一个清晰信号:AI辅助编程正从“玩具”变为“强力工具”,且其主导权正在向开源社区和国产力量倾斜。它降低的不仅是代码编写的门槛,更是将创意快速产品化的综合门槛。当一句自然语言描述就能驱动一整套多模态技能完成应用开发时,“人人都是开发者”的愿景,确实比以往任何时候都更接近现实。
文章来源:综合自澎湃新闻《智谱开源新一代旗舰模型GLM-4.7》、新京报《智谱上线并开源GLM-4.7》及智谱AI官方发布信息。