摘要: 智谱AI于2025年12月23日正式开源其新一代旗舰大模型GLM-4.7。该版本在编程、推理与智能体三大维度实现关键突破,其编码能力在多项国际权威基准测试中位列开源模型第一,并超越GPT-5.2等国际顶级闭源模型,标志着国产大模型已具备交付“生产级代码”的成熟能力,正推动“人人编程”时代的到来。
2025年12月23日,国内人工智能领域的明星公司智谱AI,在向港交所递交招股书冲刺“全球大模型第一股”之际,重磅开源了其新一代旗舰模型GLM-4.7。这不仅是智谱技术迭代的一次常规发布,更被业界视为国产大模型在“生产级”应用能力上的一次里程碑式跨越。新模型凭借在编程、长程任务规划与工具协同上的显著强化,正将“AI辅助编程”从概念演示推向稳定可靠的日常开发实践。
GLM-4.7的核心升级聚焦于“生产级代码”的生成能力。与以往版本相比,它不再满足于生成片段化的代码,而是致力于提供端到端的完整解决方案。
1. 编程能力跻身世界第一梯队 根据官方发布的数据,GLM-4.7在全球百万开发者参与的权威编码盲测平台Code Arena中,取得了“开源第一、国产第一”的成绩,其表现甚至超过了OpenAI的GPT-5.2。在更具实践意义的基准测试中,其表现同样亮眼:在SWE-bench-Verified(软件工程基准测试)中获得开源最优成绩,较上一代GLM-4.6提升5.8%;在LiveCodeBench V6评测中取得84.9分,刷新开源纪录并超越了Claude Sonnet 4.5。这意味着,在解决真实世界编程问题、代码修复和多语言编程等核心任务上,GLM-4.7已达到国际顶尖水平。
2. 引入“先思考,再行动”的智能体机制 模型能力提升的背后是思维方式的进化。GLM-4.7在Claude Code、TRAE等多个主流编程框架中,实现了“先思考、再行动”的机制。这并非简单的功能叠加,而是通过交错式思考、保留式思考与轮级思考三种模式的引入,让模型在面对复杂任务时能像经验丰富的工程师一样,先规划再执行,从而大幅提升了任务完成的稳定性和代码质量。开发者可以按需控制推理开销,在简单任务上追求速度,在复杂任务上保证精度。
3. 工具调用与综合性能全面提升 一个优秀的编程助手,不仅要会写代码,还要懂得调用外部工具与环境交互。GLM-4.7在工具调用能力上取得了长足进步,在τ²-Bench交互式工具调用评测中以87.4分实现开源最佳,同样超越了Claude Sonnet 4.5。此外,其在数学推理(HLE基准测试成绩较前代提升41%)、前端审美(PPT 16:9适配率从52%跃升至91%)、对话与创作等方面的综合能力也得到显著增强,使其成为一个能力更均衡的通用智能体。
技术的价值在于落地。智谱AI此次不仅开源了模型权重,更同步升级了完整的服务生态,确保开发者能第一时间体验到“生产级”能力。
模型已通过BigModel.cn平台提供API服务,并集成到z.ai全栈开发模式的全新Skills模块中,支持对多模态任务进行统一规划与协作执行。这意味着开发者可以便捷地将GLM-4.7的顶尖编码能力接入自己的开发流水线或产品中。
特别针对编程场景优化的GLM Coding Plan也已全面升级至GLM-4.7。该计划在Claude Code环境中全面支持思考模式,并对编程工具中的关键能力进行了定向优化,确保了工具调用的高成功率和可靠链路。来自开发者社区的早期反馈证实了其提升:有技术平台反馈,GLM-4.7在前端设计美学、复杂功能完成度、工具并发和指令遵循等方面均有明显提升,同时推理速度更快、token效率更高,任务的端到端完成度和稳定性大幅增强。
GLM-4.7的发布,其意义远超一次技术更新。首先,它正在改变开发者与代码的关系。随着模型在复杂任务拆解、技术栈整合和一次性生成可运行代码方面的能力增强,开发者得以更自然地将重心从逐行编写代码,转向以“任务交付”为核心的需求理解和架构设计上,实现开发流程的范式变革。
其次,这展现了国产AI基础设施的成熟。报道指出,GLM-4.7及其前代模型均依托北京市公共算力平台完成训练研发。该平台不仅支撑了智谱AI,也为国内其他多家顶尖机构提供了算力保障。这标志着从底层算力、框架到上层模型和应用的中国AI全栈体系正在形成闭环,为未来的持续创新奠定了坚实基础。
综上所述,GLM-4.7的开源不仅是智谱AI交出的一份出色技术答卷,更是国产大模型在关键应用赛道上发起的一次强力冲锋。它用接近人类顶尖工程师的代码能力证明,AI赋能软件开发的“生产级”时代已经触手可及。
文章来源:综合自澎湃新闻《智谱开源新一代旗舰模型GLM-4.7》、新京报《智谱上线并开源GLM-4.7》、智谱AI官方发布及社区信息。