一款能以1/50的成本提供接近顶级闭源模型体验的国产大模型,正在重新定义AI编程市场的游戏规则。
2025年12月23日,智谱AI正式上线并开源新一代旗舰模型GLM-4.7,在多项主流公开基准测试中取得开源模型最佳表现。
该模型面向Coding场景强化了编码能力、长程任务规划与工具协同,显著提升聊天、写作与角色扮演等方面的综合性能。
在全球百万用户参与盲测的权威编码评估系统Code Arena中,GLM-4.7位列开源第一、国产第一,甚至超过GPT-5.2。
GLM-4.7在编程、推理与智能体三个维度实现系统性升级。
在衡量模型“真才实学”的硬核考场上,GLM-4.7表现亮眼。在被誉为“人类最后的考试”的HLE基准测试中,GLM-4.7得分42.8%,较GLM-4.6提升12.4%,这一提升幅度在实际测试中换算为41%的性能增长。
这一成绩不仅超越了GPT-5.1,更逼近Google Gemini 3 Pro的45.8%。
编程能力方面,GLM-4.7在SWE-bench Verified测试中达到73.8%的成绩,较GLM-4.6提升5.8%,创下开源模型新高。
在LiveCodeBench V6测试中获得84.8分的开源SOTA成绩,超越Claude Sonnet 4.5。
多语言编码能力显著增强,SWE-bench Multilingual达到66.7%,较前代提升12.9%。
GLM-4.7在技术架构上实现了重要突破。该模型强化了自GLM-4.5起引入的交错式思考,并进一步引入了保留式思考和轮级思考。
交错式思考让模型能够在工具调用之间、收到工具结果之后继续思考,进行更复杂的分布推理。
保留式思考是GLM-4.7的杀手锏技术。在多轮对话或复杂的代码重构任务中,模型能在一个专用的思维空间内保留之前的推理逻辑。
这意味着它能像人类一样,在第10轮对话时依然记得第1轮的架构设计初衷,极大减少了长程任务中的逻辑崩塌。
轮级思考则提供了按轮控制推理计算的能力,在同一个会话中,每一轮请求都可以独立选择开启或关闭思考。
这使得GLM-4.7具备更灵活的成本与时延控制能力,对轻量轮次可关闭思考追求快速响应,对重任务轮次可开启思考提升正确率。
在实际开发场景测试中,GLM-4.7展现出令人印象深刻的表现。有开发者设计了覆盖代码生成、Bug修复、系统设计、前端开发、工具调用等7大类共10个任务,结果全部通过,达到100%成功率。
在代码生成方面,模型仅用2秒就能生成线程安全的LRU缓存,类型注解完整,可直接运行。
Bug修复能力突出,能秒级定位问题并给出正确修复。在系统设计任务中,针对10万QPS秒杀系统,GLM-4.7能提供详尽方案,架构清晰,足以应付大厂面试。
前端开发能力显著提升,生成的Vue3组件带有渐变、动效、状态色差,审美在线。
在任务规划方面,WebSocket功能实现计划步骤清晰,代码可落地。完成这些任务总耗时仅213秒,Token消耗仅12K,体现了“又快又省”的特点。
GLM-4.7在前端生成与办公创作领域实现了显著的审美升级。该模型针对现代UI框架进行了审美微调,生成的网页和PPT布局更加现代化。
在前端生成质量上,GLM-4.7展现出明显升级:页面结构更干净、组件层级更清晰。
相比GLM-4.6,更像是现代的Web UI,网页元素更加美观。
在PPT与视觉物料生成方面,GLM-4.7标题层级明确、元素尺寸更合理。
官方数据显示,PPT 16:9宽屏适配率从GLM-4.6的52%跃升至91%,基本实现“即开即用”。
在复杂几何结构与空间关系的表达上,GLM-4.7模型能够保持较好的结构一致性与细节稳定性,3D资产的生成质量也有显著提升。
GLM-4.7最引人注目的可能是其极致的性价比策略。根据对比数据,GLM-4.7的输出价格约为每百万Token 2.2美元。
相比之下,GPT-5.2 Pro的价格为每百万Token 168美元,是GLM-4.7的约76倍;GPT-5.2为14美元,是GLM-4.7的约6.3倍;Claude Sonnet 4.5为15美元,是GLM-4.7的约6.8倍;Gemini 3 Pro为12美元,是GLM-4.7的约5.4倍。
这意味着用户可以用1/50的价格,获得接近顶流闭源模型的体验。对于需要大量Token循环的Agent应用来说,这是从“烧钱”到“盈利”的转折点。
在实际套餐价格上,智谱提供了极具竞争力的选择。每月最低20元人民币即可畅享GLM-4.7,相当于Claude Pro套餐3倍用量。
有开发者实测发现,同样的Claude Code CLI体验,GLM-4.7的价格仅为Anthropic Claude API的约1/7。
GLM-4.7在开发生态支持方面表现出色。该模型的API完全兼容Anthropic的生态,开发者可以直接在Claude Code、Cline或Roo Code等流行终端工具中,将昂贵的Claude模型无缝替换为GLM-4.7。
体验几乎一致,但成本大幅降低。
目前,GLM-4.7已通过BigModel.cn提供API,并在z.ai全栈开发模式中上线Skills模块,支持多模态任务的统一规划与协作执行。
对于开发者而言,这意味着无需额外适配即可将现有基于Claude生态的应用迁移到GLM-4.7,享受成本优势而不损失功能完整性。
实测显示,GLM-4.7在Claude Code、TRAE等编程框架中能实现“先思考、再行动”的机制,在复杂任务上有更稳定的表现。
GLM-4.7的发布标志着中国大模型在2025年末完成了一次精准的战术突围。
它没有试图在所有领域击败GPT-5.2 Pro,而是精准地在“编程”和“逻辑推理”这两个开发者最关心的领域,用极致的性价比构建了护城河。
随着智谱已经通过港交所上市聆讯,IPO敲钟仅剩下最后100米,GLM-4.7可能是智谱上市之前最重要的模型更新。
对于全球开发者而言,这不仅是技术选择的增加,更是AI能力获取成本崩塌式下降的开始。
来源:大国Ai导航综合智谱AI官方发布、证券日报、IT之家、量子位等媒体报道