摘要:智谱AI于2025年12月23日正式开源新一代旗舰模型GLM-4.7,该模型在编程、推理与智能体能力上实现显著突破。根据开发者实测,在Claude Code等主流编程工具中,GLM-4.7在中等及以下难度任务上已能实现“无感平替”Claude Code,用户体验差异极小,而成本仅为后者的几分之一。在LMARENA的WebDev盲测榜中,GLM-4.7位列全球第六,超过GPT-5.2,成为编程能力最强的开源模型之一。
2025年12月23日,智谱AI在向港交所递交招股书的同时,上线并开源了其新一代旗舰模型GLM-4.7。新模型针对编程(Coding)场景进行了专项强化,重点提升了编码能力、长程任务规划以及与外部工具的协同效率。
根据官方信息,GLM-4.7在多项主流公开基准测试中取得了开源模型中的领先表现。特别是在权威编码评估系统Code Arena中,GLM-4.7位列开源第一、国产第一,综合表现甚至超过了GPT-5.2。这一成绩标志着国产大模型在核心的代码生成与理解能力上,已进入全球第一梯队。
更具说服力的是来自第三方盲测平台的反馈。在LMARENA的WebDev(网页开发)盲测排行榜中,GLM-4.7以1449分位列全球第六,紧随Gemini-3-Flash之后,超过了GPT-5.2(1398分)[用户文档]。该榜单基于大规模用户双盲测试,难以通过针对性优化“刷榜”,结果更能反映模型在实际开发场景中的真实能力。有开发者评论称,这是其印象中国产模型在WebDev分类中取得的最佳排名,对于一款开源模型而言尤为难得[用户文档]。
对于广大开发者而言,基准测试排名固然重要,但实际体验才是决定是否使用的关键。长期关注AI编程工具的开发者“刘小排r”在GLM-4.7发布后,立即进行了长达6小时的深度替换测试,将日常开发环境中的Claude Code模型切换为GLM-4.7。
测试结论令人惊喜:在中等难度以下的任务中,几乎感觉不到与Claude Code原版的区别[用户文档]。无论是代码生成的逻辑、行文风格,还是与开发者交互的“情绪价值”,GLM-4.7都表现得与顶级闭源模型高度相似。开发者表示,在完成一个涉及RFC需求审查、问题诊断与修复建议的中等复杂度前端任务时,GLM-4.7的输出质量、格式和思考深度都达到了与Claude Sonnet模型媲美的水准[用户文档]。
当然,在极限场景下,差距依然存在。测试发现,在面对需要反复压缩上下文、跨越多个上下文窗口的超复杂长程任务时,GLM-4.7偶尔会出现“健忘”现象,需要开发者进行提醒[用户文档]。这反映出以Claude Sonnet/Opus 4.5、GPT-5.2-Codex为代表的2025年9月后发布的顶级编程模型,在“原生长程能力”训练上仍有一定优势。但开发者指出,此类极端任务在日常开发中并不常见,且通过简单提醒即可解决,不影响GLM-4.7成为当前最理想的“平替”选择[用户文档]。
最大的优势在于成本。GLM-4.7通过智谱的“GLM Coding Plan”提供服务,其中面向个人开发者的Lite套餐每月仅需20元人民币,连续包季低至54元/季[用户文档]。相比Claude Code等海外服务的订阅费用,其价格往往只有十分之一,性价比优势极其突出。智谱官方为降低使用门槛做了大量工作,提供了详尽的教程,指导开发者如何在Claude Code、Cline、Cursor等超过20种主流编程工具中配置和使用GLM-4.7模型[用户文档]。
GLM-4.7的技术提升不仅体现在基准分数上,更反映在具体的应用能力上。
首先,其前端与视觉化编程能力进步巨大。开发者使用一个高难度的“金门大桥3D体素模拟”任务进行测试,该任务要求模型使用Three.js构建一个包含动态光照、体积雾、自定义水体着色器、程序化城市天际线等复杂视觉效果的交互式网页[用户文档]。GLM-4.7成功一次性生成了可运行的完整代码,展现了在理解复杂视觉需求、进行3D空间规划和编写高性能WebGL代码方面的强大实力[用户文档]。
其次,模型强化了长程任务规划与工具协同能力。这意味着GLM-4.7能更好地扮演“智能体”角色,将复杂目标拆解为多步骤任务,并正确调用各种工具(如代码解释器、搜索引擎、API)来达成目标。这一特性使其在自动化工作流和智能体应用中更具实用性。
此外,GLM-4.7的多模态与联网能力可通过MCP(模型上下文协议)灵活扩展。虽然GLM-4.7本身并非多模态模型,但智谱提供了视觉理解MCP服务器和联网搜索MCP服务器[用户文档]。开发者只需在命令行执行简单指令,即可为Claude Code等工具添加图像分析、视频内容理解、实时网络搜索等能力,实现了功能的模块化组合,满足了更广泛的开发需求[用户文档]。
GLM-4.7的发布与开源,对全球AI开源社区和开发者生态产生了显著影响。
一方面,它提供了目前编程能力最强的开源模型选择。其性能直逼甚至部分超越顶尖闭源模型,让全球开发者,尤其是预算有限的个人开发者和小团队,能够以极低的成本获得顶级的AI编程辅助能力。有观点预测,其出色的表现可能会吸引海外科技公司进行“套壳”或基于此进行二次开发[用户文档]。
另一方面,GLM-4.7与智谱完善的工具链和定价策略相结合,正在加速AI编程工具的平民化进程。将高性能AI编程助手的月度使用成本降低至一杯咖啡的价格,极大地降低了技术创新的门槛,有望激发更广泛的长尾开发需求和应用创新。
综合来看,GLM-4.7的推出不仅是智谱AI技术实力的展示,更是国产大模型从“追赶”到“并跑”甚至在某些场景“领跑”的关键一步。它以接近顶级产品的体验和极具竞争力的价格,为全球开发者提供了一个强大的新选择,有望重塑AI编程工具市场的竞争格局。
文章来源:本文综合自智谱AI官方发布信息、第一财经报道及开发者“刘小排r”于2025年12月23日发布的实测体验[用户文档]。