GLM 5.1

2小时前发布 18 0 0

摘要 GLM 5.1 是智谱AI最新发布的开源旗舰大模型,最大突破在于将AI从"分钟级交互"推进到"8小时长程任务"——它能在一次任务中独立工作超过8小时,期间自主规划、执行、测试、修复错误,最终交付完整工程成果。在代码能力方面,GLM 5.1 在SWE-bench Pro、Terminal-Bench 2.0、NL2Repo三大评测基准...

收录时间:
2026-04-08
摘要
GLM 5.1 是智谱AI最新发布的开源旗舰大模型,最大突破在于将AI从”分钟级交互”推进到”8小时长程任务”——它能在一次任务中独立工作超过8小时,期间自主规划、执行、测试、修复错误,最终交付完整工程成果。在代码能力方面,GLM 5.1 在SWE-bench Pro、Terminal-Bench 2.0、NL2Repo三大评测基准上位列全球第三、国产第一,成为首个在该基准上超越 Claude Opus 4.6 的国产模型。模型采用744B参数MoE架构,支持20万token上下文,提供API接入和Coding Plan订阅两种使用模式,价格相比海外旗舰模型更具优势。

GLM 5.1 是什么

它的定义

GLM 5.1 是智谱AI(Zhipu AI,现品牌名为 Z.ai)于2026年4月8日正式发布的开源大语言模型,属于GLM系列的第五代改进版本。这是目前全球唯一在真实工程任务中验证可达8小时持续工作能力的开源模型,定位从”对话助手”转向”自主工程代理”。

背后的公司/团队

智谱AI(Z.ai)成立于2019年,源自清华大学计算机系知识工程实验室(KEG),是国内最早研发大语言模型的团队之一。2026年1月,智谱在香港联交所上市,估值约313亿美元。与多数依赖NVIDIA GPU的厂商不同,GLM 5.1 完全基于华为昇腾910B芯片训练,使用约10万颗昇腾芯片完成,标志着在芯片受限环境下的技术自主性。

它解决什么问题

当前主流大模型多为”分钟级交互”设计,用户提问后模型生成回答即结束任务。GLM 5.1 针对长程任务(Long-Horizon Task)优化,解决复杂工程需要持续多步骤执行、反复试错、自主决策的问题。它能够在无需人工持续介入的情况下,独立完成从代码编写、测试、调试到文档生成的完整工程流程。

它和普通同类产品相比最大的特点

与GPT-4、Claude等传统大模型相比,GLM 5.1 的核心差异在于持续自主工作能力。它不仅是响应式生成工具,而是能够在8小时内保持运行状态,主动执行命令、分析结果、调整策略。在SWE-bench Pro(最接近真实软件开发的评测基准)中,GLM 5.1 成为首个超越 Claude Opus 4.6 的国产模型,得分45.3(Opus 4.6为47.9),达到94.6%的性能水平。

GLM 5.1 的核心功能

1. 8小时长程任务执行

GLM 5.1 能够在单次任务中持续工作超过8小时,期间自主完成规划、执行、测试、碰壁切换策略、出错修复的完整闭环。这与传统模型”生成即结束”的模式完全不同,更适合需要长时间运行的软件工程任务,如完整项目重构、大规模代码迁移或复杂Bug修复。

2. 高级代码生成与理解

在代码能力上,GLM 5.1 在三大代码评测基准(SWE-bench Pro、Terminal-Bench 2.0、NL2Repo)的平均成绩位列全球第三、国产第一、开源模型第一。它不仅能生成代码片段,更能理解整个代码库的架构,执行跨文件的修改和调试任务。

3. 多工具链自主调用

模型支持与Claude Code、OpenCode、Kilo Code、Roo Code、Cline、Droid等主流开发工具集成,能够自主调用终端命令、读写文件、运行测试脚本、分析错误日志,形成”实验→分析→优化”的工程闭环。

4. 20万Token长上下文处理

支持200K token的上下文窗口,最大输出可达131,072 token,能够处理大规模代码库、长文档分析和多轮复杂对话场景,适合企业级知识管理和大型项目分析。

5. 渐进式对齐优化

通过多任务监督微调(SFT)→推理强化学习(RL)→Agent强化学习→通用强化学习→策略跨阶段蒸馏的完整后训练流程,GLM 5.1 在相同基座模型上实现了28%的代码能力提升(从GLM-5的35.4分提升至45.3分)。

GLM 5.1 适合哪些人使用

适合的职业/身份

  • 软件工程师/架构师:需要处理复杂代码重构、跨模块调试、技术债务清理的开发者
  • AI Agent开发者:构建需要长时间自主运行的智能体系统,如自动化运维、代码审查机器人
  • 技术团队负责人:希望降低代码审查、文档生成、测试编写等重复性工作的团队管理者
  • 独立开发者/初创团队:预算有限但需要接近Claude Opus级别代码能力的个人或小团队

适合的业务场景

  • 整夜运行的自动化代码迁移项目(如从Python 2迁移到Python 3)
  • 需要反复试错优化的性能调优任务
  • 基于现有代码库生成完整测试套件
  • 复杂技术文档的自动梳理和重构
  • 多步骤的数据处理管道开发

不太适合谁

  • 非技术用户:如果您只需要简单的问答或文案生成,GLM 5.1 的专业代码能力可能是过度配置,且价格高于普通对话模型
  • 实时协作场景:需要秒级响应和频繁人机交替的工作流程,8小时长程能力反而显得笨重
  • 多模态需求用户:GLM 5.1 目前仅支持文本输入输出,无法处理图像、音频或视频内容

GLM 5.1 怎么使用

如何进入

目前可通过以下渠道使用 GLM 5.1:
  1. Z.ai 官网:访问 https://chat.z.ai(即将上线GLM 5.1体验)
  2. BigModel开放平台https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1 获取API接入文档

如何注册/登录

  • Coding Plan用户:已订阅GLM Coding Plan(Max/Pro/Lite版本)的用户可直接在配置文件中将模型切换为GLM 5.1
  • API用户:需在BigModel平台注册账号,获取API Key后按文档接入
  • 开源部署:模型权重可在Hugging Face(zai-org/GLM-5.1)、GitHub、ModelScope下载(GLM-5已开源,5.1权重预计后续开放)

如何开始使用

对于Claude Code用户
  1. 编辑配置文件(Windows:~/.claude/settings.json,macOS:vim ~/.claude/settings.json
  2. 将模型环境变量更新为 glm-5.1
  3. 输入 /status 命令确认模型切换成功
对于OpenCode用户
  1. 修改 ~/.opencode/config.json
  2. 将GLM 5.1添加到 models.providers.zai.models 数组
  3. 更新默认模型设置为GLM 5.1
  4. 重启服务验证切换

一个典型使用流程示例

假设需要对一个遗留Java项目进行Spring Boot现代化改造:
  1. 任务启动:在Claude Code中输入需求:”将这个项目从Spring Boot 2.0升级到3.0,并迁移所有已弃用的API”
  2. 自主分析:GLM 5.1读取整个代码库,分析依赖关系,识别不兼容的语法和废弃接口
  3. 执行计划:生成详细的迁移计划,包括文件修改顺序、测试策略、回滚方案
  4. 长时执行:开始持续工作,依次修改配置文件、更新依赖版本、重构代码、运行测试
  5. 中途调整:遇到编译错误时自动修复,测试失败时分析日志并调整实现
  6. 成果交付:8小时后生成完整的迁移报告、更新后的代码库和变更文档

GLM 5.1 的价格与收费方式

是否免费

GLM 5.1 不开源免费使用权重(可自托管),但API调用和Coding Plan订阅为付费服务。GLM-5基础版权重已在Hugging Face开源(MIT许可证),GLM 5.1权重预计后续开放。

是否有免费版/试用版

暂未查到明确的免费试用额度信息。Coding Plan Lite版提供最低门槛的付费体验($3/月促销价)。

订阅制还是按量收费

提供两种模式:
Coding Plan订阅制(适合个人开发者):
  • Lite版:$3/月(促销价)/ $10/月(标准价),含120个prompts
  • Pro版:$15/月,含600个prompts
  • Max版:更高配额(具体数量需咨询官方)
API按量计费
  • 输入:约$1.00/百万tokens(人民币约7元)
  • 输出:约$3.20/百万tokens(人民币约23元)
  • 缓存命中价格接近Claude Sonnet 4.6水平
2026年4月8日发布时,智谱宣布GLM系列API价格整体上调10%,这是国产大模型首次在核心场景与海外头部厂商价格对齐。
注意:价格以官网最新页面为准,Coding Plan具体配额和API精确价格请访问 https://bigmodel.cnhttps://z.ai 确认。

GLM 5.1 的优势与局限

优势

1. 开源模型中的顶级代码能力
在SWE-bench Pro等真实开发场景评测中,GLM 5.1 是全球首个达到Claude Opus 4.6水平的开源模型,打破开源模型与顶级闭源模型的性能鸿沟。
2. 独特的长程任务能力
目前全球仅Claude Opus 4.6和GLM 5.1支持8小时级持续工作,这是从”工具”向”数字员工”进化的关键能力,适合需要长时间专注的复杂工程任务。
3. 成本优势明显
API价格约为Claude Opus 4.6的1/7,Coding Plan订阅起价仅$3/月,远低于Claude Max的$100-200/月,为预算有限的团队提供接近旗舰模型的能力。
4. 硬件自主可控
完全基于华为昇腾芯片训练,不依赖NVIDIA GPU,在当前国际芯片管制背景下具有重要的供应链安全价值。
5. 广泛的工具兼容性
原生支持Claude Code、OpenCode等主流开发框架,开发者可无缝切换现有工作流。

局限

1. 纯文本限制
不支持图像、音频、视频输入,在多模态场景(如UI设计、视频分析)无法与GPT-4V、Claude 3等竞争。
2. 自评分数待验证
目前公开的评测分数多为官方自评,使用Claude Code作为评测框架,独立第三方验证仍在进行中。
3. 部署门槛高
模型采用744B参数MoE架构,BF16精度下需约1.49TB存储,本地部署对硬件要求极高,普通开发者难以自托管。
4. 价格波动
近期已提价10%,且后续可能继续调整,长期使用成本需持续关注。
5. 早期版本稳定性
3月27日首次向Coding Plan用户开放时,曾出现”权限不足”等临时故障和配额消耗异常问题。

GLM 5.1 的典型应用场景

1. 遗留系统现代化改造

将运行10年以上的老旧系统(如基于Struts 1.x的Java项目)迁移到现代技术栈。GLM 5.1可在夜间持续工作8小时,自动分析数百万行代码,生成迁移脚本,执行重构,运行回归测试,早上交付可运行的现代化代码库。

2. 大规模测试用例生成

针对缺乏单元测试的遗留代码库,GLM 5.1可读取整个项目结构,理解业务逻辑,自动生成高覆盖率的测试用例,并在遇到编译错误时自主修复测试代码,直至全部通过。

3. 跨模块API重构

当核心接口需要变更(如支付模块的加密算法升级)时,模型可自动扫描所有调用点,生成修改方案,批量更新数十个文件,确保前后兼容性,并生成变更文档。

4. 技术文档自动化维护

随着代码迭代,保持技术文档(如API文档、架构图说明)与代码同步是耗时工作。GLM 5.1可监控代码变更,自动更新相关文档段落,重新生成示例代码,确保文档始终准确。

5. 复杂Bug的根因分析

对于难以定位的偶发Bug(如多线程竞争条件、内存泄漏),GLM 5.1可长时间运行各种诊断工具,分析日志模式,尝试不同修复方案,循环验证直至问题解决,适合需要反复实验的棘手问题。

GLM 5.1 常见问题

GLM 5.1支持中文吗?
支持。作为智谱AI开发的模型,GLM 5.1原生支持中文输入输出,在中文编程场景(如注释、文档、变量命名)表现良好。
GLM 5.1是否需要付费?
API调用和Coding Plan订阅需要付费,但模型权重将开源(GLM-5已开源,5.1预计后续开放),用户可自行下载部署。Coding Plan Lite版起价$3/月(促销价),API按token计费。
GLM 5.1适合哪些人?
主要适合软件工程师、AI Agent开发者、技术团队负责人等需要处理复杂代码任务的专业人士。不适合仅需简单问答的非技术用户或需要多模态能力的场景。
GLM 5.1和同类产品有什么区别?
与DeepSeek、GPT-4等相比,GLM 5.1的核心差异是8小时长程任务能力和在真实代码工程场景中的深度优化。它是目前唯一能在SWE-bench Pro上超越Claude Opus 4.6的开源模型。
GLM 5.1可以本地部署吗?
可以,但硬件要求极高。744B参数的MoE模型在BF16精度下需要约1.49TB存储,建议使用vLLM、SGLang或KTransformers等推理框架。普通开发者更适合通过API或Coding Plan使用。
GLM 5.1与GLM-5有什么区别?
GLM 5.1是基于GLM-5的增量优化版本,通过强化学习后训练在代码能力上提升28%(从35.4分提升到45.3分),基座架构(744B MoE)保持一致,但针对长程Agent任务做了专门优化

使用GLM 5.1需要特殊网络环境吗?
国内用户可直接访问智谱的BigModel平台(bigmodel.cn)或Z.ai官网。海外用户可通过OpenRouter等第三方平台接入。具体网络要求取决于您选择的接入方式。

GLM 5.1 官网与相关入口


总结

GLM 5.1 最适合需要处理复杂软件工程任务的专业开发者和AI Agent构建者。如果您正在寻找能够在夜间持续运行、独立完成从代码分析到测试验证完整流程的”数字工程师”,GLM 5.1 是目前开源领域的最佳选择。它以约Claude Opus 4.6七分之一的成本,提供了接近顶级闭源模型的代码能力,首次让国产开源模型在真实工程场景达到全球领先水平。
对于预算有限的初创团队或独立开发者,GLM 5.1 的 Coding Plan 提供了低门槛的入门方案。但需要注意的是,如果您只需要简单的代码补全或问答,市面上有更便宜的选择;GLM 5.1 的真正价值在于那8小时的持续工作能力——这才是它值得关注的独特价值。是否值得尝试?如果您的工作流中存在需要数小时连续处理的复杂工程任务,GLM 5.1 是目前性价比最高的选择。

同类产品推荐

1. Claude 3.5/4 Sonnet & Opus(Anthropic)
闭源模型的代码能力标杆,Opus 4.6 在SWE-bench Pro上仍是最高分持有者,适合对稳定性要求极高的企业级开发,但价格是GLM 5.1的5-7倍。
2. DeepSeek-V3/R1(DeepSeek)
国产开源模型,API价格最低(输入$0.27/百万tokens),适合预算敏感的大规模应用,但在长程任务和复杂代码工程能力上略逊于GLM 5.1。
3. GPT-4o/o3(OpenAI)
通用能力最强,多模态支持完善,适合需要图文混合理解的开发场景,但代码工程深度不如GLM 5.1专注,且完全闭源。
4. Qwen 2.5-Coder(阿里巴巴)
开源代码专用模型,在代码生成任务上表现优异,适合中文开发者,但缺乏GLM 5.1的8小时长程任务能力。
5. Gemini 2.5 Pro(Google)
长上下文窗口(100万tokens)领先,适合超大规模代码库分析,但在自主Agent执行和代码工程闭环上不如GLM 5.1。
6. Llama 3.3 70B/405B(Meta)
最开放的开源生态,适合需要完全可控和私有化部署的企业,但代码能力距离GLM 5.1有明显差距。
7. Codestral(Mistral)
专注代码生成的中型模型,响应速度快,适合实时代码补全场景,但不适合复杂的多步骤工程任务。
8. Claude Code(Anthropic)
严格来说是工具而非模型,但与Claude模型深度集成,提供最佳的Agent开发体验,月费$100-200,适合专业开发者。

数据评估

GLM 5.1浏览人数已经达到18,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:GLM 5.1的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找GLM 5.1的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于GLM 5.1特别声明

本站大国Ai提供的GLM 5.1都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由大国Ai实际控制,在2026年4月8日 下午2:46收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,大国Ai不承担任何责任。

相关导航

暂无评论

none
暂无评论...