【摘要】 2026年5月22日,阿里云千问家族最新旗舰模型Qwen3.7-Max正式登陆百炼平台,开放API调用和Token Plan订阅服务。这款面向智能体时代设计的模型,在Artificial Analysis盲测中以56.6分位列全球第五、国产第一,输入价格每百万Tokens仅12元。它不仅能写代码、办公自动化,还能自主运行35小时完成复杂工程任务——国产大模型的竞争,已经从“会聊天”卷到了“会干活”。
今天早上,阿里云悄悄把Qwen3.7-Max挂上了百炼平台。说是“悄悄”,但圈内早就炸开了锅。
先说大家最关心的价格:输入每百万Tokens 12元,输出每百万Tokens 36元。 对比Anthropic的Claude Opus-4.6和DeepSeek V4 Pro,这个定价属于中档偏上。但结合它在Artificial Analysis拿到的56.6分(全球第五、国产第一),性价比一下就出来了。
有朋友问我:“这个分数含金量高吗?”这么说吧,前面四位分别是Claude、GPT、Gemini的顶级模型,Qwen3.7-Max是唯一挤进前五的国产选手。 以前咱们总说“国产追赶”,这次是实实在在站上了牌桌。
如果你已经订阅了阿里云百炼的Token Plan,现在就能直接用,不需要额外申请。没订阅的也可以走API,流程很顺。
说实话,去年我测过不少国产模型,很多在“问答”上表现不错,但一干活就拉胯。Qwen3.7-Max这次不一样——它把精力全押在了**“能干活”**上。
普通模型写个函数、改个BUG已经算不错了。但Qwen3.7-Max能干的是:理解需求、浏览工程结构、修改多个文件、定位错误、跑测试、迭代优化……一套流程走完,直接交付可用的项目成果。
它在SWE-Pro上拿了60.6分,Terminal Bench 2.0-Terminus达到69.7分,超越DeepSeek V4 Pro Max的67.9。 这些评测不是考“知识”,而是考“能不能把事情做成”。
这是最让我震惊的一个点。
阿里云让Qwen3.7-Max去优化一个平头哥真武M890芯片的核。注意,这个芯片在训练时从未出现过,模型没有架构文档、没有性能数据、没有示例代码。
结果呢?模型自己规划、自己写代码、自己编译、自己跑测试、发现问题再迭代……整整干了35个小时,调用了1158次工具,最终把算子性能提升了10倍。
同期DeepSeek V4 Pro只提升了3.3倍,而且中途自动中断了。 这就是差距——不是差在某个单点能力上,而是差在能不能从头干到尾、遇到问题不退。
很多模型在自家框架里表现神勇,换个环境就拉胯。Qwen3.7-Max不一样,它原生适配Claude Code、OpenClaw、Qwen Code等各种主流框架。
这意味着什么?你不需要为了用它重构整个工具链,想用啥框架就用啥。这才是智能体年代该有的姿态——工具为人服务,不是人为工具服务。
我知道你可能会想:“35小时跑一个内核优化,跟我一个做前端、写文案、管数据的有什么关系?”
有关系。大模型的能力从来不是孤立的。Qwen3.7-Max在编程任务中展现的规划能力、工具调用能力、验证能力和长程稳定性,可以无缝迁移到其他场景:
从基准测试看,它在办公自动化SpreadSheetBench上拿到87.0分,多语言翻译WMT24++达到85.8分,推理能力GPQA Diamond达到92.4分——这些数字对应的是真实场景中的生产力提升。
说实话,写这篇文章之前,我对国产模型的态度一直是“观望”。但Qwen3.7-Max这次让我有点动摇了。
它不是那种“又大又全但啥都不精”的模型。它的设计思路很明确:我要的不是一个能和人类聊天的AI,我要的是一个能替人类干活的智能体底座。
从技术路线看,Qwen3.7-Max做了三件很聪明的事:
这些技术选择指向一个方向:大模型正在从“知识存储”转向“行动引擎”。而Qwen3.7-Max,可能是这个方向上走得最远的国产模型。
如果你是开发者或企业用户,上手Qwen3.7-Max只需要三步:
对于想试试水的小团队,可以先走API按量付费;对于高频使用的团队,Token Plan更划算,标准坐席198元/月,高级坐席698元/月,尊享坐席1398元/月。
这篇文章综合整理了阿里云官方发布会信息、各大科技媒体的报道以及开发者社区的反哺,帮助大家快速了解Qwen3.7-Max的核心价值和应用场景。
文章来源: