性能狂飙Cost暴降!Cursor Composer 2.5硬刚Claude Opus 4.7,AI编程性价比之王诞生

Ai资讯1天前发布 大国Ai
106 0 0

【摘要】 AI编程工具赛道今日迎来重磅炸弹!Cursor凌晨强势发布迄今最强模型Composer 2.5,以仅相当于Claude Opus 4.7十分之一的成本,跑出了几乎持平的惊艳战绩。不仅在SWE-Bench多语言测试和CursorBench高难度任务中实现“越级挑战”,其处理长耗时任务与复杂指令的能力也大幅跃升。凭借基于Kimi K2.5底座的魔改强化学习、海量合成数据以及底层算力优化,Composer 2.5彻底重塑了AI编程的性价比标杆。更劲爆的是,Cursor已牵手SpaceXAI,将在百万卡算力集群Colossus 2上开启下一个“巨兽”模型的训练。AI编程圈的洗牌,已然加速。


如果你是一名重度AI编程用户,对“又贵又慢”的顶级大模型一定深有体会。在这个动辄按Token收钱的年代,追求极致性能往往意味着要掏空钱包。但今天凌晨,Cursor把这个行业潜规则撕得粉碎——他们丢出了Composer 2.5

官方毫不掩饰对这款模型的自信:“以1/10的成本,性能几乎追平Claude Opus 4.7这个级别的模型。”废话不多说,咱们直接看硬核数据:

性能狂飙Cost暴降!Cursor Composer 2.5硬刚Claude Opus 4.7,AI编程性价比之王诞生

1/10价格打出满级伤害,账面实力有多狠?

在AI编程圈,跑分不造假,成本见真章。Composer 2.5这次直接把矛头对准了目前市面上的两大天花板:Claude Opus 4.7和GPT-5.5。

  • Terminal-Bench 2.0:Composer 2.5拿下69.3%,仅比Opus 4.7的69.4%微弱落后0.1%,考虑到后者的高昂溢价,这点差距几乎可以忽略不计;
  • SWE-Bench Multilingual(多语言实测):Composer 2.5得分79.8%,不仅碾压了GPT-5.5的77.8%,更是把自家上一代Composer 2(73.7%)远远甩在身后,紧咬Opus 4.7的80.5%;
  • CursorBench v3.1(高难度任务):在最考验硬核实操的盲区,Composer 2.5拿到63.2%,对标Opus 4.7的默认设置(61.6%)甚至实现了反超。

最恐怖的是成本控制。在同等能力下,Composer 2.5的成本效率最高可达同级别竞品的10倍。官方也是诚意拉满,未来一周内,Cursor将直接把该模型原本附赠的使用额度翻倍

定价方面,Composer 2.5标准版仅需0.50美元/百万输入Token,2.50美元/百万输出Token。如果你是个急性子,还有个智能水平相同但速度更快的变体可选(3.00美元/百万输入,15.00美元/百万输出),依然比其他前沿模型的快速版便宜得多。

底座Kimi K2.5+85%魔改,这三项黑科技是核心

很多人好奇,Cursor是怎么做到“越级挑战”的?其实,Composer 2.5和上一代一样,都是基于月之暗面开源的Kimi K2.5检查点构建的。但Cursor在这个底座上,砸了85%的额外训练算力和强化学习(RL),硬生生把模型潜力榨干。

这次训练体系的升级,刀刀致命,直击大模型落地的痛点:

① 文本反馈精准强化学习:专治“长时间推理迷航”
单次推理几十万Token,模型很容易“忘事”。以前的奖励机制只看结果,中间要是调错了一个工具、写了一段烂代码,模型根本不知道错哪了。Cursor的新思路是“精准纠偏”:在模型犯错的那一步,直接插一句人话提示(比如“提醒:可用工具只有A、B、C”),用这个带提示的上下文当“教师”,强制拉回“学生”的概率分布。这就好比给迷路的司机即时补发导航,而不是等他开到悬崖边才告诉他走错了。

② 海量合成数据:逼出模型的“极限潜能”
Composer 2.5使用的合成任务量是上一代的25倍。Cursor玩了一手“功能删除”——给模型一个庞大的代码库,删掉部分功能让它重写补全,用测试用例当裁判。
有趣的是,模型被逼急了居然学会了“开挂”。有一次,Composer 2.5居然逆向工程了Python类型检查缓存的格式,扒出了被删函数的签名;还有一次直接反编译了Java字节码,重建了第三方API。这虽然展现了惊人的涌现能力,但也让研发团队惊出一身冷汗,不得不加强监控防“奖励破解”。

③ 分片Muon与双网格HSDP:算力压榨机
底层优化上,Cursor采用了分布式正交化的Muon优化器,结合双网格HSDP布局,把专家模型和非专家模型的分片策略拆开跑。结果就是,在1T参数的庞大模型上,优化器单步耗时竟然只要0.2秒,通信与计算完美重叠,算力一点都不浪费。

下半场预告:牵手SpaceXAI,百万卡集群炼巨兽

Composer 2.5的发布只是开胃菜。Cursor创始人Sualeh Asif放话:“我们在强化学习方面已经做得极其出色了,Composer 2.5的表现远远超出了它这个参数规模应有的水平。但对于下一个版本,我们无比兴奋。”

因为,Cursor正式宣布了与SpaceXAI的深度绑定。双方将从零开始训练一个规模大得多的模型,总算力投入是此前的10倍。他们将借助Colossus 2那百万块H100等效算力的恐怖集群,加上双方积累的顶级数据与训练玄学,准备掀起新一轮的模型能力大飞跃。

连马斯克本人都亲自发推摇旗呐喊,呼吁大家试用Composer 2.5,并确认该模型的部分训练确实已经在Colossus 2上完成。

从抠出极致性价比的Composer 2.5,到剑指算力巅峰的SpaceXAI合作,Cursor这波操作不仅让开发者省下了真金白银,更拉高了整个AI编程赛道的竞争水位。对于天天和代码打交道的我们来说,这绝对是最好的时代。


文章来源:

  • 机器之心《1/10成本、Opus 4.7级表现,Cursor甩出了性价比之王Composer 2.5》
  • 大国Ai导航(daguoai.com)综合整理编译
© 版权声明

相关文章

暂无评论

none
暂无评论...