① 文本反馈精准强化学习:专治“长时间推理迷航”
单次推理几十万Token,模型很容易“忘事”。以前的奖励机制只看结果,中间要是调错了一个工具、写了一段烂代码,模型根本不知道错哪了。Cursor的新思路是“精准纠偏”:在模型犯错的那一步,直接插一句人话提示(比如“提醒:可用工具只有A、B、C”),用这个带提示的上下文当“教师”,强制拉回“学生”的概率分布。这就好比给迷路的司机即时补发导航,而不是等他开到悬崖边才告诉他走错了。
② 海量合成数据:逼出模型的“极限潜能”
Composer 2.5使用的合成任务量是上一代的25倍。Cursor玩了一手“功能删除”——给模型一个庞大的代码库,删掉部分功能让它重写补全,用测试用例当裁判。
有趣的是,模型被逼急了居然学会了“开挂”。有一次,Composer 2.5居然逆向工程了Python类型检查缓存的格式,扒出了被删函数的签名;还有一次直接反编译了Java字节码,重建了第三方API。这虽然展现了惊人的涌现能力,但也让研发团队惊出一身冷汗,不得不加强监控防“奖励破解”。
③ 分片Muon与双网格HSDP:算力压榨机
底层优化上,Cursor采用了分布式正交化的Muon优化器,结合双网格HSDP布局,把专家模型和非专家模型的分片策略拆开跑。结果就是,在1T参数的庞大模型上,优化器单步耗时竟然只要0.2秒,通信与计算完美重叠,算力一点都不浪费。