模型在人类偏好评估中胜率达64.78%,树立对话智能与情感理解新标杆
2025年11月18日,埃隆·马斯克旗下人工智能公司xAI悄然推出新一代模型Grok 4.1,该模型在通用能力、情感智能和实际应用性方面实现显著提升。即日起,Grok 4.1已向所有用户免费开放,可通过Grok官网、X平台及移动应用程序使用。
根据xAI发布的测试数据,Grok 4.1在盲测的人类偏好评估中,以64.78%的胜率被用户偏好选择,相比前代模型有显著提升。
在权威评测平台LMArena的Text Arena排行榜上,Grok 4.1的推理模式(代号:quasarflux)以1483的Elo分数位居总榜首位,领先最高的非xAI模型达31分。即使是非推理模式(代号:tensor)也以1465分排名第二,超越了其他所有模型在完整推理配置下的表现。
与此形成对比的是,今年7月发布的Grok 4曾在多项基准测试中超越OpenAI o3、谷歌Gemini 2.5 Pro等竞争对手,在“人类最后的考试”(HLE)测试中取得24%-27%的准确率。而Grok 4.1的表现进一步巩固了xAI在AI领域的领先地位。
Grok 4.1在情感理解能力方面取得重大突破。在EQ-Bench3测试中,Grok 4.1的推理模式和非推理模式分别以1586和1585的归一化Elo分数位居榜单前两名。
EQ-Bench是评估AI模型情绪理解、洞察力、同理心及人际交往技能的基准测试,包含45个具有挑战性的角色扮演场景。测试结果显示,Grok 4.1在情感交互方面已显著超越GPT-5 Chat(1364分)和Claude Opus 4(1304分)等主流模型。
在实际对话中,Grok 4.1对情绪类提示的回应更加细腻和富有同理心。例如,当用户表达“我想念我的猫,心痛不已”时,Grok 4.1的回应不仅表达理解,还能提供具体的情感支持。
在Creative Writing v3基准测试中,Grok 4.1的推理模式和非推理模式分别以1721.9和1708.6的分数位居第二和第三名,仅次于早期GPT 5.1模型。
xAI还着重降低了模型的事实幻觉问题。通过在后训练过程中针对性优化,Grok 4.1在信息查询类提示中的幻觉率显著下降。在生产环境信息查询请求的抽样评估中,Grok 4.1的幻觉率相比Grok 4 Fast有明显改善。
延续了8月份Grok 4的免费开放策略,Grok 4.1同样向所有用户免费提供。免费用户可在Grok官网、X平台以及iOS和Android应用中使用该模型。Grok 4.1将自动在Auto模式中推送,用户也可在模型选择器中手动选择。
这一发布策略与xAI此前的发展路线一脉相承。今年7月Grok 4发布时,xAI就计划推出多模态智能体和视频生成模型,而Grok 4.1的推出进一步强化了其在AI助手领域的布局。
Grok 4.1基于Grok 4的大规模强化学习基础设施进一步优化,在模型风格、个性、助人性和对齐性方面均有提升。xAI开发了全新方法,利用前沿的智能体式推理模型作为奖励模型,实现大规模自主评估和迭代输出。
值得注意的是,xAI在模型迭代速度上展现出惊人效率。从7月发布Grok 4到11月推出Grok 4.1,仅用了四个月时间,这一速度远超行业平均水平。相比之下,从GPT-4到GPT-5的迭代间隔了29个月。
随着Grok 4.1的发布,xAI进一步巩固了在AI竞赛中的地位。此前,马斯克曾表示Grok将应用于特斯拉车辆,而Grok 4.1的增强能力将为这一整合提供更强支撑。
在商业应用方面,Grok系列模型已展现出强大潜力。今年7月的演示显示,Grok 4能够在Vending-Bench商业场景基准测试中有效运营自动售货机,完成库存管理、供应商谈判和定价策略等任务。
Grok 4.1的发布标志着AI助手在实用性和情感交互方面迈出重要一步,其免费开放策略也将加速AI技术的普及和应用创新。随着多模态能力的进一步完善,Grok系列模型有望在科研、教育、商业和娱乐等领域发挥更大价值。
资料来源:根据xAI官方公告、模型卡及机器之心报道综合整理。