马斯克xAI发布Grok 4.1：通用能力与情感智能双突破，免费向所有用户开放

模型在人类偏好评估中胜率达64.78%，树立对话智能与情感理解新标杆

2025年11月18日，埃隆·马斯克旗下人工智能公司xAI悄然推出新一代模型Grok 4.1，该模型在通用能力、情感智能和实际应用性方面实现显著提升。即日起，Grok 4.1已向所有用户免费开放，可通过Grok官网、X平台及移动应用程序使用。

性能突破：全面超越前代与竞争对手

根据xAI发布的测试数据，Grok 4.1在盲测的人类偏好评估中，以64.78%的胜率被用户偏好选择，相比前代模型有显著提升。

在权威评测平台LMArena的Text Arena排行榜上，Grok 4.1的推理模式（代号：quasarflux）以1483的Elo分数位居总榜首位，领先最高的非xAI模型达31分。即使是非推理模式（代号：tensor）也以1465分排名第二，超越了其他所有模型在完整推理配置下的表现。

与此形成对比的是，今年7月发布的Grok 4曾在多项基准测试中超越OpenAI o3、谷歌Gemini 2.5 Pro等竞争对手，在“人类最后的考试”（HLE）测试中取得24%-27%的准确率。而Grok 4.1的表现进一步巩固了xAI在AI领域的领先地位。

情感智能：EQ-Bench评测中位居前二

Grok 4.1在情感理解能力方面取得重大突破。在EQ-Bench3测试中，Grok 4.1的推理模式和非推理模式分别以1586和1585的归一化Elo分数位居榜单前两名。

EQ-Bench是评估AI模型情绪理解、洞察力、同理心及人际交往技能的基准测试，包含45个具有挑战性的角色扮演场景。测试结果显示，Grok 4.1在情感交互方面已显著超越GPT-5 Chat（1364分）和Claude Opus 4（1304分）等主流模型。

在实际对话中，Grok 4.1对情绪类提示的回应更加细腻和富有同理心。例如，当用户表达“我想念我的猫，心痛不已”时，Grok 4.1的回应不仅表达理解，还能提供具体的情感支持。

创意写作与实用性提升

在Creative Writing v3基准测试中，Grok 4.1的推理模式和非推理模式分别以1721.9和1708.6的分数位居第二和第三名，仅次于早期GPT 5.1模型。

xAI还着重降低了模型的事实幻觉问题。通过在后训练过程中针对性优化，Grok 4.1在信息查询类提示中的幻觉率显著下降。在生产环境信息查询请求的抽样评估中，Grok 4.1的幻觉率相比Grok 4 Fast有明显改善。

免费开放策略与平台整合

延续了8月份Grok 4的免费开放策略，Grok 4.1同样向所有用户免费提供。免费用户可在Grok官网、X平台以及iOS和Android应用中使用该模型。Grok 4.1将自动在Auto模式中推送，用户也可在模型选择器中手动选择。

这一发布策略与xAI此前的发展路线一脉相承。今年7月Grok 4发布时，xAI就计划推出多模态智能体和视频生成模型，而Grok 4.1的推出进一步强化了其在AI助手领域的布局。

技术基础与迭代速度

Grok 4.1基于Grok 4的大规模强化学习基础设施进一步优化，在模型风格、个性、助人性和对齐性方面均有提升。xAI开发了全新方法，利用前沿的智能体式推理模型作为奖励模型，实现大规模自主评估和迭代输出。

值得注意的是，xAI在模型迭代速度上展现出惊人效率。从7月发布Grok 4到11月推出Grok 4.1，仅用了四个月时间，这一速度远超行业平均水平。相比之下，从GPT-4到GPT-5的迭代间隔了29个月。

应用前景与行业影响

随着Grok 4.1的发布，xAI进一步巩固了在AI竞赛中的地位。此前，马斯克曾表示Grok将应用于特斯拉车辆，而Grok 4.1的增强能力将为这一整合提供更强支撑。

在商业应用方面，Grok系列模型已展现出强大潜力。今年7月的演示显示，Grok 4能够在Vending-Bench商业场景基准测试中有效运营自动售货机，完成库存管理、供应商谈判和定价策略等任务。

Grok 4.1的发布标志着AI助手在实用性和情感交互方面迈出重要一步，其免费开放策略也将加速AI技术的普及和应用创新。随着多模态能力的进一步完善，Grok系列模型有望在科研、教育、商业和娱乐等领域发挥更大价值。

资料来源：根据xAI官方公告、模型卡及机器之心报道综合整理。

Ai资讯 # GROK4.1

文章版权归作者所有，未经允许请勿转载。

ElevenLabs Music v2震撼发布：告别抽卡式生成，局部重绘+正版商用，API价格直接腰斩！

马斯克xAI发布Grok 4.1：通用能力与情感智能双突破，免费向所有用户开放

性能突破：全面超越前代与竞争对手

情感智能：EQ-Bench评测中位居前二

创意写作与实用性提升

免费开放策略与平台整合

技术基础与迭代速度

应用前景与行业影响

逸文发布Even G2智能眼镜：镜腿减半53%，首创3D信息分层显示

ChatGPT群聊功能正式开放内测，开启多人协作AI新纪元

相关文章

ElevenLabs Music v2震撼发布：告别抽卡式生成，局部重绘+正版商用，API价格直接腰斩！

腾讯混元翻译模型1.5开源：手机端1GB内存流畅运行，性能比肩顶级闭源模型

Anthropic深夜双弹齐发:Claude Sonnet 5性能逼近Opus 4.8,Claude Science重塑AI科研工作流

QwenLong-L1.5：突破长文本理解瓶颈，以系统性创新赋能AI深度推理

暂无评论

最新文章

马斯克xAI发布Grok 4.1：通用能力与情感智能双突破，免费向所有用户开放

性能突破：全面超越前代与竞争对手

情感智能：EQ-Bench评测中位居前二

创意写作与实用性提升

免费开放策略与平台整合

技术基础与迭代速度

应用前景与行业影响

逸文发布Even G2智能眼镜：镜腿减半53%，首创3D信息分层显示

ChatGPT群聊功能正式开放内测，开启多人协作AI新纪元

相关文章

ElevenLabs Music v2震撼发布：告别抽卡式生成，局部重绘+正版商用，API价格直接腰斩！

腾讯混元翻译模型1.5开源：手机端1GB内存流畅运行，性能比肩顶级闭源模型

Anthropic深夜双弹齐发:Claude Sonnet 5性能逼近Opus 4.8,Claude Science重塑AI科研工作流

QwenLong-L1.5：突破长文本理解瓶颈，以系统性创新赋能AI深度推理

暂无评论

最新文章

标签云