摘要: 马斯克旗下xAI悄然发布Grok 4.3,没有宏大的AGI叙事,只有务实的升级。新模型在代理任务和语气理解上进步明显,API价格大幅下调,速度提升,成为高性价比的工作助手。但在硬核推理和幻觉控制上,它仍不及GPT-5.5与Claude Opus 4.7。Grok 4.3找准了自己的定位:日常办公的性价比之选,而非冲刺极限的最强大脑。
当马斯克不再发长推文狂吹自家AI,你就知道事情正在起变化。
前几代Grok发布时,场面那叫一个热闹。从初代靠着“毒舌吐槽”出圈,到Grok 4时期马斯克直接放话“比所有领域博士都聪明”、在各项基准测试中碾压竞品,老马向来喜欢把声量拉满。但这次Grok 4.3的上线,安静得有些反常。马斯克只是轻描淡写地提了一嘴“添加了补充训练”,顺便画了下Grok 4.4和4.5的饼。
没有“改变世界”的呐喊,Grok 4.3反倒让人觉得踏实了。因为它终于触及到普通打工人最关心的痛点:便宜、快、且更像个人类助手。
如果你关注过早期的Grok,大概还记得它连小学数学最小公倍数题都能算错的尴尬场面。经过几轮狂飙,Grok 4已经在“人类最后考试”(HLE)中刷到了高分,甚至能在美国数学邀请赛(AIME)拿满分。但跑分归跑分,老百姓日常用AI,谁天天做微积分?
我们真正需要的是:帮忙把报销表做完,把周报写好,把乱七八糟的会议纪要理清楚。
Grok 4.3显然开窍了。在Artificial Analysis的代理任务榜单(GDPval-AA)上,它的Elo分数比上一代暴涨了321分。这意味着在整理资料、操作表格、运行代码等真实工作流中,它变得极其顺手。
这种“懂行”不仅体现在干活上,还体现在“懂人话”上。前不久有个测试很火:让AI“从11开始数到10”。GPT-5.5老老实实地输出了11到20,而Grok 4.3给出的答案是“11,10”,并解释这是唯一符合逻辑的倒序计数方式。暂且不论谁对谁错,这至少说明Grok不再是个只会死磕字面指令的机器,它开始尝试推理你话语背后的潜台词。
很多英语非母语的用户也反馈,Grok在把握文本语气、正式程度和人际沟通的微妙表达上,比ChatGPT那种端着的“公文腔”自然得多,甚至语音识别对口音的宽容度也极高。这或许得归功于它喝了太多X平台上的“口语化社交网络墨水”,学会了人类的松弛感。
如果说体验升级是软实力,那价格和速度就是硬通货。Grok 4.3这次属实是把性价比打在了公屏上。
API价格直接跳水:每百万输入Tokens只要1.25美元,输出只要2.50美元。跟上一代相比,输入输出成本分别下降了约40%和60%。跑完一整套智能指数评测,成本比上代低了20%左右。同时,它的输出速度飙到了约196 Tokens/s,在xAI家族里一骑绝尘。
这对C端用户意味着什么?你可能不直接调用API,但你用的AI写作软件、办公插件、客服机器人,背后都是在烧Token。底层模型便宜了、跑得快了,上层应用才敢给你放开使用次数,或者把订阅费降下来。
吹了这么多,咱们也得认清现实:Grok 4.3是个优秀的工蜂,但还不是蜂王。
在Artificial Analysis的智能指数排行上,Grok 4.3得分53,而GPT-5.5和Claude Opus 4.7分别是60和57。这几分的差距,落在复杂代码调试、长文核查和深度逻辑推理上,就是“能用”和“好用”的鸿沟。
更要命的是幻觉问题。Grok 4.3的知识面确实更广了(准确率提升),但它不懂装懂的概率也变高了(非幻觉率下降)。面对答不出的问题,它更倾向于振振有词地胡编乱造,而不是坦诚告诉你“我不知道”。
你可以让Grok 4.3帮你起草一份邮件、整理一份清单,但如果是让它审查法律合同、出具医疗建议或者排查复杂的系统Bug,千万别大意。在这些高容错率场景,刚发布的GPT-5.5仍然是更稳妥的选择——OpenAI新模型在自主规划和调用工具上的稳定性,以及极低的Token消耗成本,依然是目前的行业标杆。
Grok 4.3的发布,标志着xAI的战略正在悄悄转弯:不再死磕“世界第一”的光环,而是开始抢夺真实的开发者生态和落地场景。
它给自己找准了一个极其讨喜的定位:高性价比工作型模型。日常高频的轻量级任务,用它省钱又省时;至于那些需要死磕硬核推理的脑力活,留给GPT-5.5们去卷就好。毕竟,谁出门买菜还要开超跑呢?
对于整个AI行业来说,这是一个好信号。当巨头们不再只盯着排行榜互卷,而是卷价格、卷速度、卷工具落地,真正的AI普惠时代才算拉开帷幕。
文章来源: