转载自《AGI Hunt》
Grok 4来了!
并已经对X Premium+订阅者开放。
这次,不是个简单的升级。
也不再是鸽rok!
Artificial Analysis(@ArtificialAnlys)拿到了Grok 4的早期访问权限,跑完全套基准测试后得出结论:
Grok 4现在是领先的AI模型。
碾压所有对手
Artificial Analysis给出的数据展示:
Grok 4的人工智能指数达到73,超过了OpenAI o3的70分、Google Gemini 2.5 Pro的70分、Anthropic Claude 4 Opus的64分和DeepSeek R1 0528的68分。
碾压所有对手!
所有!
这是@elonmusk的@xai第一次在AI前沿领域拔得头筹。
Grok 3的表现已经能与OpenAI、Anthropic和Google的最新模型相媲美,但Grok 4是第一个让xAI登顶的模型。
全方位的性能爆表
详细的基准测试结果更是让人惊叹:
关键成绩包括:
不只是聪明,还会唱歌
Grok 4不仅在智力测试上表现出色,还具备了更多实用功能:
定价方面,Grok 4保持了与Grok 3相同的价格:每百万输入/输出token收费3美元/15美元(缓存输入为0.75美元/百万token)。
「人类最后的考试」上的惊人表现
回到那个终极挑战——「人类最后的考试」。
根据最新数据,Grok 4 heavy版本在这个测试上达到了50.7%的成绩:
「Grok 4可能在每个学科上都达到博士水平,没有例外」
「也许今年就能发现新技术,两年内肯定能发现新物理学」
Colonel Tasty(@JoshhuaSays)分享的各学科详细得分更是让人震撼:
这就是终局吗?
Johnny West(@johnnywestt)直接宣布:
Grok 4是王者👑
Jack Shiels(@shiels_ai)惊讶地发现:
所以这还不是工具调用模型?哇!
但Hamza(@thegenioo)的反应相对冷静:
只提升了2分?
sid__(@sid009_)的评论一针见血:
AI竞赛变得有趣了。
Yorkshire Lass(@eyup_io)的感慨更接地气:
对于任何考试困难户来说,这听起来就像噩梦。我敢打赌,我们大多数人早餐前就会不及格!
智能的天花板
看着这些数据,最让我震撼的不是Grok 4的成绩和数字,而是:
「Still no wall.」
依然没有撞墙。
当所有人都在讨论AI何时会触及智能的极限时,模型将要停滞时,Grok的进化曲线告诉我们:
天花板,还远得很。
每一代10倍的性能提升,从Grok 1到Grok 4,这条指数增长的曲线没有任何放缓的迹象。
更令人深思的是,Grok 4在「人类最后的考试」上拿下50.7%,这只是在没有触及任何技术瓶颈的情况下达到的。
如果智能真的没有上限,那么「人类最后的考试」这个名字就显得格外讽刺。
它可能不是人类为AI设计的最后一场考试,而是人类能够理解的最后一场考试。
最人类在AI 面前的最后一场关于智慧的战斗。
当AI的智能继续以指数级增长,而我们还在用百分制来衡量它时,谁才是真正被困在墙内的那个?
答案或许早就已经不是AI,而是我们人类自身。
[1]
Artificial Analysis完整测评: https://artificialanalysis.ai/
[2]
@MarioNawfal原推文: https://twitter.com/MarioNawfal/status/1943165222878953770
[3]
@ArtificialAnlys测评报告: https://twitter.com/ArtificialAnlys/status/1943167262397206760
[4]
@apples_jimmy详细数据: https://twitter.com/apples_jimmy/status/1943165222878953770