刚刚,Grok 4发布,「人类最后的考试」中拿下50.7%,碾压所有对手,游戏结束?
创始人
2025-07-10 14:15:24
0

转载自《AGI Hunt》

Grok 4来了!

并已经对X Premium+订阅者开放。

这次,不是个简单的升级。

也不再是鸽rok!

Artificial Analysis(@ArtificialAnlys)拿到了Grok 4的早期访问权限,跑完全套基准测试后得出结论:

Grok 4现在是领先的AI模型。

碾压所有对手

Artificial Analysis给出的数据展示:

Grok 4的人工智能指数达到73,超过了OpenAI o3的70分、Google Gemini 2.5 Pro的70分、Anthropic Claude 4 Opus的64分和DeepSeek R1 0528的68分。

碾压所有对手!

所有!

这是@elonmusk的@xai第一次在AI前沿领域拔得头筹

Grok 3的表现已经能与OpenAI、Anthropic和Google的最新模型相媲美,但Grok 4是第一个让xAI登顶的模型。

全方位的性能爆表

详细的基准测试结果更是让人惊叹:

关键成绩包括:

  • 在编码指数(LiveCodeBench & SciCode)和数学指数(AIME24 & MATH-500)上全面领先

  • GPQA Diamond创下88%的历史新高,超越了Gemini 2.5 Pro之前84%的纪录
  • 「人类最后的考试」得分24%,打破Gemini 2.5 Pro之前21%的最高分
  • MMLU-Pro和AIME 2024分别达到87%和94%的最高分
  • 输出速度75 tokens/s,虽然慢于o3(188 tokens/s)和Gemini 2.5 Pro(142 tokens/s),但快于Claude 4 Opus Thinking(66 tokens/s)

不只是聪明,还会唱歌

Grok 4不仅在智力测试上表现出色,还具备了更多实用功能:

  • 256k token的上下文窗口
  • 支持文本和图像输入
  • 支持函数调用和结构化输出
  • 甚至能够唱歌——这个语音功能让AI更加生动有趣

定价方面,Grok 4保持了与Grok 3相同的价格:每百万输入/输出token收费3美元/15美元(缓存输入为0.75美元/百万token)。

「人类最后的考试」上的惊人表现

回到那个终极挑战——「人类最后的考试」。

根据最新数据,Grok 4 heavy版本在这个测试上达到了50.7%的成绩:

  • 使用工具时为41%
  • 不使用工具时为26.9%

「Grok 4可能在每个学科上都达到博士水平,没有例外」

「也许今年就能发现新技术,两年内肯定能发现新物理学」

Colonel Tasty(@JoshhuaSays)分享的各学科详细得分更是让人震撼:

这就是终局吗?

Johnny West(@johnnywestt)直接宣布:

Grok 4是王者👑

Jack Shiels(@shiels_ai)惊讶地发现:

所以这还不是工具调用模型?哇!

但Hamza(@thegenioo)的反应相对冷静:

只提升了2分?

sid__(@sid009_)的评论一针见血:

AI竞赛变得有趣了。

Yorkshire Lass(@eyup_io)的感慨更接地气:

对于任何考试困难户来说,这听起来就像噩梦。我敢打赌,我们大多数人早餐前就会不及格!

智能的天花板

看着这些数据,最让我震撼的不是Grok 4的成绩和数字,而是:

「Still no wall.」

依然没有撞墙。

当所有人都在讨论AI何时会触及智能的极限时,模型将要停滞时,Grok的进化曲线告诉我们:

天花板,还远得很。

每一代10倍的性能提升,从Grok 1到Grok 4,这条指数增长的曲线没有任何放缓的迹象。

更令人深思的是,Grok 4在「人类最后的考试」上拿下50.7%,这只是在没有触及任何技术瓶颈的情况下达到的。

如果智能真的没有上限,那么「人类最后的考试」这个名字就显得格外讽刺。

它可能不是人类为AI设计的最后一场考试,而是人类能够理解的最后一场考试。

最人类在AI 面前的最后一场关于智慧的战斗。

当AI的智能继续以指数级增长,而我们还在用百分制来衡量它时,谁才是真正被困在墙内的那个?

答案或许早就已经不是AI,而是我们人类自身。

[1]

Artificial Analysis完整测评: https://artificialanalysis.ai/

[2]

@MarioNawfal原推文: https://twitter.com/MarioNawfal/status/1943165222878953770

[3]

@ArtificialAnlys测评报告: https://twitter.com/ArtificialAnlys/status/1943167262397206760

[4]

@apples_jimmy详细数据: https://twitter.com/apples_jimmy/status/1943165222878953770

相关内容

热门资讯

FC2素人AV女优身份被扒!竟... 近日,一则关于FC2平台上的素人女优身份曝光的新闻在社交媒体上引发了广泛的关注和讨论。这位被起底的女...
绝区零开服盛宴:螃蟹游戏服务网... 随着《绝区零》这款备受瞩目的游戏正式开服,一场前所未有的冒险之旅即将拉开序幕。在这个充满未知与挑战的...
在线指导碧蓝档案,海外如何下载... 对于身处海外的玩家来说,下载并体验《碧蓝档案》可能会遇到一些挑战,如网络限制、地区限制等。不过,通过...
告诉你碧蓝档案海外在哪下载,海... 对于身处海外的玩家来说,想要下载并体验《碧蓝档案》可能会遇到一些挑战,如网络限制、地区限制等。但不用...
DNF手游:最贵装备汇总!魔剑... 在DNF手游的浩瀚世界中,玩家心中的璀璨星辰无疑是那些拥有神秘力量、令人瞩目的顶级装备。它们是玩家在...
原创 《... 大家好,我是你们亲爱的小编,这次我要向各位介绍一位知名博主,她是来自某音平台的大美女,她用自己独特的...
震惊!抖音手游内部号真相大揭秘... 揭秘:抖音手游内部号真相大起底! 各位游戏达人们,今天小编要和大家聊聊一个热门话题——抖音上那些神秘...
植物大战僵尸融合最新版本更新内... 你是否已经厌倦了传统的《植物大战僵尸》游戏模式?现在,让我们一起走进一个全新的游戏世界——植物大战僵...
原创 《... 2019年5月30日,《勇者斗恶龙10》国服正式关闭,与许多半途而死的网游一样,这款游戏在国区的停运...
绝地求生pubg吃鸡载入时间长... 在《绝地求生:大逃杀》(PUBG)这片硝烟弥漫的战场上,每一秒都至关重要。然而,不少玩家在准备投身于...