OpenAI实名举报Grok3作弊,一题答64次踩着台阶和o3-mini比
创始人
2025-02-22 00:32:23
0

明敏 发自 凹非寺

量子位 | 公众号 QbitAI

Grok-3才发布3天,就陷入 作弊风波

隔壁OpenAI应用主管火速掀桌:每次评估中o3-mini都要比Grok-3好,看到Grok团队作弊真是令人失望。

咋回事?

在Grok-3的Blog中有一张AIME 2025评估图令人印象深刻,两个新版本模型都超过o3-mini高配版。

但注意看,Grok-3两个模型的柱状图中都有1段 颜色更浅的部分。OpenAI指责的作弊,就是在这里。

浅色部分代表了Grok-3模型在Con@64上的成绩。

即这是模型 进行64次答案后的成绩,而不是单次回答

那么问题就来了,被拿来对比的o3-mini、o1、DeepSeek-R1、Gemini-2 Flash Thinking似乎并没有这部分成绩。

有人就表示,如果真是如此,那么Grok-3推理模型只是和o1相当。OpenAI和xAI之间依旧差了9个月。

OpenAI负责模型设计的研究员Aidan McLaughlin更是激情开麦,表示马斯克发布时说的话极其有 误导性,这会让人以为浅蓝色部分是通过推理实现的成绩。

不过值得一提的是,这种模型评估对比方法似乎是OpenAI开了头。o3-mini的Blog中,也看到了类似形式的评估。

所以,为啥这么对比不合理?

采用cons@64,o1都能和o3-mini相当

首先明确概念:

cons@64:让模型生成64个答案,最终采用出现频率最高的回答。

pass@64:如果64个答案中只要有一个答案正确,模型就得分。

所以有人就说了,问题的关键不是xAI不应该使用cons@64;

关键在于,如果其他模型只是尝试了一次,那就不太公平了。

因为blog中并没有说清楚,所以假定是这种情况。

有AI博主也列出了搜集到的相关数据,o3-mini在单次回答上的表现更好。

其次,根据o3-mini的blog,o1模型采用cons@64成绩,甚至可以和o3-mini打个相当。

这意味着采用cons@64成绩是“有优势”的。

有人也揪着这事不放,但是OpenAI确实没让o3-mini用cons@64。

最后,Grok-3发布时的说法似乎有一定误导性。

有人贴出来了原片段。在被问及评估图中的浅色部分是什么时,官方给出的解释是:

这些模型可以推理、可以思考,可以要求模型思考更长、花更多时间进行测试时推理。这种情况下,这些浅色部分意味着我们只是花费更多时间让模型解决同一个问题,然后它才会得出什么是正确的答案。如果这样做,模型甚至可以表现得更好。

OpenAI研究员Aidan觉得这段话极具误导性,他只是说使用更多测试时计算,听起来像是做更多推理,但其实不是如此。

总而言之,Grok团队这么干确实有点不地道。

吃瓜到这,网友们不免开始蛐蛐:

Grok-3不如o3-mini,马斯克就会给团队上压力。然后想出的好办法就是在基准测试上做手脚。

以及为啥都不和Claude做对比呢?

不过也有人觉得这事不能一棒子打死,Grok仍旧有很多值得关注的方面。比如Grok-3一个月前才完成预训练,这只是一个月内基于CoT的后训练结果,模型还有很大的提升空间。此外xAI正在以行业内最快的速度扩展预训练计算能力。

以及Grok-3发布后,开发者们已经火速琢磨出了一些有趣的新玩法。

轻松开发小游戏

这不,有人就晒出了在特斯拉上完用Replit+Grok开发的小游戏。

还有曾在微软深度参与Windows系统开发的大佬Dave Plummer,也用Grok-3复刻了经典的打砖块游戏。

他为Windows创建了任务管理器、为Windows完成了对zip文件的支持。

这一次,他展示了如何只用几句话就让Grok-3开发小游戏。

提示词都很简单:

  • “来做个彩色版打砖块怎么样”

  • “让球自动移动,并让球每次从球拍上弹起时速度提高 10%”

  • “很好,球在垂直弹射时会卡住。一开始游戏是怎么设计的?do the same”

最后得到的效果是这样的:

值得一提的是,马斯克最近证实了成立了AI游戏工作室的消息,他要让游戏再次伟大(doge)。

参考链接:

[2]https://www.reddit.com/r/singularity/comments/1itoi3f/grok3_thinking_had_to_take_64_answers_per/

[3]https://www.tomshardware.com/tech-industry/artificial-intelligence/grok-3-used-to-clone-breakout-game-fabled-windows-developer-shares-prompts-and-code

评选报名2025年值得关注的AIGC企业&产品

下一个AI“国产之光”将会是谁?

本次评选结果将于4月中国AIGC产业峰会上公布,欢迎参与!

相关内容

热门资讯

FC2素人AV女优身份被扒!竟... 近日,一则关于FC2平台上的素人女优身份曝光的新闻在社交媒体上引发了广泛的关注和讨论。这位被起底的女...
绝区零开服盛宴:螃蟹游戏服务网... 随着《绝区零》这款备受瞩目的游戏正式开服,一场前所未有的冒险之旅即将拉开序幕。在这个充满未知与挑战的...
在线指导碧蓝档案,海外如何下载... 对于身处海外的玩家来说,下载并体验《碧蓝档案》可能会遇到一些挑战,如网络限制、地区限制等。不过,通过...
告诉你碧蓝档案海外在哪下载,海... 对于身处海外的玩家来说,想要下载并体验《碧蓝档案》可能会遇到一些挑战,如网络限制、地区限制等。但不用...
DNF手游:最贵装备汇总!魔剑... 在DNF手游的浩瀚世界中,玩家心中的璀璨星辰无疑是那些拥有神秘力量、令人瞩目的顶级装备。它们是玩家在...
原创 《... 大家好,我是你们亲爱的小编,这次我要向各位介绍一位知名博主,她是来自某音平台的大美女,她用自己独特的...
震惊!抖音手游内部号真相大揭秘... 揭秘:抖音手游内部号真相大起底! 各位游戏达人们,今天小编要和大家聊聊一个热门话题——抖音上那些神秘...
植物大战僵尸融合最新版本更新内... 你是否已经厌倦了传统的《植物大战僵尸》游戏模式?现在,让我们一起走进一个全新的游戏世界——植物大战僵...
原创 《... 2019年5月30日,《勇者斗恶龙10》国服正式关闭,与许多半途而死的网游一样,这款游戏在国区的停运...
绝地求生pubg吃鸡载入时间长... 在《绝地求生:大逃杀》(PUBG)这片硝烟弥漫的战场上,每一秒都至关重要。然而,不少玩家在准备投身于...