ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%_资讯_珍知游戏网

ChatGPT Agent多项测试跑分破纪录 HLE测试获41.6%

创始人

2025-07-18 12:27:09

0次

【CNMO科技消息】7月18日，Open AI首席执行官Sam Altman和四位研究员在直播中正式发布了ChatGPT Agent——一款通用型AI智能体。CNMO获悉，在HLE测试中，ChatGPT agent拿下了41.6%高分，并在数学FrontierMath基准上刷新了SOTA，碾压o4-mini和o3模型。

Sam Altman（最右）及他的团队

ChatGPT Agent融合了Operator、Deep Research和ChatGPT三大模块优势，能够自主完成网页浏览、数据分析、PPT制作等复杂任务。

ChatGPT Agent在HLE测试中获得41.6%的高分，采用并行八路推理并选取置信度最高答案后可提升到44.4%。在数学基准测试FrontierMath中，以27.4%的准确率刷新了纪录。

在Excel编辑能力的SpreadsheetBench测试中，ChatGPT agent的表现同样远超现有模型。当获得直接编辑权限时，以45.5%的得分显著超越Excel Copilot的20.0%。此外，它还在BrowseComp、WebArena等浏览评测里均刷新了SOTA。

据悉，该产品已面向Pro、Plus和Team用户开放。Pro用户可以马上使用，Plus与Team用户将在数日内陆续开通，Enterprise与Education版本将于数周后接入。

上一篇：LPL刮起了“裁员”风！Wei和jiejie互换，Wei去IG，jiejie去BLG？

下一篇：深耕科技育人，联想大学生超能AI挑战赛创新赛制托举AI人才成长

相关内容

热门资讯

FC2素人AV女优身份被扒！竟... 近日，一则关于FC2平台上的素人女优身份曝光的新闻在社交媒体上引发了广泛的关注和讨论。这位被起底的女...

绝区零开服盛宴：螃蟹游戏服务网... 随着《绝区零》这款备受瞩目的游戏正式开服，一场前所未有的冒险之旅即将拉开序幕。在这个充满未知与挑战的...

在线指导碧蓝档案，海外如何下载... 对于身处海外的玩家来说，下载并体验《碧蓝档案》可能会遇到一些挑战，如网络限制、地区限制等。不过，通过...

告诉你碧蓝档案海外在哪下载，海... 对于身处海外的玩家来说，想要下载并体验《碧蓝档案》可能会遇到一些挑战，如网络限制、地区限制等。但不用...

DNF手游：最贵装备汇总！魔剑... 在DNF手游的浩瀚世界中，玩家心中的璀璨星辰无疑是那些拥有神秘力量、令人瞩目的顶级装备。它们是玩家在...

原创《... 大家好，我是你们亲爱的小编，这次我要向各位介绍一位知名博主，她是来自某音平台的大美女，她用自己独特的...

震惊！抖音手游内部号真相大揭秘... 揭秘：抖音手游内部号真相大起底！各位游戏达人们，今天小编要和大家聊聊一个热门话题——抖音上那些神秘...

植物大战僵尸融合最新版本更新内... 你是否已经厌倦了传统的《植物大战僵尸》游戏模式？现在，让我们一起走进一个全新的游戏世界——植物大战僵...

原创《... 2019年5月30日，《勇者斗恶龙10》国服正式关闭，与许多半途而死的网游一样，这款游戏在国区的停运...

绝地求生pubg吃鸡载入时间长... 在《绝地求生：大逃杀》（PUBG）这片硝烟弥漫的战场上，每一秒都至关重要。然而，不少玩家在准备投身于...