AI评测新招:让AI在《我的世界》中比拼建筑创意
创始人
2025-03-22 17:53:23
0

在探索人工智能(AI)能力边界的过程中,传统的基准测试方法正面临挑战。为了更全面、直观地评估AI模型的能力,开发者们正转向一些非传统途径,其中,《我的世界》这款沙盒建造游戏成为了备受瞩目的测试平台。

据TechCrunch报道,一位名叫阿迪·辛格的高三学生,凭借对AI评测的独到见解,创建了名为Minecraft Benchmark(简称MC-Bench)的网站。该网站利用《我的世界》作为竞技场,让AI模型在相同的提示下生成建筑作品,并通过用户投票的方式评选出优秀作品。投票结束后,才会揭晓每幅作品的创作者——即哪款AI模型。

辛格表示,选择《我的世界》并非因为其游戏性,而是其广泛的知名度和独特的方块风格。这种风格使得即便是非玩家也能轻松分辨出哪个方块状的建筑更加逼真。“《我的世界》为我们提供了一个直观的窗口,让我们能够清晰地看到AI发展的进步。大家对这款游戏的视觉风格非常熟悉,这使得评估过程更加直接和有效。”

目前,MC-Bench网站已经吸引了8名志愿贡献者的加入。Anthropic、谷歌、OpenAI和阿里巴巴等科技巨头为该项目提供了宝贵的AI计算资源支持,尽管他们并未直接参与网站的开发工作。

辛格进一步解释说,MC-Bench目前的测试还处于基础阶段,主要用于观察AI从GPT-3时代到现在的进步。然而,他展望了未来可能的拓展方向:“我们或许可以将测试扩展到更复杂的目标导向任务和长期规划能力评估。游戏作为一种测试平台,具有安全性和可控性的优势,是评估AI智能体推理能力的理想选择。”

从严格意义上讲,MC-Bench属于编程基准测试的一种变体,因为AI模型需要编写代码来生成建筑,如“霜雪人”或“热带风情的海滨小屋”等。这种测试方式相较于传统的代码分析更具直观性,因为大多数用户更容易通过作品本身来评判AI的表现。

尽管关于这些测试结果是否能真正反映AI的实际应用价值仍存在争议,但辛格认为这些数据仍然具有重要的参考价值。“MC-Bench的排行榜与我在实际使用中的体验高度一致,这在许多传统的文本基准测试中并不常见。因此,我相信它能够帮助AI开发者判断自己是否正在朝着正确的方向前进。”

相关内容

热门资讯

FC2素人AV女优身份被扒!竟... 近日,一则关于FC2平台上的素人女优身份曝光的新闻在社交媒体上引发了广泛的关注和讨论。这位被起底的女...
绝区零开服盛宴:螃蟹游戏服务网... 随着《绝区零》这款备受瞩目的游戏正式开服,一场前所未有的冒险之旅即将拉开序幕。在这个充满未知与挑战的...
在线指导碧蓝档案,海外如何下载... 对于身处海外的玩家来说,下载并体验《碧蓝档案》可能会遇到一些挑战,如网络限制、地区限制等。不过,通过...
告诉你碧蓝档案海外在哪下载,海... 对于身处海外的玩家来说,想要下载并体验《碧蓝档案》可能会遇到一些挑战,如网络限制、地区限制等。但不用...
DNF手游:最贵装备汇总!魔剑... 在DNF手游的浩瀚世界中,玩家心中的璀璨星辰无疑是那些拥有神秘力量、令人瞩目的顶级装备。它们是玩家在...
原创 《... 大家好,我是你们亲爱的小编,这次我要向各位介绍一位知名博主,她是来自某音平台的大美女,她用自己独特的...
震惊!抖音手游内部号真相大揭秘... 揭秘:抖音手游内部号真相大起底! 各位游戏达人们,今天小编要和大家聊聊一个热门话题——抖音上那些神秘...
植物大战僵尸融合最新版本更新内... 你是否已经厌倦了传统的《植物大战僵尸》游戏模式?现在,让我们一起走进一个全新的游戏世界——植物大战僵...
原创 《... 2019年5月30日,《勇者斗恶龙10》国服正式关闭,与许多半途而死的网游一样,这款游戏在国区的停运...
绝地求生pubg吃鸡载入时间长... 在《绝地求生:大逃杀》(PUBG)这片硝烟弥漫的战场上,每一秒都至关重要。然而,不少玩家在准备投身于...