全球顶尖大模型集体翻车！ARC-AGI-3测试，人类满分AI最高0.2%

aidj · 发表于 29-3-2026 08:02 PM

本帖最后由 aidj 于 29-3-2026 08:13 PM 编辑

魏家东

就在今天，一条消息炸遍整个AI圈——全球唯一尚未饱和的智能体基准测试ARC-AGI-3正式出炉，直接把全球顶尖大模型“打回原形”。人类在测试中拿下100%满分，而最顶尖的AI模型得分普遍低于1%，曾经的“学霸”ClaudeOpus4.6更是仅得0.2%。这场测试像一面照妖镜，戳破了“AGI已至”的泡沫，也让所有人看清：当下的AI，离真正的通用智能，还差着一座珠穆朗玛峰的距离。

一、惨烈成绩单：人类满分，AI连1分都拿不到

ARC-AGI-3的测试结果，用“惨烈”二字形容毫不为过。1200多名普通人类玩家参与测试，完成3900多场游戏，整体基线得分100%。大多数人不仅轻松通关，还能玩出“速通”操作，甚至挑战理论最优步数——对人类而言，这些游戏更像是轻松的休闲项目，而非高难度测试。

反观AI阵营，结果堪称“集体溃败”。在上一代ARC-AGI-2测试中拿下69.2%高分的ClaudeOpus4.6，到了ARC-AGI-3直接“现原形”，得分仅0.2%，是纯大模型里的第一名。其余包括GPT系列、Gemini系列在内的所有前沿大模型，得分全部低于1%，有的甚至频繁崩溃，分数趋近于0。

更反直觉的是，测试排行榜前三名全是非大模型方案：基于卷积神经网络（CNN）的StochasticGoose、基于规则的状态图探索、无需训练的帧图搜索。其中StochasticGoose以12.58%的得分成为预览期冠军，比GPT-5.x系列高出12个百分点以上。但即便如此，它在一款调水位游戏中，开局仍花了近350步做无效点击，而人类只需要两三下就能摸清规则。

这组数据背后，是AI与人类智能的本质差距——人类是“会学习的智能”，而当下的AI，只是“会匹配模式的工具”。

二、ARC-AGI-3到底有多“变态”？从静态题到互动游戏的维度升级

ARC-AGI系列一直是AI圈的“魔鬼测试”，前两代ARC-AGI-1、ARC-AGI-2就以“抽象推理”难倒无数模型。而ARC-AGI-3，直接把难度拉到了全新维度：从“静态题”变成了“无提示互动游戏”。

测试包含150多个手工设计的交互式游戏环境，1000多个关卡。每个游戏都有专属逻辑、隐藏规则和通关条件，但没有任何说明文档、没有自然语言提示、没有任何操作指引——AI不知道“左边按钮会开门”，也不知道“收集三个红色方块能过关”，只能像盲人摸象一样，通过观察画面、执行动作、反馈结果，一步步拼凑对世界的认知。

ARCPrize基金会设计这套测试，核心是测AI的四大核心能力：

探索：能否主动与环境互动，获取关键信息？

建模：能否把零散观察，凝聚成可预测未来的世界模型？

目标获取：无人下达指令，能否自主判断“该以什么为目标”？

规划与执行：能否规划行动路径，并根据反馈随时修正？

这四项能力，恰恰是人类与生俱来的本能，却是当下AI的致命短板。

更“残忍”的是它的评分标准——不看“是否通关”，只看“效率”，且直接对标人类效率。评分公式为：(人类步数/AI步数)²。比如人类10步解决的问题，AI用了100步，得分仅1%；用了200步，得分0.25%；用了500步，得分仅0.04%。这种规则直接堵死了AI的“蛮力穷举”之路——多试一步，分数就断崖式下跌。Opus4.6的0.2%，换算下来意味着它解决人类10步的问题，需要走约224步，完全是在迷宫里原地转圈。

三、AI为何惨败？缺的不是算力，是“元认知”

ARC团队在测试中发现一个关键现象：AI的主要失败模式，是“以为自己在玩另一个游戏”。就像一个人被蒙眼扔进厨房，摸到圆形物体就断定是篮球，开始疯狂“投篮”——AI在全新环境中，看到初始视觉信息，会迅速“脑补”一个熟悉的游戏框架，然后沿着错误假设死磕到底，越走越偏，却从不停下来反思：“我的假设是不是错了？”

这背后，是当下AI缺乏元认知能力——它不知道自己不知道，更不会主动修正错误认知。参数量越大、预训练知识越丰富的大模型，反而越容易陷入这个陷阱。它们被海量数据“喂”出了强烈的“先入为主”，遇到陌生场景，第一反应是匹配已知模式，而非从零探索；而轻量级CNN、图搜索系统，因为没有“知识包袱”，反而能老老实实地从环境反馈中学习，成绩反而更好。

反观人类，面对全新游戏时，会本能地完成“探索-建模-验证-修正”的循环：

先观察，几分钟内搭建粗糙但可用的“世界模型”；

再验证，根据结果强化或修正模型；

最后快速迭代，错了就改，改了再试。

人类的学习是在线、交互、假设驱动的，而AI的学习是离线、数据驱动、模式匹配的。ARC-AGI-3没有“题海战术”可依赖，考的正是“如何学习”——这恰恰是目前AI最弱的一环。

四、AGI之争：黄仁勋说“已实现”，测试说“还差99%”

就在ARC-AGI-3发布前，英伟达CEO黄仁勋在采访中直言“我们已经实现了AGI”，引发行业热议。但ARC-AGI-3的结果，无疑给这一观点泼了一盆冷水——当下的AI，或许连1%的AGI都没实现。

关于AGI的定义，学界和产业界一直存在分歧。黄仁勋的定义偏向实用主义：“AI能否启动、运营一家价值超10亿美元的公司”，大幅降低了AGI门槛。而学界主流观点，如Bengio团队提出的定义，将AGI视为“能匹配或超越受过良好教育成年人的认知广度和熟练度”，涵盖推理、记忆、感知等10项核心能力，总分100分才算达标。

ARC-AGI-3的测试逻辑，更贴合学界对AGI的核心要求——通用学习能力。它不考AI记住了多少知识，而考AI能否在无提示、无经验的全新环境中，自主探索、建模、规划并高效解决问题。从这个角度看，当下所有大模型都远未达标，它们只是在特定任务上表现出色的“窄AI”，而非真正的“通用智能”。

目前，ARC-AGI-3挑战赛奖金池高达85万美元，其中70万美元留给“满分通关者”，且要求参赛者完全开源代码、在无网环境下评估——杜绝了调用云端大模型、联网查资料的“作弊”可能。

这场测试撕开了AI行业的“遮羞布”，也让所有人清醒：AGI不是靠堆算力、扩参数就能实现的，它需要突破“元认知”“自主学习”等底层认知瓶颈。人类与AI的差距，从来不是算力，而是“会思考、会学习、会反思”的本能。

ARC-AGI-3的出现，不是否定AI的进步，而是为AGI研究指明了更清晰的方向——未来的AI，不能再做“只会刷题的应试高手”，而要成为“会学习、会探索、会修正”的真正智能体。至于这座天堑何时能被跨越，我们只能静待时间给出答案。

特别声明：本文为网易自媒体平台“网易号”作者上传并发布，仅代表该作者观点。网易仅提供信息发布平台。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

		自动登录	找回密码
密码			注册

全球顶尖大模型集体翻车！ARC-AGI-3测试，人类满分AI最高0.2%

相关帖子

所属分类: 电脑手机

浏览过的版块