查看: 70 | 回复: 0
全球顶尖大模型集体翻车!ARC-AGI-3测试,人类满分AI最高0.2%
[复制链接]
本帖最后由 aidj 于 29-3-2026 08:13 PM 编辑
魏家东
VIDEO
就在今天,一条消息炸遍整个AI圈——全球唯一尚未饱和的智能体基准测试ARC-AGI-3正式出炉,直接把全球顶尖大模型“打回原形”。人类在测试中拿下100%满分,而最顶尖的AI模型得分普遍低于1%,曾经的“学霸”ClaudeOpus4.6更是仅得0.2%。这场测试像一面照妖镜,戳破了“AGI已至”的泡沫,也让所有人看清:当下的AI,离真正的通用智能,还差着一座珠穆朗玛峰的距离。
一、惨烈成绩单:人类满分,AI连1分都拿不到
ARC-AGI-3的测试结果,用“惨烈”二字形容毫不为过。1200多名普通人类玩家参与测试,完成3900多场游戏,整体基线得分100%。大多数人不仅轻松通关,还能玩出“速通”操作,甚至挑战理论最优步数——对人类而言,这些游戏更像是轻松的休闲项目,而非高难度测试。
反观AI阵营,结果堪称“集体溃败”。在上一代ARC-AGI-2测试中拿下69.2%高分的ClaudeOpus4.6,到了ARC-AGI-3直接“现原形”,得分仅0.2%,是纯大模型里的第一名。其余包括GPT系列、Gemini系列在内的所有前沿大模型,得分全部低于1%,有的甚至频繁崩溃,分数趋近于0。
更反直觉的是,测试排行榜前三名全是非大模型方案:基于卷积神经网络(CNN)的StochasticGoose、基于规则的状态图探索、无需训练的帧图搜索。其中StochasticGoose以12.58%的得分成为预览期冠军,比GPT-5.x系列高出12个百分点以上。但即便如此,它在一款调水位游戏中,开局仍花了近350步做无效点击,而人类只需要两三下就能摸清规则。
这组数据背后,是AI与人类智能的本质差距——人类是“会学习的智能”,而当下的AI,只是“会匹配模式的工具”。
二、ARC-AGI-3到底有多“变态”?从静态题到互动游戏的维度升级
ARC-AGI系列一直是AI圈的“魔鬼测试”,前两代ARC-AGI-1、ARC-AGI-2就以“抽象推理”难倒无数模型。而ARC-AGI-3,直接把难度拉到了全新维度:从“静态题”变成了“无提示互动游戏”。
测试包含150多个手工设计的交互式游戏环境,1000多个关卡。每个游戏都有专属逻辑、隐藏规则和通关条件,但没有任何说明文档、没有自然语言提示、没有任何操作指引——AI不知道“左边按钮会开门”,也不知道“收集三个红色方块能过关”,只能像盲人摸象一样,通过观察画面、执行动作、反馈结果,一步步拼凑对世界的认知。
ARCPrize基金会设计这套测试,核心是测AI的四大核心能力:
探索:能否主动与环境互动,获取关键信息?
建模:能否把零散观察,凝聚成可预测未来的世界模型?
目标获取:无人下达指令,能否自主判断“该以什么为目标”?
规划与执行:能否规划行动路径,并根据反馈随时修正?
这四项能力,恰恰是人类与生俱来的本能,却是当下AI的致命短板。
更“残忍”的是它的评分标准——不看“是否通关”,只看“效率”,且直接对标人类效率。评分公式为:(人类步数/AI步数)²。比如人类10步解决的问题,AI用了100步,得分仅1%;用了200步,得分0.25%;用了500步,得分仅0.04%。这种规则直接堵死了AI的“蛮力穷举”之路——多试一步,分数就断崖式下跌。Opus4.6的0.2%,换算下来意味着它解决人类10步的问题,需要走约224步,完全是在迷宫里原地转圈。
三、AI为何惨败?缺的不是算力,是“元认知”
ARC团队在测试中发现一个关键现象:AI的主要失败模式,是“以为自己在玩另一个游戏”。就像一个人被蒙眼扔进厨房,摸到圆形物体就断定是篮球,开始疯狂“投篮”——AI在全新环境中,看到初始视觉信息,会迅速“脑补”一个熟悉的游戏框架,然后沿着错误假设死磕到底,越走越偏,却从不停下来反思:“我的假设是不是错了?”
这背后,是当下AI缺乏元认知能力——它不知道自己不知道,更不会主动修正错误认知。参数量越大、预训练知识越丰富的大模型,反而越容易陷入这个陷阱。它们被海量数据“喂”出了强烈的“先入为主”,遇到陌生场景,第一反应是匹配已知模式,而非从零探索;而轻量级CNN、图搜索系统,因为没有“知识包袱”,反而能老老实实地从环境反馈中学习,成绩反而更好。
反观人类,面对全新游戏时,会本能地完成“探索-建模-验证-修正”的循环:
先观察,几分钟内搭建粗糙但可用的“世界模型”;
再验证,根据结果强化或修正模型;
最后快速迭代,错了就改,改了再试。
人类的学习是在线、交互、假设驱动的,而AI的学习是离线、数据驱动、模式匹配的。ARC-AGI-3没有“题海战术”可依赖,考的正是“如何学习”——这恰恰是目前AI最弱的一环。
四、AGI之争:黄仁勋说“已实现”,测试说“还差99%”
就在ARC-AGI-3发布前,英伟达CEO黄仁勋在采访中直言“我们已经实现了AGI”,引发行业热议。但ARC-AGI-3的结果,无疑给这一观点泼了一盆冷水——当下的AI,或许连1%的AGI都没实现。
关于AGI的定义,学界和产业界一直存在分歧。黄仁勋的定义偏向实用主义:“AI能否启动、运营一家价值超10亿美元的公司”,大幅降低了AGI门槛。而学界主流观点,如Bengio团队提出的定义,将AGI视为“能匹配或超越受过良好教育成年人的认知广度和熟练度”,涵盖推理、记忆、感知等10项核心能力,总分100分才算达标。
ARC-AGI-3的测试逻辑,更贴合学界对AGI的核心要求——通用学习能力。它不考AI记住了多少知识,而考AI能否在无提示、无经验的全新环境中,自主探索、建模、规划并高效解决问题。从这个角度看,当下所有大模型都远未达标,它们只是在特定任务上表现出色的“窄AI”,而非真正的“通用智能”。
目前,ARC-AGI-3挑战赛奖金池高达85万美元,其中70万美元留给“满分通关者”,且要求参赛者完全开源代码、在无网环境下评估——杜绝了调用云端大模型、联网查资料的“作弊”可能。
这场测试撕开了AI行业的“遮羞布”,也让所有人清醒:AGI不是靠堆算力、扩参数就能实现的,它需要突破“元认知”“自主学习”等底层认知瓶颈。人类与AI的差距,从来不是算力,而是“会思考、会学习、会反思”的本能。
ARC-AGI-3的出现,不是否定AI的进步,而是为AGI研究指明了更清晰的方向——未来的AI,不能再做“只会刷题的应试高手”,而要成为“会学习、会探索、会修正”的真正智能体。至于这座天堑何时能被跨越,我们只能静待时间给出答案。
特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.
本周最热论坛帖子