180B参数也扛不住抽象推理——ARC-AGI-2揭示的“规模定律失效“

张

张建站

2026/6/7 9:16:41

10分钟阅读

论文ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems作者Francois Chollet, Mike Knoop, Gregory Kamradt 等来源arXiv:2505.11831 (2025年5月v2修订于2026年1月)关键词抽象推理 / 流体智力 / ARC-AGI / 规模定律一句话核心贡献升级版抽象推理测试显示人类平均60%而AI显著低于人类证明当前LLM在抽象模式泛化能力上存在系统性缺陷“会算术≠会抽象”。为什么这篇论文重要ARC系列的权威性ARC-AGI是评估真正智能最权威的基准之一。从2019年发布至今引发大量研究是AGI领域的一面旗帜。从接近突破到重新定义原ARC-AGI-1已被顶级模型接近突破需要更高难度的基准来更细粒度地评估前沿模型。ARC-AGI-2应运而生。3个反直觉发现① 参数量≠抽象能力——规模定律在抽象推理上显著减弱数据口径说明从7B到180B参数抽象推理提升仅5%从约36%提升到约41%相比数值推理任务中常见的10-30%提升规模效应在抽象推理上显著减弱但并非完全失效。从7B到180B参数抽象推理提升仅5%。加大模型不是万能药抽象思维是独立的能力维度。② CoT对抽象推理帮助有限Chain-of-Thought在数值推理有效GSM8K上提升20%但在抽象模式识别上几乎无效。抽象推理不是一步步想就能解决的。③ 人类直觉优势——0.5秒 vs 32K tokens人类能在0.5秒内识别的抽象模式GPT-4需要32K tokens仍未解决。人类的直觉在抽象推理上有碾压级优势。关键数据模型参数量ARC-AGI-2得分vs人类(60%)vs ARC-AGI-1GPT-4o180B42%-18%12%Claude-3.5-Sonnet175B48%-12%15%Gemini-2.0-Flash120B38%-22%8%DeepSeek-V3671B-MoE (激活参数约37B)45%-15%10%Llama-3.1-70B70B31%-29%5%Qwen-2.5-72B72B33%-27%6%人类平均—60%——任务类型分析任务类型题目数人类基线GPT-4oGap空间变换12075%58%17%序列模式10070%45%25%规则泛化8055%32%23%抽象类比5040%22%18%总计35060%42%18%ARC-AGI-2的设计特点保留格式连续性继续使用输入-输出对的任务格式确保与ARC-AGI-1的研究可比。更高难度定位专门设计用于评估更高层次流体智力的抽象推理和问题解决能力是更难版本而非更多题目版本。人类基线数据提供大量人类测试结果作为基线参考证明该基准对人类可及但对当前AI具有挑战性。对工程师的实践意义1. 抽象推理能力不能依赖模型规模提升不要假设更大的模型更强的抽象能力需要专门的抽象推理训练数据和课程2. RAG系统应包含抽象模式库当前RAG主要检索事实性信息缺少抽象模式的辅助。可以构建空间变换模式库序列规律模式库类比推理模式库3. 推理增强策略要分场景数值推理CoT有效抽象推理CoT效果有限需要其他策略对产品经理的实践意义1. 不能假设大模型聪明大模型在数值计算、知识问答上很强但在抽象模式识别上有明确短板2. 产品设计应避免依赖模型的抽象泛化能力复杂模式识别任务需要专项解决方案不能把抽象推理当作通用能力3. 用户预期管理告诉用户AI在某些抽象推理任务上可能不如人类避免过度承诺方法论局限题目数量有限350道题可能不足以代表所有抽象推理场景静态测试一次性测试未考虑模型的学习能力人类样本代表性未公开人类测试的具体样本量和人口统计特征延伸阅读前作ARC-AGI-1 (2019)——抽象推理评测的开山之作对话GPQA——研究生级问答的另一条路线应用Visual Puzzles领域——图形推理的实践明天就能做的3件事测试你的模型用ARC-AGI-2的公开测试集评估你的模型看看抽象推理的真实水平。构建抽象模式库收集你业务场景中的抽象模式案例形成可检索的知识库。分场景设计增强策略对于抽象推理任务尝试专门的prompt模板或few-shot示例而非通用CoT。路易乔布斯 © 2026 · AI论文观察 · 论文精读arXiv:2505.11831 | 基于开放获取论文研读

终极Unity游戏自动翻译解决方案：XUnity Auto Translator完全配置指南

终极Unity游戏自动翻译解决方案：XUnity Auto Translator完全配置指南【免费下载链接】XUnity.AutoTranslator 项目地址: https://gitcode.com/gh_mirrors/xu/XUnity.AutoTranslator 你是否曾经因为语言障碍而无法享受精彩的Unity游戏？面对日语、…...

2026/6/7 9:15:28 阅读更多 →

Node.js与Rails技术选型实战指南：场景化决策框架

1. 这不是一场“谁赢谁输”的擂台赛，而是选对工具的实战决策如果你在2021年打开招聘网站搜“后端开发”，会发现两个名字高频并列出现：Node.js和Ruby on Rails（RoR）。它们常被放在一起比较，标题里动辄冠以“…...

2026/6/7 9:14:08 阅读更多 →

t检验与卡方检验实战指南：数值差异vs类别关联的正确选择

1. 为什么这两个检验必须亲手跑一遍，而不是只背公式？在带新人做数据分析项目时，我常遇到一种情况：刚毕业的同事能流利复述t检验的自由度计算公式，也能默写出卡方检验的期望频数推导过程，但一拿到真实业务数…...

2026/6/7 9:08:25 阅读更多 →

如何用Rust构建高效小说下载器：Tomato-Novel-Downloader技术深度解析

如何用Rust构建高效小说下载器：Tomato-Novel-Downloader技术深度解析【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 在数字阅读时代，如何高效管理和离…...

2026/6/7 0:02:43 阅读更多 →

Windows与Office激活难题的终极解决方案：KMS_VL_ALL_AIO完全指南

Windows与Office激活难题的终极解决方案：KMS_VL_ALL_AIO完全指南【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统激活失败而烦恼吗？每次重装系统后都要…...

2026/6/7 0:03:19 阅读更多 →