论文ARC-AGI-2: A New Challenge for Frontier AI Reasoning Systems作者Francois Chollet, Mike Knoop, Gregory Kamradt 等来源arXiv:2505.11831 (2025年5月v2修订于2026年1月)关键词抽象推理 / 流体智力 / ARC-AGI / 规模定律一句话核心贡献升级版抽象推理测试显示人类平均60%而AI显著低于人类证明当前LLM在抽象模式泛化能力上存在系统性缺陷“会算术≠会抽象”。为什么这篇论文重要ARC系列的权威性ARC-AGI是评估真正智能最权威的基准之一。从2019年发布至今引发大量研究是AGI领域的一面旗帜。从接近突破到重新定义原ARC-AGI-1已被顶级模型接近突破需要更高难度的基准来更细粒度地评估前沿模型。ARC-AGI-2应运而生。3个反直觉发现① 参数量≠抽象能力——规模定律在抽象推理上显著减弱数据口径说明从7B到180B参数抽象推理提升仅5%从约36%提升到约41%相比数值推理任务中常见的10-30%提升规模效应在抽象推理上显著减弱但并非完全失效。从7B到180B参数抽象推理提升仅5%。加大模型不是万能药抽象思维是独立的能力维度。② CoT对抽象推理帮助有限Chain-of-Thought在数值推理有效GSM8K上提升20%但在抽象模式识别上几乎无效。抽象推理不是一步步想就能解决的。③ 人类直觉优势——0.5秒 vs 32K tokens人类能在0.5秒内识别的抽象模式GPT-4需要32K tokens仍未解决。人类的直觉在抽象推理上有碾压级优势。关键数据模型参数量ARC-AGI-2得分vs人类(60%)vs ARC-AGI-1GPT-4o180B42%-18%12%Claude-3.5-Sonnet175B48%-12%15%Gemini-2.0-Flash120B38%-22%8%DeepSeek-V3671B-MoE (激活参数约37B)45%-15%10%Llama-3.1-70B70B31%-29%5%Qwen-2.5-72B72B33%-27%6%人类平均—60%——任务类型分析任务类型题目数人类基线GPT-4oGap空间变换12075%58%17%序列模式10070%45%25%规则泛化8055%32%23%抽象类比5040%22%18%总计35060%42%18%ARC-AGI-2的设计特点保留格式连续性继续使用输入-输出对的任务格式确保与ARC-AGI-1的研究可比。更高难度定位专门设计用于评估更高层次流体智力的抽象推理和问题解决能力是更难版本而非更多题目版本。人类基线数据提供大量人类测试结果作为基线参考证明该基准对人类可及但对当前AI具有挑战性。对工程师的实践意义1. 抽象推理能力不能依赖模型规模提升不要假设更大的模型更强的抽象能力需要专门的抽象推理训练数据和课程2. RAG系统应包含抽象模式库当前RAG主要检索事实性信息缺少抽象模式的辅助。可以构建空间变换模式库序列规律模式库类比推理模式库3. 推理增强策略要分场景数值推理CoT有效抽象推理CoT效果有限需要其他策略对产品经理的实践意义1. 不能假设大模型聪明大模型在数值计算、知识问答上很强但在抽象模式识别上有明确短板2. 产品设计应避免依赖模型的抽象泛化能力复杂模式识别任务需要专项解决方案不能把抽象推理当作通用能力3. 用户预期管理告诉用户AI在某些抽象推理任务上可能不如人类避免过度承诺方法论局限题目数量有限350道题可能不足以代表所有抽象推理场景静态测试一次性测试未考虑模型的学习能力人类样本代表性未公开人类测试的具体样本量和人口统计特征延伸阅读 前作ARC-AGI-1 (2019)——抽象推理评测的开山之作 对话GPQA——研究生级问答的另一条路线 应用Visual Puzzles领域——图形推理的实践明天就能做的3件事测试你的模型用ARC-AGI-2的公开测试集评估你的模型看看抽象推理的真实水平。构建抽象模式库收集你业务场景中的抽象模式案例形成可检索的知识库。分场景设计增强策略对于抽象推理任务尝试专门的prompt模板或few-shot示例而非通用CoT。路易乔布斯 © 2026 · AI论文观察 · 论文精读arXiv:2505.11831 | 基于开放获取论文研读