[论文分享] ArXiv 提升LLMs推理能力之合成数据生成范式——Agentic Proposing
摘要速览复杂推理能力的提升依赖大量高质量、可验证的训练数据但人工标注成本高昂且难以规模化。现有数据合成方法面临两难权衡有效性和难度——保证问题有效性则难度受限放宽约束提升难度又容易产生逻辑矛盾甚至无解的问题。为此作者提出了一种全新的问题合成框架Agentic Proposing。该方法将问题生成视为一个目标驱动的序列决策过程由专门设计的Proposer Agent动态选择并组合模块化的推理技能Composable Agent Skills通过内部反思internal reflection与工具调用tool-use实现闭环自我修正。作者基于多粒度策略优化MGPO算法训练出Agentic-Proposer-4B/30B模型在数学、编程与科学领域成功生成了高精度、可验证的训练轨迹。实验证明仅用11,000条合成轨迹训练的30B模型在AIME 2025上达到91.6%准确率超越众多百亿乃至千亿级参数的开源和闭源模型充分证明高质量信号比大规模数据更重要。研究背景与动机2.1 LLM推理所依赖的数据核心瓶颈当前 LLM 的推理能力突破如 OpenAI o1, DeepSeek-R1极度依赖强化学习RL和可验证的环境反馈这需要海量的高难度、可验证问题数据。然而人工标注此类数据成本极高难以扩展。2.2 现有数据合成范式的局限性现有数据合成方法可分为三类均面临结构性有效与生成灵活性之间的根本权衡。种子扩展法Seed-Based Expansion通过演化少量种子问题生成新数据如Self-Instruct、WizardMath、MetaMath等。该方法受限于初始种子质量且缺乏根据模型能力动态调整难度的机制。语料提取法Corpus-Based Extraction从文本或知识库中提取并构造问题如ScaleQuest、MathSmith、DESIGNER。尽管覆盖广泛事实基础但难以精确控制问题难度也难针对特定弱点定制训练。基于智能体博弈法Agent-Based Self-Play利用多智能体自博弈生成推理数据如DeepSeek-R1、R-Zero、Socratic-Zero。这些方法多依赖静态提示或单一架构缺乏真正反应式、适应性的智能体行为。总体而言现有方法依赖人工模板或固定先验以保证有效性限制了对新颖高难度组合的探索若放宽约束提高灵活性则易产生逻辑错误或不可解实例。这种矛盾体现在传统开环生成图1a的不稳定与不可验证性上。图1数据合成范式对比传统 v.s. Agent proposing2.3 Agent proposing的提出面对上述挑战亟需一种既能自主探索复杂推理空间又能保障逻辑正确性的新型合成范式来应对。论文提出应将高难度问题合成视为组合逻辑工程过程而非简单文本生成。具体而言论文引入可组合智能体技能概念将问题构建分解为原子化模块并提出Agentic Proposing框架图1b由专门的提议者智能体在目标驱动下通过内部反思与工具使用动态选择并组合这些技能迭代生成逻辑合理、难度可控的复杂问题。该闭环流程由技能库驱动、策略控制旨在解决传统方法在结构稳定与问题复杂度间的长期矛盾。图2Agent Proposing在AIME25任务上在准确率和性价比上都遥遥领先Agent Proposing详解3.3. POMDP问题合成建模与认知状态管理为了对合成过程进行精确建模和控制Agentic Proposing将问题合成定义为一个部分可观测马尔可夫决策过程POMDP由元组γ描述。在这一框架中状态空间表示底层问题的逻辑完整性与难度这是一个潜在的、不能直接观测的属性。选择POMDP建模的关键洞见在于合成问题的逻辑可解性是一种潜在属性仅通过表面的对话历史无法直接观测。因此智能体必须主动“探测”环境——通过工具调用和内部反思——以减少不确定性并收敛到一个有效的问题实例。3.3.1 观测与认知上下文为了赋予智能体多样化的构建模式首先初始化一个自主技能库 由原子推理模块组成。在每个时间步 智能体接收一个观测 其定义为其中当前激活的技能子集。对话历史包括先前的工具输出。认知阶段指示符跟踪智能体在诸如起草Draft、检查Check、精炼Refine等语义阶段的进展。认知阶段指示符 的引入是该框架的一个关键创新。智能体并非被状态机所约束而是将 作为一个功能上下文以自适应的方式引导合成过程——例如如果在验证过程中发现逻辑缺陷智能体可以主动返回到精炼模式——从而维持一个自我纠正的推理循环。3.3.2 动作空间动作空间 被划分为三个功能域认知动作自然语言回应的集合包括一个内部反思动作用于在提交可观察输出之前生成用于逻辑审计的推理链。交互工具工具调用的集合包括用于沙箱化代码执行的 和用于动态技能剪枝的 。具体而言 允许智能体通过执行 来更新激活集 从而自主移除一个不协调的技能 。**终端提交 **动作 用于在问题空间 内提交最终合成的问题 。3.3.3 可组合智能体技能的形式化建模框架的技术基石在于引入了可组合智能体技能的概念即将问题构建逻辑分解为可执行的原子推理模块。这一设计的理论基础源于涌现组合性原理对于组合性任务如果强化学习目标仅在输出与任务匹配时提供正奖励智能体能够以高概率学习编排子技能来解决该任务即使该特定组合在预训练期间未曾见过。基于此原理每个原子技能 被形式化为一个结构化的属性四元组其中推理意图Reasoning Intent编码技能的底层认知目的。构造方法Construction Method描述构建或解决问题的核心操作逻辑。难度效应Difficulty Effect量化该技能对整体问题复杂度的影响通常在1-10的尺度上。工具提示Tool-Use Hint提供调用外部效用如Python/SymPy脚本进行验证的指导。为了将这些原子模块组合成复杂问题定义了一个映射算子 该算子将n个选定技能的组成转换为高维指令空间 中的自然语言约束。最终的问题生成过程由一个参数为 的策略 控制公式表明智能体在给定当前观测、技能组合映射以及当前激活技能集的条件下采样生成最终的问题 。这种形式化建模使得从简单的技能中涌现出复杂的推理结构成为可能实现了对问题逻辑结构与难度的精确控制。3.1 Agentic Proposing 总体架构和流程总体架构如下图所示包含三个顺序演进的阶段stage1.技能获取与库形式化从大规模语料库中提取和形式化多样化的原子技能构建作为代理先验知识的基础技能库 。 stage2.智能体监督微调SFT利用教师策略合成展现复杂行为如内部反思和工具使用的专家轨迹通过行为克隆初始化代理策略 。 stage3.基于MGPO的智能体后训练为了弥合逻辑有效性与极高难度之间的鸿沟采用多粒度策略优化MGPO算法来优化代理编排模块化技能的能力使其能够生成高精度、可验证且具有挑战性的任务。Stage1 技能获取与动态剪枝自主技能库构建 为了赋予智能体先验的构造逻辑我们首先从一个混合来源语料库 中提取原子技能。我们利用一个教师策略 从语料中诱导出候选技能集 并为每个技能 分配质量分数 。通过拒绝采样设定阈值 我们定义了过滤后的技能分布其中 为指示函数。智能体通过最大化对数似然来学习这些高质量技能最终形成**自主技能库 **。动态剪枝机制 在问题合成的起草阶段智能体可以调用内部反思动作 来评估当前激活技能集 的适配度。若预判某技能 与目标不一致或易引发逻辑错误智能体会主动调用工具 执行剪枝操作 。这种前瞻式的自校正从源头拦截了低质量的生成路径确保了合成过程的鲁棒性。Stage2 智能体监督微调第二阶段的目标是让模型模仿专家在复杂决策过程中的行为。我们使用教师策略生成高质量的智能体轨迹数据集每条轨迹 包含内部反思、工具调用及技能剪枝等丰富行为。为了确保演示数据的可靠性所有最终合成的问题 必须通过高精度验证器 的严格筛选。我们定义二元有效性指标 仅保留通过验证的轨迹构成最终的 SFT 数据集 。通过在 上进行行为克隆我们最小化以下交叉熵损失以获得后续强化学习阶段的参考策略 Stage3 智能体强化学习多粒度策略优化这是框架的第三阶段核心是多粒度策略优化算法。它旨在通过细粒度的奖励信号引导智能体将模块化技能编排为高难度、高精度的任务。3.3.1 基于课程的技能分布为了动态聚焦于智能体表现欠佳的技能类别 系统维护熟练度向量 。每个类别 的熟练度通过指数移动平均更新在下一轮迭代中技能类别的采样概率与其熟练度成反比。这一机制强制模型探索高难度技能组合避免陷入低难度安全区。3.3.2 分层奖励函数我们设计了一个结合轨迹级与步骤级反馈的奖励结构。设验证器输出为 外部探针估计的通过率为 则终端奖励定义为其中 为逻辑有效性基础奖励 为难度缩放因子。此外我们辅以中间过程奖励 来奖励成功的工具执行或逻辑连贯的反思。该设计确保无效问题得分为零且难度奖励仅赋予可解实例。3.3.3 多粒度优势估计与优化目标MGPO 通过变分重构解决了 KL 约束下的奖励最大化问题。根据命题最优策略具有闭式解 且定义隐式奖励为 。为了平衡全局信号与局部反馈MGPO 在两个粒度上进行优势估计轨迹级优势基于批次内终端奖励的标准化。阶段级优势基于相同认知阶段 内过程奖励的标准化。融合后的优势定义为最终的优化权重 由中心化融合优势与中心化隐式奖励的差值构成并受非对称双曲正割门调控以增强训练稳定性其中重要性比率 温度参数满足 以对负优势施加更强约束。策略最终通过令牌归一化的加权最大似然更新L _ M G P O ( θ ) − 1 N ∑ _ i , t , j w _ i , t ′ log π _ θ ( x _ i , t , j ∣ o _ t ( i ) , a _ i , j ( i ) ) \mathcal{L}\_{\mathrm{MGPO}}(\theta) -\frac{1}{N} \sum\_{i,t,j} w\_{i,t} \log \pi\_{\theta}(x\_{i,t,j} \mid o\_t^{(i)}, a\_{i,j}^{(i)})L_MGPO(θ)−N1∑_i,t,jw_i,t′logπ_θ(x_i,t,j∣o_t(i),a_i,j(i))“” 4. 实验4.1 实验设置1. 基础模型与训练配置合成器核心是经过多粒度策略优化训练的Agentic-Proposer-4B模型用于生成训练数据。求解器4B 规模使用Qwen3-4B-Instruct-2507模型在10,000条数学轨迹上训练。30B 规模使用Qwen3-30B-A3B-Thinking-2507模型在11,000条混合数学代码轨迹上训练。训练算法所有求解器均统一使用GRPO算法进行微调并采用仅结果监督的二元奖励函数。对比基线涵盖了三大类数据合成方法共 15 种以上的基线包括传统合成方法MetaMath, WizardMath, PromptCoT 系列, MathSmith 等。人工标注/精选数据集OpenR1, OpenMathReasoning, Polaris 等。顶尖大模型生成数据GPT-5.2, Gemini-3-Pro, Claude-4.5-Opus 等。2. 评估基准与协议竞赛数学AIME 2024/2025、HMMT、AMO-Bench。采用Mean64评估以减少采样方差。算法编程LiveCodeBench v5/v6。采用Best-of-5评估即生成5个候选答案有1个通过测试即算正确。科学及通用推理GPQA, SuperGPQA, MMLU-Pro/Redux, OlympicArena。采用Mean1评估。4.2 主要结果实验结果表明Agentic Proposing 生成的数据在所有基准测试上均显著优于现有方法尤其在模型规模与数据效率方面表现出色。4.2.1 4B模型上的数学推理表现表1现有方法的负优化现象许多传统合成数据方法导致性能相较于baseline下降MetaMath下降至30.8%。这说明对于先进的4B模型传统数据的难度已处于“舒适区”无法提供有效的RL训练梯度甚至导致熵崩溃。本文提出的agentic Proposing有显著且全面的提升相比基线提高 4.1 个百分点。在高难度基准如AIME 2025上提升 4.5%HMMT提升 5.5%。证明Agentic Proposer合成的数据具有极高的“信号密度”精准命中了模型的推理前沿。4.2.2模型缩放与跨领域泛化表2使用11,000条混合轨迹数学和编程训练30B求解器。在AIME 2025上达到91.6%的准确率为该规模建立了新的SOTA超越了Grok-4.1-Fast和Claude-4.5-Opus媲美GPT-5。在编程领域LiveCodeBench v5上取得73.4%5.3v6上取得71.2%5.2超越了OpenMathReasoning和PromptCoT 2.0等领先开源推理数据集。指标维度Qwen3-30B 基线使用本文数据训练后结果分析与说明AIME 2025 准确率85.0%91.6%SOTA级别表现仅用1.1万条合成数据30B模型在AIME25上达到了6.6%的绝对提升超越了GPT-5.2等前沿闭源模型。证明高质量合成信号可以弥补甚至超越海量参数量带来的优势图2印证了这一点。代码能力 (LCB v5)68.1%73.4%跨领域迁移尽管主要针对数学优化模型在代码基准上也获得5.3%的提升。证明Agentic Proposing锻炼的“逻辑组合与自校正”能力具有通用性不仅限于单一学科。4.2.3 跨领域鲁棒性与迁移训练4B求解器后在多个基准上取得显著进步研究生级推理SuperGPQA提升7.3个百分点至50.1%GPQA提升6.3个百分点至68.3%通用知识MMLU-Redux提升3.2个百分点至87.3%MMLU-Pro提升5.6个百分点至75.2%认知鲁棒性OlympicArena提升4.4个百分点至47.2%说明该框架一定程度上能避免了传统数据增强导致的过拟合合成的逻辑链条赋予了模型解决未知复杂问题的鲁棒认知能力。分析与消融研究5.1 提议者专业化训练 vs. 提示将GPT-5.2模型在不同配置下与专门的4B提议者进行比较GPT-5.2-High原始提示AIME平均32.8%技能库结构化属性34.6%1.8代理工作流起草-检查-精炼36.4%3.6Agentic-Proposer-4B本文**38.3%**5.5专门的4B提议者优于增强后的GPT-5.2达1.9个百分点证明了领域特定的强化学习对于专业化推理合成任务至关重要。5.2 代理流水线消融单次提议AIME平均31.5%工具使用33.8%2.3内部反思33.4%2.1完整流水线起草-检查-精炼**38.3%**6.8工具使用和内部反思各自作为质量门控都有效但只有在迭代式自我修正循环中被协同激活时才能充分发挥潜力。5.3 MGPO有效性标准GRPO仅轨迹级AIME平均31.8%MGPO无阶段级优势35.1%3.3完整MGPO**38.3%**6.5细粒度信用分配对于长序列合成任务至关重要MGPO通过阶段级优势为中间行为提供即时反馈有效引导代理学习更优的合成策略。6 总结与展望通过提出的Agentic Proposing本文发现先进推理的瓶颈不在于参数规模而在于高质量训练信号的密度这挑战了传统观点。这一进展的核心在于将复杂推理分解为可组合的原子技能——从静态提示转向动态的逻辑构建。通过弥合自主合成与复杂逻辑构建之间的差距Agentic Proposing为通往自我演化的推理生态系统建立了一条可扩展的路径使模型能够系统性地掌握日益复杂的智力前沿。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】