05-25 · LLM 最新论文速览
今日候选池91篇硬过滤 LLM 打分后通过评估20篇精选 Top-10另列 10 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1. SVR-MAD: A Bayesian-Inspired Framework for Posterior-Guided Multi-Agent Debate评分8.3·方向cs.MA · Multiagent Systems ·arxiv2605.23099· PDF 提出 SVR-MAD把 pre-debate 置信信号作先验、辩论结果作后验增量构建通信图以压缩多代理辩论 token。多智能体LLMmulti-agent debate推理优化摘要多智能体辩论MAD虽能提升 LLM 代理准确率但通信上下文会迅速膨胀难以扩展到更多代理。现有方法多依赖 token 对数似然或模型自评置信度等先验信号剪枝在幻觉出现时往往失效。本文提出受贝叶斯思想启发的 SVR-MAD将辩论前信号视为先验、将辩论结果视为后验式证据逐步构建通信图优先保留能经受同伴质疑的答案。多模型、多基准实验表明该方法在保持或提升准确率的同时token 成本最高可降低 61%。评分细项rel 8.7 / nov 7.8 / prac 8.1 / author 7.52. SkillOpt: Executive Strategy for Self-Evolving Agent Skills评分8.3·方向cs.AI · Artificial Intelligence ·arxiv2605.23904· PDF SkillOpt 把 agent skill 视作文本态参数用优化器模型执行 add/delete/replace 编辑并以 held-out 分数严格验收更新。Agent技能优化自进化文本优化摘要现有 agent skill 多靠人工编写、一次性生成或松散自我修订难像深度学习优化器那样在反馈下稳定改进。SkillOpt 将 skill 视为冻结 agent 的外部可训练状态由独立优化器模型根据带分数的 rollout 对单一 skill 文档执行受控的增删改并仅在验证集分数严格提升时接受修改同时引入文本学习率、拒绝编辑缓存和按 epoch 的慢更新部署时不增加推理调用。其在 6 个基准、7 个模型和 3 种执行环境上共 52 项评测中全部达到最优或并列最优显著优于人工、TextGrad、GEPA、EvoSkill 等方法。评分细项rel 8.9 / nov 8.4 / prac 8.6 / author 5.53. Metacognition as Reward: Reinforcing LLM Reasoning via Knowledge and Regulation Signals评分8.1·方向cs.CL · Computation and Language ·arxiv2605.23384· PDF 提出 Metacognition-as-Reward将 metacognitive knowledge 与 regulation 组成轨迹级奖励强化 LLM 推理过程监督。LLM后训练强化学习推理摘要现有 LLM 推理强化学习奖励要么依赖可验证结果RLVR难指导中间推理过程要么依赖任务定制 rubricRaR设计成本高。本文提出 Metacognition-as-RewardMaR用“元认知知识”和“元认知调节”两个通用维度来奖励推理前者强调识别任务相关信息后者强调规划、监控与调整推理过程。MaR 将模型 rollout 显式拆分为元认知组件并基于知识覆盖、调节一致性和最终答案正确性进行轨迹级优化。在 22 个基准上MaR 持续提升性能相比基座模型最高提升 7.7%相较 vanilla DAPO 最高提升 11.0%。评分细项rel 9.0 / nov 7.8 / prac 7.5 / author 5.54. From Correctness to Preference: A Framework for Personalized Agentic Reinforcement Learning评分8.0·方向cs.CL · Computation and Language ·arxiv2605.23382· PDF 提出个性化 Agentic RL 框架用 PARPO 解耦通用奖励与偏好奖励并结合 PSGM 做技能检索。Agentic RL多智能体/Agent个性化强化学习摘要Agentic RL 在有明确正确性信号的任务上进展显著但真实应用常需面向不同用户体现不同偏好仅靠通用奖励难以建模。本文提出个性化 Agentic RL 统一框架将个性化直接纳入训练优化。核心方法 PARPO 将任务质量奖励与个体偏好奖励解耦并用用户锚点稳定不同奖励尺度下的学习同时设计两阶段偏好解耦奖励模型以及偏好对齐的技能演化图记忆PSGM实现个性化监督与技能检索。三者构成“偏好识别—策略优化—结构化技能积累”的闭环在 ETAPP、ETAPP-Hard 和 SJAgent 上均优于强基线。评分细项rel 8.8 / nov 7.9 / prac 7.8 / author 5.05. Parallel Context Compaction for Long-Horizon LLM Agent Serving评分8.1·方向cs.AI · Artificial Intelligence ·arxiv2605.23296· PDF 提出 parallel context compaction把长程 agent 的历史分块并行摘要降低阻塞延迟并稳定 summary token 预算。长上下文Agent推理优化摘要压缩摘要长时程 LLM agent 会不断累积历史对话最终超出上下文窗口。基于 LLM 的摘要压缩虽可控制长度但存在信息损失、同步阻塞耗时长、摘要体积难精细控制且结果波动大的问题。本文提出并行上下文压缩parallel compaction用于长时程 agent 服务并在 8B 到 120B 的 4 个模型上与顺序同步压缩进行系统比较。该方法可对摘要体积提供更细粒度、可预测的控制也便于针对不同块进行提示设计在相同压缩解码量下可降低端到端延迟并提升压缩吞吐在 HotpotQA 和 LoCoMo 上验证了效果。评分细项rel 8.8 / nov 7.9 / prac 8.6 / author 5.06. MadEvolve: Evolutionary Optimization of Trading Systems with Large Language Models评分7.8·方向q-fin.PM · Portfolio Management ·arxiv2605.23007· PDF 将 MadEvolve 引入比特币量化交易联合进化信号特征、策略组件与执行模块以优化回测收益。量化交易LLM优化进化搜索摘要本文探索用 LLM 驱动的进化式算法优化量化金融任务。作者将通用算法优化框架 MadEvolve 应用于比特币交易涵盖信号生成特征集演化、交易策略各组件优化以及特征流水线与执行策略的联合演化。基于模拟与回测方法在所考察任务上都取得显著改进。论文还将其与 Claude Code 等 agentic search 方法对比并仔细评估了实验设置中的 p-hacking 概率。结果表明AI 驱动的 agentic 与进化算法在算法交易和量化金融中具有较强实用价值。评分细项rel 8.5 / nov 7.5 / prac 7.5 / author 5.07. EDGE-OPD: Internalizing Privileged Context with Evidence Guided On-Policy Distillation评分7.8·方向cs.AI · Artificial Intelligence ·arxiv2605.23493· PDF 提出 EDGE-OPD在 on-policy distillation 中用 guided rollouts 与 evidence filtering 内化 privileged context。后训练蒸馏OPDLLM摘要On-Policy Self-DistillationOPSD可在训练时向教师提供推理时不可见的 privileged context但这些信息常带来副作用如改变推理风格、削弱通用能力或影响长度与措辞。本文提出 EDGE-OPD在 on-policy distillation 中更精确地内化特权信息。其一通过 guided rollouts 在采样阶段显式注入目标行为确保稀有行为真正出现在训练数据中其二引入 evidence mask仅在 privileged context 能支持所采样 token 的位置更新学生模型而非对整段输出统一蒸馏。作者在 rare-token/identity 场景下验证该方法能更好迁移目标行为并减少副作用。评分细项rel 8.5 / nov 7.6 / prac 7.6 / author 5.08. ARMS: Automatic Reward Shaping for Sparse-Reward Multi-Agent Reinforcement Learning评分7.4·方向cs.MA · Multiagent Systems ·arxiv2605.23562· PDF 提出 ARMS用 trajectory ranking 学习稠密 shaping reward并以 conditional best-response 保持 MARL 的 Nash 均衡。多智能体强化学习奖励塑形摘要稀疏奖励是多智能体强化学习MARL的核心瓶颈而奖励塑形在多智能体场景中还必须保持博弈结构不变。本文提出 ARMS一种自监督奖励塑形框架通过轨迹排序从稀疏环境奖励中学习稠密 shaping 信号。针对单智能体理论难以直接迁移到 MARL 的问题作者基于条件最优响应重述策略不变性并证明在一定条件下塑形奖励可保持各智能体的最优响应集合及 Nash 均衡集合。ARMS 交替进行策略学习与奖励学习并跨智能体共享塑形参数。实验显示其在部分可观测多智能体路径规划中提升了采样效率、泛化能力并揭示了探索不足导致的振荡失效模式。评分细项rel 8.2 / nov 7.4 / prac 7.2 / author 5.09. Co-ReAct: Rubrics as Step-Level Collaborators for ReAct Agents评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2605.23590· PDF 提出 Co-ReAct在 ReAct 推理每一步注入 rubric 指导 Reason-or-Act并用 GRPO 训练 rubric generator。AgentReActGRPO工作流摘要本文针对 ReAct 类智能体在多步检索与推理中常依赖自身判断、易产生浅层、重复或目标不清轨迹的问题提出 Co-ReAct。其核心是在推理时把 rubric 作为步骤级协作者持续注入上下文指导每一步的 Reason-or-Act 决策明确下一步应关注的证据检索、搜索、推理或自我评估目标。作者还用 GRPO 训练专门的 rubric generator并以面向多评审专家排序共识的 list-wise Spearman 相关奖励提升 rubric 的判别性。实验表明在 DeepResearchBench 与 SQA-CS-V2 上Co-ReAct 在 8B/14B 开源模型和闭源前沿模型构建的搜索智能体中均稳定优于 ReAct 及多种 test-time compute 基线。评分细项rel 8.3 / nov 7.8 / prac 7.4 / author 5.010. MARGIN: Runtime Confidence Calibration for Multi-Agent Foundation Model Coordination评分7.2·方向cs.MA · Multiagent Systems ·arxiv2605.22949· PDF 提出 MARGIN 在线置信度校准用 EWMA 与 Bayesian shrinkage 纠正多智能体协调中的自报告置信偏差。多智能体置信度校准在线方法摘要本文关注多智能体 foundation model 协作中“该信谁”的问题。已有方法通常依赖模型自报置信度但其校准常系统性失真在困难任务上甚至与准确率负相关。为此作者提出 MARGIN一种在线运行时置信度校准方法可从任务流中动态学习每个 agent、每个置信区间的校准因子无需访问模型内部、留出集或重新训练。方法基于对称指数滑动平均与 Bayesian shrinkage超参数少且默认设置稳健。覆盖 19 个模型、8 个基准、5 万余样本的实验显示MARGIN 在分布移位下将校准误差降低到最佳设计时方法的 1/3 到 1/6并把困难基准上的成对选择能力从低于随机提升到 70%–89%。评分细项rel 7.5 / nov 7.0 / prac 8.0 / author 5.0 速览 · 其他通过评估的工作10 篇一句话扫读按评分从高到低点击标题跳转 arxiv。cs.AI7.4Inductive Deductive Synthesis: Enabling AI to Generate Formally Verified Systems· 提出 Inductive Deductive Synthesis在 agentic LLM 循环中联合合成代码与形式化证明并用失败轨迹与性能反馈迭代。cs.AI7.4PathCal: State-Aware Reflection-Marker Calibration for Efficient Reasoning· 提出 PathCal 训练免费解码控制器按状态感知校准 wait、but、alternatively 等 reflection markers 的注入与抑制。cs.CL7.1OnePred: Next-Query Prediction via Recursive Intent Memory in Multi-Turn Conversations· 提出 OnePred用 Recursive Intent Memory 压缩多轮对话上下文并以两阶段 RL 训练下一轮 query 预测。cs.AI7.3When Planning Fails Despite Correct Execution: On Epistemic Calibration for LLM-Based Multi-Agent Systems· 提出 EPC-AW 多智能体工作流用信息一致性选计划与 epistemic state refinement 缓解规划阶段认知失准。cs.AI7.2One Policy, Infinite NPCs: Persona-Traceable Shared RL Policies for Scalable Game Agents· 提出 Persona Conditioned Shared Policy将冻结 LLM persona embedding 注入共享 PPO 策略并配合 InfoNCE 一致性目标生成可区分 NPC 行为。cs.AI6.9EVE-Agent: Evidence-Verifiable Self-Evolving Agents· 提出 EVE-Agent 自进化搜索代理让 proposer 生成问题、答案与证据片段并以 marginal accuracy gain 奖励证据。cs.MA6.8How to Steer Your Multi-Agent System: Human-LLM Collaborative Planning· 提出 AMBIPOM从 semantic/structural、global/targeted、high/low-level 三轴支持人类对多代理计划进行过程级修订。cs.AI6.6Foundation Protocol: A Coordination Layer for Agentic Society· 提出 Foundation Protocol以图结构统一 agent、工具、资源与组织并提供事件协作、计费结算与审计原语。cs.CV6.4CVSearch: Empowering Multimodal LLMs with Cognitive Visual Search for High-Resolution Image Perception· CVSearch 用 Assess-then-Search 流程结合 expert-assisted search、语义自适应切块与自底向上搜索处理高分辨率图像。cs.CV6.0PiD: Fast and High-Resolution Latent Decoding with Pixel Diffusion· 提出 PiD 像素扩散解码器以 sigma-aware adapter 条件化 latent并结合 DMD2 蒸馏将推理压到 4 步。数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考