学术研读报告:MEM1面向长视距智能体的记忆 - 推理协同框架
一个自然的问题随之产生语言模型能否在推理过程中学会整合记忆从而只保留解决任务所必需的信息受此问题启发我们提出了 MEM1一种内存高效机制通过学习一步式整合推理与整合——一种训练大语言模型智能体的方法该方法可在任意长的时间范围内保持恒定的内存使用量。如图1所示在每一轮交互中模型会更新一个由先前记忆和新获取信息组成的整合状态。这一整合状态成为智能体唯一保留的记忆使得所有外部工具的输出在使用后均可被丢弃从而从根本上避免提示词膨胀如图2所示。图1MEM1 与现有推理智能体的内存管理对比。现有面向长视野任务的智能体会持续追加思考内容通常包含在think/think标签内、动作和观测信息导致上下文不断膨胀而我们的 MEM1 智能体则会持续更新一个融合了思考与记忆的内部状态包含在IS/IS标签内并丢弃之前步骤的内容从而在任务执行过程中保持稳定的内存占用。此外现有环境和数据集均聚焦于单目标任务我们的任务增强方法则能有效扩展这些任务支持长视野智能体的训练。图2MEM1智能体与现有推理智能体在处理长时程任务时上下文长度的概念对比。我们的智能体在生成新的内部状态和动作后会立即丢弃之前的上下文提示词和初始查询除外从而实现近乎恒定的内存占用。一、MEM1 核心定义与技术定位1. 核心定义MEM1Memory-Efficient Mechanism via learning 1-step integrated reasoning and consolidation是面向大语言模型长视距多轮交互智能体的端到端强化学习框架通过单步集成推理与记忆整合学习使智能体在任意长度的多轮任务中维持恒定内存占用同时保障长视距推理性能是针对大语言模型智能体记忆管理与推理协同的轻量化解决方案。强化学习提供了一种通过奖励信号塑造智能体行为的强大机制奖励信号只奖励「任务最终是否成功完成」。模型不是拿到 “实物奖励”而是拿到「强化学习的梯度信号」用来更新策略、学会记忆 - 推理协同具体得到 3 个核心能力得到策略更新的梯度奖励信号驱动 PPO 算法计算策略梯度调整模型的 actor-critic 网络参数让模型提高 “能完成任务的行为概率”降低 “完不成任务的行为概率”。学会把记忆压缩进IS内部状态因为每轮都会裁剪历史上下文模型只有学会把关键记忆压缩进IS才能完成任务拿到奖励被迫形成恒定内存的行为模式。学会记忆 - 推理一体化模型不再依赖完整历史上下文而是通过IS同时完成记忆存储和推理决策实现长视距交互不崩、泛化到 16 目标复杂任务。2. 技术背景与研发意义在为长周期场景设计的系统中当前 LLM 智能体需完成多轮、多目标、依赖历史信息的交互任务一种常见做法是在每一轮都将所有过往的观察、动作和思考附加到上下文之中进而带来三大核心缺陷全上下文拼接机制导致上下文无界增长推理成本和内存占用不断增加引发O(N2)计算开销、GPU 内存占用线性上升往往会造成计算机资源显著浪费超出训练时长范围的泛化能力局限。上下文长度超过训练数据中对应长度的持续对话对模型而言属于分布外数据。模型难以对这类陌生的长时程输入进行有效管理和推理。上下文过载且效率低下。冗余历史信息稀释注意力推理性能显著衰减。另有一些方法引入了外部记忆模块如摘要生成器或者检索器采用记忆模块与智能体推理策略分离训练的范式记忆模块独立于智能体策略完成训练与部署无法与智能体整体决策策略实现端到端联合优化直接造成记忆管理与推理过程的逻辑割裂。同时该方案需独立维护、集成两个异构模型组件为系统带来额外工程开销与部署复杂度此外现有基于强化学习训练的工具使用型智能体仍未解决记忆管理核心缺陷依旧存在提示词长度随交互轮次无界增长的问题。MEM1 的研发意义在于首次将推理过程与记忆整合Consolidation统一表征实现效率与性能协同优化为长视距智能体提供可扩展、低算力的记忆管理范式。3. 应用场景边界MEM1仅适用于存在可验证明确奖励的长视距交互任务核心场景包括多目标多跳问答内部检索 QA、开放域网页 QA多轮网页导航WebShop 电商交互、网页信息检索暂不适用无明确奖励、开放式自由对话等任务。二、MEM1 核心技术机制与工作流程1. 整体技术机制MEM1 以推理驱动的记忆整合为核心结合掩码轨迹策略优化方法通过 PPO 强化学习实现端到端训练在多轮交互中动态更新紧凑内部状态Internal State, IS完成历史信息融合与冗余信息丢弃同时保障策略梯度计算的准确性与训练稳定性。。图3上图用于训练MEM1的强化学习RL流程。左下MEM1中上下文的演变——当新状态进入上下文时旧的IS、查询、信息会被清除。该机制用于展开过程中。右下目标计算阶段使用的二维注意力掩码。该掩码在前向传播过程中应用用于为智能体模型计算动作对数概率为评判模型计算状态价值估计。在策略更新阶段信息掩码会应用于完整轨迹屏蔽掉非模型自身生成的标记。##知识点补充图里的Advantage(A)、KL Penalty(D_KL)、Value Function(V)和 Transformer 的Q/K/V没有一一对应的关系。它们分属两个完全不同的模块Transformer 的Q/K/V是模型推理时的注意力计算单元是模型本身的 “骨架”这张图是PPO 强化学习训练时的目标函数计算模块是用来更新模型参数的 “训练逻辑”不是模型推理时会用到的组件。先快速回顾你知道的 Transformer Q/K/V你已经了解的部分用最直白的话再理一遍领域模型推理 / 前向传播环节是自注意力机制的核心作用解决 “序列里哪些 token 是相关的” 问题让模型能融合上下文信息大白话拆解QQuery每个 token 的 “问题”—— 我要关注谁KKey每个 token 的 “标签”—— 我是什么内容VValue每个 token 的 “答案”—— 我能提供什么信息关系Q 和 K 计算相似度注意力分数再用分数加权 V得到每个 token 融合了上下文的输出。本质是序列内部的信息聚合工具。这张图里的模块是什么这张图是PPO 强化学习的目标计算流程MEM1 训练时用的就是这套逻辑目的是计算梯度让模型学会选能拿更多奖励的动作比如学会把关键信息压缩到IS里。每个模块大白话拆解Actor Model策略模型就是你训练的大模型比如 MEM1 里的 Qwen负责 “选动作”—— 也就是生成IS、query这些内容输出的是动作的概率分布比如下一个 token 选什么的概率。Critic Model价值模型和 Actor 是一对负责 “评好坏”—— 评估当前状态比如当前的IS未来能拿多少奖励输出V(s_t)。V(s_t)Value FunctionCritic 的输出大白话“现在这个状态未来大概能拿多少分” 用来判断当前状态好不好。A(s_t, a_t)Advantage优势函数由 Actor 和 Critic 一起算出来的大白话“我刚才选的这个动作比平均水平好多少” 好很多就多学差就少学是更新 Actor 的核心依据。D_KLKL PenaltyKL 散度惩罚大白话“别学歪了新策略和旧策略别差太远不然之前学的好东西都忘了”是 PPO 的核心约束防止模型更新太猛崩掉。疑问为什么 A (sₜ,aₜ) 要 ActorCritic 一起算但图里 Critic 没有箭头指向 A核心就一句话图里只画「模型直接输出的数据流」不画「后台数学计算」A 不是任何模型直接输出是用 Actor 的结果 Critic 的结果算出来的所以没有 Critic→A 的箭头一、先搞懂A (sₜ,aₜ) 到底是什么A Advantage 优势函数大白话在当前状态 sₜ下选这个动作 aₜ比 “平均随便选动作” 好多少正数 这个动作很棒要多学负数 这个动作很烂要少学它是PPO 更新 Actor 的核心依据论文里 MEM1 训练全靠它。二、A (sₜ,aₜ) 的计算公式决定了必须 ActorCritic 一起算MEM1 用的是标准PPO 算法优势函数公式A(sₜ,aₜ) Q(sₜ,aₜ) − V(sₜ)拆成两部分你就懂为什么要两个模型Q (sₜ,aₜ)动作价值状态 sₜ下选了动作 aₜ之后未来总共能拿多少奖励→ 由Actor Model算Actor 负责输出动作、动作概率V (sₜ)状态价值状态 sₜ本身好不好不管选什么动作未来大概能拿多少奖励→ 由Critic Model直接输出图里 Critic → V (sₜ) 的箭头就是这个✅A 是【Actor 的动作价值】减【Critic 的状态价值】算出来的→ 所以必须两个模型一起参与缺一不可三、为什么图里没有Critic → A 的箭头看论文图 3 的标注规则图里只画「模型直接输出的东西」不画「后台用公式计算的东西」Actor Model 直接输出 → 动作概率、Q 相关所以有箭头到 ACritic Model 直接输出 → V (sₜ)所以只有箭头到 VA (sₜ,aₜ) 是计算出来的不是模型吐出来的所以不画 Critic→A对应图里的模块Actor Model → 提供 Q (sₜ,aₜ)Critic Model → 提供 V (sₜ)Objective Computation目标计算模块→ 后台做减法Q − V A→ 图里只画了数据输入没画计算过程两者的核心异同对比对比维度Transformer 的 Q/K/V这张图里的模块A、D_KL、V 等所属领域模型推理 / 前向传播注意力机制模型训练优化PPO 强化学习目标计算核心目的解决序列上下文的信息融合问题解决策略优化的梯度计算问题让模型学会拿更多奖励计算时机模型每次推理时生成每个 token 都算训练时每一轮交互之后用来更新模型参数数据来源同一个序列里 token 的嵌入向量Actor/Critic 模型的输出以及环境的奖励信号和模型的关系模型内部的特征计算单元属于模型本身的一部分训练时的辅助计算模块用来更新模型参数不是模型推理时的组件和对方的关系两者没有一一对应关系是完全不同层面的东西两者没有一一对应关系是完全不同层面的东西仅有的 2 个底层共性都基于模型输出的特征 / 向量做后续计算Q/K/V 是 token 嵌入的线性变换A、V 是 Actor/Critic 的输出都服务于模型的优化目标Q/KV 让模型推理时能更好地理解上下文A/V 让模型训练时能更好地更新参数。2. 核心模块拆解三个1推理驱动的记忆 Consolidation 模块以IS标签为核心载体将历史记忆、新观测、推理逻辑融合为紧凑内部状态每轮仅保留最新状态彻底裁剪历史上下文。2掩码轨迹策略优化模块针对动态的上下文更新破坏了词元生成轨迹的连续性问题设计二维注意力掩码该掩码在前向传播过程中应用用于为智能体模型计算动作对数概率约束 token 注意力范围保证近端策略优化PPO和增强版强化学习Reinforce等策略优化算法中梯度计算的准确性同时通过信息掩码一维注意力掩码锁定模型生成 token确保梯度更新仅局限于智能体生成的token屏蔽掉非模型自身生成的token避免外部信息干扰梯度更新。怎么理解我们在完整轨迹上应用二维注意力掩码一个 token 在被生成的那一刻模型当时只保留了极少的最新记忆旧上下文已经被剪掉了。这个二维掩码就是强制规定这个 token 只能 “回看” 它被生成时、模型当时手里还留着的那些记忆 token绝对不能看已经被删掉的旧内容也不能看还没生成的未来内容。怎么理解动作对数概率action log-probabilities动作对数概率就是PPO 训练的 “数值抓手”Actor 模型用它算新旧策略差异把新、旧策略的差异锁在安全范围结合优势函数A (sₜ,aₜ)计算策略损失进而更新参数再配合两个掩码保证计算符合记忆约束最终让模型学会把历史记忆压缩进IS用恒定内存完成长轮次推理。3多目标任务构建模基于现有单目标 QA 数据集HotpotQA、Natural Question组合构建多目标多跳任务搭建长视距智能体训练环境弥补现有数据集对长交互任务支撑不足的缺陷。。3. 记忆全生命周期工作流程MEM1 定义IS代表内部状态即推理过程、query代表环境查询、info代表外部观测结果或工具输出、answer智能体的响应四类 XML 标签。MEM1采用学习方法实现状态的迭代更新与整合确保在任意时刻仅将最新一组IS、query、answer和info元素保留在提示词中。该设计维持了上下文的有限性与语义相关性助力高效且连贯的多步推理。从而实现记忆的存储、更新、检索、调用全流程闭环记忆初始化智能体接收任务 Prompt初始内部状态IS为空无历史记忆记忆更新与整合每轮交互中智能体基于上一轮IS_t、query_t、info_t生成新IS_{t1}融合关键历史信息与新观测主动丢弃冗余 / 无关内容记忆调用以最新IS为唯一记忆依据生成环境查询query或最终答案 记忆裁剪单轮交互结束后彻底删除历史轮次所有标签仅保留最新IS、query、info实现上下文长度恒定。4. 训练与优化机制采用PPO 近端策略优化算法以任务完成度为唯一奖励信号QA 任务采用精确匹配 EMWebShop 任务采用环境内置奖励不设置任何中间奖励与格式约束惩罚通过掩码轨迹拼接多轮交互上下文重构逻辑连贯的完整轨迹解决动态上下文更新对策略梯度计算的干扰仅基于2 目标多跳任务完成训练即可泛化至 16 目标等高复杂度长视距交互场景。三、MEM1 与传统大模型记忆方案的对比分析1. 传统记忆方案的技术局限表格记忆方案核心原理关键缺陷全上下文拼接记忆ReAct 等逐轮将观测、动作、推理内容追加至Prompt上下文无界增长O(N2)计算开销长上下文注意力稀释分布外泛化能力差外部辅助记忆A-MEM、摘要器、检索器记忆模块与智能体策略分离训练、独立部署无法端到端联合优化存在额外工程开销记忆与推理过程脱节2. MEM1 核心创新与差异化优势推理 - 记忆一体化表征将记忆整合嵌入推理过程无需额外记忆模块共享表征空间无额外工程开销恒定内存占用动态裁剪历史上下文峰值 token 数量近乎恒定彻底解决上下文膨胀问题端到端强化学习优化记忆管理直接纳入策略优化无需人工设计记忆规则自适应学习关键信息保留逻辑掩码轨迹梯度保障二维注意力掩码解决动态上下文的梯度计算难题保证训练稳定性与梯度准确性强长视距泛化性仅需短视距训练即可泛化至多目标、长交互场景无性能崩塌现象。四、实验设计与性能结果分析1. 实验设置实验环境多目标多跳 QAWiki RAG、开放网页 QA、WebShop 网页导航基线模型Qwen2.5-7B/14B-Instruct、Search-R1、DeepResearcher、AgentLM、A-MEM 等评价指标准确率EM、F1、环境奖励、效率峰值 token、依赖长度、推理时间训练配置基于 Qwen2.5-7B 基座4×H100/H200 训练单卡 H200 推理PPO 算法优化。2. 核心性能结果多目标 QA 任务16 目标任务中MEM1-7B 的 EM 值达 1.97远超 Qwen2.5-14B-Instruct0.567峰值 token 仅为 14B 模型的 27.1%推理时间仅占 29.3%实现小模型性能超越大模型 效率大幅提升。WebShop 导航任务平均最终奖励 70.87超越 AgentLM-13B70.80峰值 token 较 AgentLM-7B 降低 2.8 倍推理速度提升 1.5 倍。泛化与训练特性仅训练 2 目标任务可稳定泛化至 16 目标RL 训练效果显著优于 SFT6 目标后 SFT 性能完全崩塌RL 仍保持稳定。3. 技术优势与现存不足1核心技术优势内存效率长视距交互场景下峰值内存占用近乎恒定大幅降低算力需求推理性能多目标复杂任务中性能超越参数量翻倍的基线模型泛化能力短视距训练即可适配超长交互场景分布外泛化性能优异。2现存技术不足基于论文原文奖励依赖限制仅支持具备明确可验证奖励的任务无法适配开放式无奖励场景注意力掩码折中位置 ID 处理未完全还原理想轨迹训练效率存在优化空间模型规模验证有限仅在 7B 参数规模模型完成实验未验证更大规模模型的协同效果极端场景验证不足超过 16 目标的超长篇交互场景未开展充分实验验证。五、后续研究方向与学术借鉴意义1. 后续研究与优化思路计算机研究生科研视角稀疏 / 延迟奖励场景适配设计弱监督 / 无监督奖励机制将 MEM1 拓展至开放式对话、创意生成等无明确奖励任务注意力与记忆联合优化改进二维掩码与位置 ID 编码消除训练折中提升记忆表征精度与训练效率多模态记忆协同将文本内部状态IS拓展至图像、音频模态适配多模态长视距智能体模型规模缩放验证探索 13B/70B 大模型与 MEM1 的协同效果验证框架的缩放性边缘部署优化结合量化、知识蒸馏实现 MEM1 在端侧设备的轻量化部署记忆可解释性研究解析IS内部状态的表征逻辑提升智能体记忆的可控性与可解释性。2. 领域学术借鉴价值范式创新打破 “记忆 - 推理分离” 的传统思路确立推理即记忆 Consolidation的一体化研究范式训练方案验证了强化学习在长视距记忆管理中的有效性为 LLM 高效推理提供端到端优化思路数据集构建多目标任务组合方法为长视距智能体的 benchmark 构建提供可复用范式工程落地恒定内存设计大幅降低大模型智能体的部署算力门槛为轻量化长视距交互提供技术参考。