论文Agentic Memory: Learning Unified Long-Term and Short-Term Memory for LLM Agents作者Yi Yu, Liuyi Yao, Yuexiang Xie 等武汉大学 阿里巴巴来源arXiv:2601.01885v2 (2026年4月)开源github.com/y1y5/AgeMem | 基于 AgentScope Trinity-RFT关键词Agent Memory / 长短期记忆 / 强化学习 / GRPO / 统一记忆管理一句话核心贡献提出统一长短期记忆框架 AgeMem让LLM Agent自主学习何时写入、何时检索、何时遗忘的记忆策略在5个长期任务benchmark上平均性能提升49%Qwen2.5-7B显著超越纯RAG方案。 为什么我推荐你读这篇大多数人做Agent记忆要么用RAG静态检索要么用append-only日志疯狂塞上下文。这篇论文换了个角度——让Agent自己学会管理记忆结果发现三件做产品的人不能不知道的事①记太多比记太少更危险—— 干扰信息塞进上下文Agent反而更容易失忆。AgeMem的Filter工具使用率从0.02提升到0.31说明模型学会主动忘。②长期记忆和短期记忆必须统一优化—— 现有方案把LTM和STM割裂开各自为政。AgeMem的三阶段训练让两者协同进化任务完成率比最佳基线Mem0还高8.5个百分点。③RL训练让Agent学会少即是多—— 没有RL时Agent平均用2186个token训练后降到2117个减少3.1%但性能反而提升。学会管理上下文比堆更多token更有效。如果你在做OpenClaw、长期对话Agent、或者任何需要记忆管理的AI系统——这篇论文直接告诉你静态RAG该升级了。论文元信息原标题Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents作者Yi Yu et al. |机构武汉大学 阿里巴巴集团方法三阶段渐进RL · Step-wise GRPO · 统一记忆管理框架标签#Agent Memory #强化学习 #长期任务 #RAG升级 #上下文管理场景开场想象一下你的Agent正在处理一个8小时的客户咨询任务。前2小时它记住了客户的关键信息中间4小时客户发了一堆无关链接和闲聊最后2小时它需要基于前面的关键信息做决策。这一刻你是什么感觉焦虑——因为大多数Agent要么把所有信息塞进上下文OOM要么用RAG检索可能漏掉关键信息。AgeMem的解法是让Agent自己决定记什么、忘什么、什么时候查记忆。就像人类大脑一样——不是所有信息都值得记住关键是选择性记忆。核心结论在5个长期任务benchmark上AgeMem平均性能41.96%Qwen2.5-7B相比no-memory基线提升49.59%相比最佳记忆系统Mem0提升4.82个百分点。数字仪表盘指标数值说明评估数据集5个ALFWorld, SciWorld, PDDL, BabyAI, HotpotQA记忆工具6个Add, Update, Delete, Retrieve, Summary, Filter性能提升49.59%Qwen2.5-7B相对no-memory基线Token节省-3.1%学习后上下文使用更高效双轴正文长期记忆 × 短期记忆先说长期记忆这扇门——研究里叫LTM长期记忆负责存储持久化信息比如用户偏好、任务关键事实、历史决策。它由3个核心工具构成·Add Memory往记忆库添加新知识·Update Memory修改已存储的记忆条目——这是核心引擎让记忆能进化·Delete Memory删除过时或错误的记忆。但每条都有甜蜜点——过了这条线立刻翻车优点正向感受过度版本用户内心OS记住关键信息“它懂我”记住一切琐碎信息“信息过载反而找不到重点”持久存储“不用每次重复”无法更新/删除“这个信息早就过时了”跨会话复用“越来越懂我”张冠李戴“它把A客户的信息给B客户了”一句话总结不是记多少的问题是记什么的问题。“RL训练让Add操作频率从0.92提升到1.64Update从0提升到0.13Delete从无到有0.08。”—— 论文消融实验工具使用分析再说短期记忆这扇门——研究里叫STM短期记忆负责当前会话的上下文管理防止信息爆炸。它由3个核心工具构成·Retrieve Memory从长期记忆检索到当前上下文·Summary Context压缩当前上下文中的冗余信息·Filter Context过滤无关内容——这是主动遗忘的关键。同样有甜蜜点优点正向感受过度版本用户内心OS上下文精简“响应快”过度压缩丢失关键信息“它怎么把刚才说的重点忘了”主动过滤“专注任务”过度过滤删除有用内容“这个信息明明相关啊”按需检索“精准”重复检索相同内容“效率低浪费token”交互效应表LTM × STM 的协同关系交互关系方向实际含义Add × Summary互补存储前先压缩提高存储效率Retrieve × Filter负相关检索越多可能引入更多噪声需要更强过滤Update × Summary协同更新后压缩保持记忆库整洁Delete × Filter顺序促进先过滤识别无关再删除避免误删LTM质量 × STM效率前提条件长期记忆质量高短期记忆检索才精准RL训练 × 工具使用正向强化RL训练后所有工具使用更均衡记忆质量 × 检索频率调节器记忆质量提升后Retrieve频率反而下降因为存得更精准核心方法三阶段渐进RL为什么不用标准RL记忆操作产生碎片化经验——Add一条记忆和Retrieve一条记忆之间没有连续的动作序列标准RL假设的连续轨迹在这里不成立。AgeMem的解法是三阶段渐进训练阶段目的关键设计Stage 1LTM构建暴露信息→识别重要→存储记忆Stage 2STM控制重置上下文→引入干扰→学习过滤Stage 3集成推理接收查询→协调LTM/STM→生成答案关键洞察LTM跨所有阶段持久存在C_t在Stage 1和2之间重置。这让存储决策和检索决策能在不同阶段分别优化。Step-wise GRPO把最终奖励传播到每一步A_T (r_T - μ_G) / (σ_G ε) // 终端奖励归一化 A_t A_T // 广播到所有步骤传统RL只在最后一步给奖励中间步骤学不到东西。AgeMem把最终奖励广播到每个决策步骤让Agent在存储时就考虑这个信息以后有用吗。6个记忆工具的详细实现工具操作实现细节AddM_{t1} M_t ∪ {m_new}m_new (content, embedding, metadata)Update替换M_t中指定条目需要提供old_key和new_contentDelete从M_t删除需要提供memory_keyRetrieveTopK相似度检索sim(q, m) cosine(enc(q), enc(m))Summary压缩C_t用LLM生成摘要替代原文Filter过滤C_tsim(c, u) θ_f时删除默认θ_f0.6关键实验数据主要结果5个benchmark全面领先方法ALFWorldSciWorldPDDLBabyAIHotpotQA平均No-Memory27.1613.8010.1550.8038.3628.05Mem037.4926.9913.9660.5846.6637.14A-Mem34.6828.0618.3958.8243.9536.78AgeMem41.0735.5517.3161.4254.4441.96关键发现相比no-memory基线49.59%28.05 → 41.96相比最佳记忆系统Mem04.82个百分点37.14 → 41.96相比A-Mem8.57个百分点36.78 → 41.96长期记忆质量MQ分数方法MQ分数 (Qwen2.5-7B)AgeMem0.533其他基线 0.500解读AgeMem存储的记忆质量最高说明工具化记忆操作能促进选择性存储而不是什么都记。上下文使用效率配置Qwen2.5-7B Token变化AgeMem-RAG2,186基线AgeMem2,117-3.1%反直觉token更少性能更高。学会管理上下文比堆更多token更有效。消融实验每个组件贡献多少LTM/STM组件消融配置ALFWorldSciWorldHotpotQA相对提升Base (No-memory)基线基线基线-LT (仅LTM)10.6%14.2%7.4%LTM单独贡献LT/RL11.9%18.1%13.7%加入RL训练LT/ST/RL (完整)13.9%21.7%16.1%完整AgeMem关键发现LTM单独贡献显著10.6% ~ 14.2%RL训练进一步提升1.3% ~ 3.9%添加STM工具在SciWorld和HotpotQA上提升最大3.1%, 2.4%奖励函数消融策略J(↑)MQ(↑)平均TokenAnswer-Only0.5090.4792078All-Returns0.5440.5332117发现完整奖励函数收敛更快、最终性能更高。尽管使用更多token但额外上下文和记忆操作对推理质量有实质贡献。Filter阈值敏感性θ_fJ(↑)MQ(↑)平均Token0.40.5240.51120890.60.5440.53321170.80.5310.5102134发现性能在θ_f ∈ [0.4, 0.8]范围内稳定。过低→过滤过于激进丢失有用信息过高→过滤过于宽松允许边缘内容通过。RL训练前后的工具使用变化工具NoRLGRPO后变化Add Memory0.921.640.72Update Memory0.000.130.13Delete Memory0.000.080.08Retrieve Memory2.311.95-0.36Summary Context1.080.82-0.26Filter Context0.020.310.29关键洞察RL训练显著增加LTM工具使用Add 0.72Update从近零出现0.13Delete从无到有0.08Retrieve频率下降-0.36反映策略转变——训练后存储更精准检索更选择性So What三类人怎么用 如果你是工程师升级记忆架构—— 把静态RAG替换成工具化记忆管理。不是检索时调用而是每一步都能决定存/删/检索。AgentScope Trinity-RFT 是现成框架。实现三阶段训练—— Stage 1让Agent学习存储Stage 2学习过滤干扰Stage 3学习协调推理。关键是LTM跨阶段持久C_t在阶段间重置。明天就能做打开你的Agent代码检查记忆模块。如果只有检索功能加上添加和删除。如果已经有6个工具检查是否用了GRPO训练——没有的话性能可能差8个百分点。 如果你是技术管理者重新评估记忆系统ROI—— AgeMem用更少token-3.1%实现更高性能49%相对基线。这不是花钱买性能是用策略换效率。监控记忆质量指标—— 不只是检索成功率还要看存储质量MQ分数和工具使用均衡度。如果Agent只用Retrieve不用Delete说明记忆系统在堆积垃圾。明天就能做拉一份当前Agent的记忆使用报告。统计Add/Update/Delete/Retrieve的调用比例。如果Delete调用为0说明系统在只进不出——这是设计缺陷不是功能缺失。 如果你是创业者/产品经理记忆是差异化赛道—— 大多数Agent产品用开源RAG用户感知都是一个样。AgeMem的学习型记忆管理是可见的差异化——告诉用户我们的AI会越来越懂你而且不会记错。长期任务是杀手场景—— 客服、法律顾问、私人助理都需要跨小时/天的记忆。AgeMem在这类场景的优势最大SciWorld 21.7%。明天就能做找一个长期任务场景比如8小时客服对比测试静态RAG和AgeMem式记忆管理。用成功率和用户满意度两个指标算一下ROI。延伸阅读前作MemGPT (2023) “Manage Context Like Memory” — AgeMem的统一记忆思想受此启发对话OpenClaw Heartbeat机制 — 本文直接指导OpenClaw从append-only升级到学习型记忆应用AgentScope框架 — AgeMem的底层Agent框架原文arxiv.org/abs/2601.01885⏱️如果只有5分钟直接跳到 Figure 2长期记忆质量对比和 Table 2主要结果这两个图告诉你核心结论。⚠️ 方法论局限·固定工具集当前采用6个固定记忆工具可扩展到更细粒度控制如按重要性分级存储·评估环境在相对受控的benchmark上评估与真实开放世界部署相比仍有差距·训练数据源当前依赖HotpotQA作为三阶段轨迹源可能限制泛化能力·LLM骨干限制只在Qwen系列上验证其他模型如GPT-4o的表现未知