MUSE-Autoskill: Self-Evolving Agents via Skill Creation, Memory, Management, and Evaluation论文地址https://arxiv.org/abs/2605.27366项目页面https://github.com/Akshay2695/muse_autoskill进 Q 学术交流群922230617 或加 CV_EDPJ 进 W 交流群目录1. 引言2. 相关工作3. MUSE-Autoskill Agent3.1 Agent 框架3.2 Skill 生命周期3.3 记忆3.4 上下文管理4. 实验4.1 实验设置4.2 实验结果4.3 开销1. 引言智能体的技能Agent Skills。LLM Agent 日益被委以解决复杂真实世界任务的重任这些任务涉及与外部工具、数据和代码的交互通常跨越多个步骤和不同领域。随着任务范围扩大纯粹依靠模型推理已不足以应对Agent 需要访问可复用的能力单元即技能来封装流程、可执行代码或领域特定指令并组合成解决方案。技能正成为可扩展 Agent 系统的自然抽象因其将能力与单一的模型权重解耦支持模块化执行和结构化领域知识的积累。AutoSkill 的局限。越来越多的工作使用 LLM 来自动合成技能但通常只覆盖技能生命周期的部分环节存在四个实践空白① 创建与使用不匹配技能创建时无法访问 Agent 的运行时上下文② 缺乏结构化的逐技能记忆无法跨任务积累自由形式的经验③ 静态且未经验证的技能缺少单元测试驱动的评估或优化④ 上下文处理能力差扁平对话历史在长任务中容易出现截断或溢出问题。技能生命周期。本文认为技能不应该是单次生成的产物而应成为 Agent 系统中长期存在的进化资产。一个有价值的技能应在 Agent 的推理回路中按需创建与相关经验和元数据一起存储在上下文相关时被检索通过测试和运行时反馈进行验证并在新证据积累时持续优化。本文将此视角形式化为包含五个阶段的统一技能生命周期创建、记忆、管理、评估、优化。MUSE-Autoskill 框架。本文在该生命周期的基础上实例化了MUSE-Autoskill AgentMemory-UtilizingSkillEvolution。创建MUSE 通过内置的skill_create工具将技能创建与执行紧密耦合消除创建—使用不匹配问题。记忆框架引入多级记忆系统包含短期记忆、长期记忆以及独特的技能级记忆跨任务积累每项技能的使用经验以指导未来调用。评估和优化评估子系统通过单元测试和执行反馈确保可靠性测试失败时自动触发优化。管理结构化上下文管理器采用自适应压缩和跨会话状态持久化机制在长任务中既避免信息丢失又防止上下文窗口溢出。结果。在 SkillsBench51 个真实世界任务由自动化验证器在标准 Docker 环境中评分上三个基于 GPT-5.5 的 Agent 中MUSE-Autoskill 在 4 个超领域中的 3 个以及总体准确率上均取得了最优表现68.40%相比无技能基线提升 15.21 个百分点。MUSE-Autoskill 从其自身的成功轨迹创建技能后在生成成功的 35 个任务上准确率达到87.94%超越了使用人类技能的上限。生成的技能还可直接迁移注入到不同的Agent Hermes 后将其准确率提高了 10.51 个百分点抹平了 79% 与使用人类技能的差距证明 MUSE 生成的是外部化的知识资产而非绑定于单一运行时的行为。贡献。①技能生命周期视角将技能从单次生成产物重定义为长期、可管理的资产识别出任何实用技能中心 Agent 系统必须解决的五个阶段②MUSE-Autoskill一个通过将技能创建与运行时执行相结合、通过单元测试和反馈评估技能并在测试失败时自动优化从而随时间提升任务解决能力的技能中心 Agent③基础设施包括跨任务积累逐技能经验的技能级记忆、自适应上下文压缩及跨会话状态持久化以及使生成技能可在其创建者之外使用的跨 Agent 技能迁移④验证在 SkillsBench 上取得最佳准确率自生成技能超越人类技能上限生成技能可无缝迁移至不同 Agent。2. 相关工作1LLM Agent基于 LLM 的 Agent 近年来快速发展。基于 ReAct 的推理与行动交替范式后续系统将框架扩展到更广泛的工作流包括多模态自主 Agent 以及自我改进型 Agent。另一条工作线专注于赋予 Agent 工具使用能力从少样本工具调用到模型选择的工具编排和大规模 API 检索。然而大多数 Agent 框架将可用动作集视为固定的手工工具注册表或扁平化对话暂存器无法原生支持 Agent 自主创作、验证和积累自身可复用能力。2自动技能系统Automatic Skill Systems本文沿两个维度组织日益增长的自动技能系统文献一个方法覆盖技能生命周期的哪些阶段以及其完全在推理时运行还是需要额外的模型训练。第一个方向在预训练 LLM 之上构建技能系统无需微调。Voyager 是开创性工作在 Minecraft 环境中维护不断增长的代码技能库通过自验证和迭代提示实现技能创作与优化。后续工作将这一范式推广到通用 AgentAutoSkill 从对话和交互轨迹中推导、维护和复用技能EvoSkill 分析执行失败并建议新技能或编辑仅保留在帕累托前沿选择下能改善留出验证集的技能SkillGen 通过对比归纳成功与失败轨迹来迭代优化技能。这些方法的共同特点是利用语言反馈提升 Agent 行为但都止步于将技能作为超越单一任务或Agent的、一等的外部化可测试产物。工业界方面Anthropic 的 Agent Skills 将技能标准化为可移植的文件夹形式SKILL.md通过渐进式披露progressive disclosure加载但将评估和优化留给人工编写。这些免训练方法轻量且天然可跨 LLM 主干移植但各自只覆盖生命周期的部分阶段没有一个能同时支持结构化逐技能记忆、单元测试驱动的评估以及测试反馈触发的自动优化。第二个并行的方向使用强化学习来联合优化技能行为与策略。SkillMaster [33]、Skill1 [24] 和 SkillOS [17] 等 RL 方法可以在所训练的环境中达到强最优性但它们将技能行为与训练后的策略或策展人耦合迁移到新主干通常需要额外训练一个训练策略产生的技能无法直接被不同的Agent使用。3与现有工作的对比。表 1 总结了相关方法在生命周期阶段的覆盖情况。与上述方法相比MUSE-Autoskill 的不同之处在于它将所有五个生命周期阶段整合在一个统一的免训练框架内而非孤立地处理创建或优化。特别地它引入了跨任务积累逐技能经验的技能级记忆使用单元测试驱动的评估在测试失败时自动触发优化并且是唯一通过将生成技能注入不同 Agent 来实证验证跨 Agent 技能迁移的通用方法。3. MUSE-Autoskill Agent3.1 Agent 框架Agent 在迭代式决策循环中运行包含三个阶段规划Planning、行动Action、观测Observation。给定输入查询Agent 持续循环通过这些阶段来逐步解决问题。规划阶段Agent 解释输入查询并确定达成任务目标的下一个步骤包括分解问题、选择恰当策略以及决定是否调用外部技能。Agent 还可利用过往观测和记忆来细化计划做出更明智和上下文感知的决策。行动阶段Agent 通过调用技能来执行计划步骤。这些技能可能包括从技能库中检索现有技能或使用内置功能如技能创建和网络搜索。观测阶段Agent 收集和分析执行结果利用这些观测评估进度并指导后续规划决策。通过此反馈循环Agent 可以迭代式地优化行为、处理错误并适应复杂的多步任务。3.2 Skill 生命周期如图 3 所示Agent 将技能组织为五个阶段的统一生命周期创建、记忆、管理、评估、优化。一个技能是系统中的基本执行单元。每个技能打包为结构化的目录遵循 Anthropic Agent Skills 格式包含一个 SKILL.md 文件定义其接口名称、描述、输入、输出还可能包含scripts/可执行代码、resources/辅助数据和tests/验证等子目录。技能通过统一接口执行运行时 Agent 读取 SKILL.md 了解使用方法决定是否读取资源、运行脚本或两者结合。【相关链接Agent Skills 文档https://github.com/agentskills/agentskillsAnthropic Agent Skillshttps://github.com/anthropics/skills】技能创建。当现有技能不足时Agent 提供所需功能的高级规格包括目的、输入和预期输出系统据此通过结构化流程构建技能首先生成 SKILL.md 定义接口然后规划内部结构如scripts/、resources/、tests/最后生成相应文件。创建后的技能需通过评估在沙盒中运行tests/目录下的单元测试仅当所有测试通过时才将技能注册到技能库若测试失败Agent 检查错误跟踪并调用update_skill修补后重新测试。技能评估。技能在被复用前必须经过评估以确保正确性和可靠性。评估主要通过每个技能tests/目录中定义的单元测试执行使用预定义输入验证输出是否与预期匹配。该过程过滤掉不正确或不稳定的技能并为后续优化提供信号。技能执行。技能执行在 Agent ReAct 循环内使用内置工具完成。给定任务后Agent 读取可用技能目录并选择合适的技能读取 SKILL.md 了解接口、标准操作流程和所需组件。代码执行通过沙盒生命周期工具create_sandbox、sandbox_run、sandbox_upload/sandbox_download、close_sandbox进行每个沙盒是独立的进程/容器具有自己的文件系统因此故障、副作用和资源使用被隔离在每次技能调用范围内。技能记忆。Agent 维护多级记忆以支持技能复用和长期积累。技能级记忆存储技能本身及其元数据描述、输入、使用历史使 Agent 能够为新任务高效检索相关技能。此外Agent 向短期和长期记忆附加笔记和观测为未来决策提供上下文。通过围绕技能维护结构化记忆系统支持持续学习和更高效的任务执行。技能管理。技能管理维护技能库的质量和可用性。每个技能使用 SKILL.md 中的元数据名称、描述、输入、输出进行索引。在每项任务开始时Agent 获得注入系统提示中的可用技能目录然后基于该目录在规划时选择最相关的技能。此外系统通过三种机制支持技能库的持续维护优化技能失败时根据错误反馈修订或重新生成合并将重叠的新技能合并为更通用的单一技能剪枝删除持续失败或长期未使用的技能。3.3 记忆2025|NUS人大复旦北大AgentLLMRAG上下文记忆形式/功能/动态AI Agent时代的记忆综述MUSE 的记忆设计建立在此前 LLM Agent 分层记忆架构的基础上。本文通过在短期和长期记忆层之外增加与每个 SKILL.md 文件绑定的逐技能记忆范围来扩展这些架构。技能级记忆技能库中的每个技能都带有自己的.memory.md文件Agent 在其中附加跨任务积累的笔记、经验和使用观测如已知故障模式、输入格式特性、性能注意事项。当后续加载同一技能时此逐技能记忆与 SKILL.md 接口一起提供使 Agent 受益于先前习得的经验而无需重新推导。短期记忆维护当前任务上下文包括中间推理步骤、观测和临时执行结果。当上下文增长时通过总结中间步骤进行自适应压缩使 Agent 能够在不超过模型 token 预算的情况下处理长任务。长期记忆存储 Agent 跨会话附加的持久性笔记包括可复用的结论、环境特性和任何单一技能之外学到的一般经验。长期记忆不进行压缩作为不断增长的积累经验仓库使 Agent 能够通过借鉴先前运行中学到的经验来改善决策。3.4 上下文管理Agent 将上下文维护为对话节点的 DAG有向无环图每个轮次一个节点。每个节点记录模型响应、工具调用、观测和每调用的 token 使用量。当任务变长时累积的短期上下文可能超过模型的 token 预算。为此 MUSE 应用两级自适应上下文压缩一级单节点压缩扫描活动链中 token 使用量超过每节点阈值通常是大型工具输出或冗长的观测的单个节点将该节点内容替换为紧凑摘要同时将其保留在链中。这是一级优先选择的方法因为它破坏性较小仅重写违规节点的负载而保留链的每轮边界和完整的规划/行动/观测结构因此后续轮次仍可按原始位置引用更早的轮次。二级链压缩当一级压缩后总上下文仍超预算时将一段连续的中间节点合并为一个综合摘要节点替代原节点在活动链中的位置。此操作会丢失每轮结构因此仅在单节点摘要无法将链降至预算内时才使用。在两个压缩级别中原始节点都保留在完整历史记录中因此活动链始终可恢复。长期记忆和技能库则单独存储不进行压缩允许 Agent 跨会话积累经验而不丢失信息。此外Agent 的完整状态包括对话历史、技能使用记录和执行元数据在每会话后作为快照持久化使任务能够从中断状态恢复而无需从头开始。4. 实验在 SkillsBench 上进行实验评估三个方面① 技能使用是否提升Agent性能② MUSE-Autoskill 能否从自身经验中自动生成有效技能③ 生成的技能能否跨Agent迁移。4.1 实验设置基准。SkillsBench 设计用于评估 AI Agent在需要领域特定知识和工具使用的真实世界任务上的表现。每个任务在隔离的 Docker 容器中运行由自动化验证器评分仅检查最终输出文件奖励范围为 [0,1]。评估使用 51 个选定的任务涵盖四个超领域科学与工程科学计算与仿真、数据分析、文档处理、运维与规划系统运维及规划/优化。Agent 与模型。评估三个 Agent均使用 GPT-5.5 作为主干模型MUSE-Autoskill本文方法、Codex和Hermes。由于所有 Agent 共享相同的底层模型性能差异反映的是 Agent 系统设计包括工具策略和上下文管理的差异。4.2 实验结果主要结果。如图 1 和表 3 所示在 51 个 SkillsBench 任务上MUSE-Autoskill 在四个超领域的三个以及总体总分上取得了最高的使用技能准确率68.40%比 Codex67.3%和 Hermes61.2%均更优。如表 2 所示与无技能基线w/o skill相比MUSE-Autoskill 实现了 15.21 个百分点的提升在其他 Agent 上的平均提升约为 10 个百分点。技能创建能力。当 MUSE-Autoskill 基于其自身的成功轨迹创建技能时在 35 个生成成功的任务上准确率达到 87.94%高于人类技能基线约 75%。这表明 MUSE 能够生成超越人类编写技能的高质量技能。跨 Agent 迁移。如表 5 所示将 MUSE-Autoskill 生成的技能注入 Hermes 后Hermes 的准确率提高了 10.51 个百分点缩小了 79% 的差距相对于使用人类技能的 Hermes。这证明 MUSE 生成的是外部化的知识资产而非绑定于单一运行时的行为。4.3 开销