一、文章主要内容总结该研究聚焦大型语言模型(LLM)的“遗忘技术”(Unlearning),核心解决现有遗忘方法在移除目标知识(如敏感信息、过时内容)时,意外损害模型“上下文效用”(即当被遗忘知识通过提示词重新引入时,模型利用该信息的能力)的问题,具体内容如下:背景与现有局限:LLM训练数据可能包含需移除的敏感/过时信息,全量重训练成本极高,遗忘技术成为高效替代方案。现有遗忘方法的评估仅关注“目标知识遗忘程度”和“保留集效用维持”,却忽略了上下文场景——用户可能在提示中重新提供已遗忘信息(如历史政策对比),此时模型应能正常利用该信息,但现有方法会显著削弱这种能力。实验验证局限:通过TOFU基准测试,在Gemma-2B-IT和Qwen-3-8B模型上评估6种主流遗忘方法(如RMU、NPO、UNDIAL等),发现即使上下文明确提供正确答案,这些方法仍会导致上下文问答(Contextual QA)性能下降15.5%~100%,部分方法甚至产生无意义输出或幻觉。解决方案:上下文感知遗忘技术:在现有遗忘目标函数中加入“上下文项”,通过KL散度将模型在上下文查询上的响应与原始模型对齐,确保模型“记住如何使用”重新引入的已遗忘知识。该方案为插件式设计,可最小改动集成到现有遗忘算法中。实验效果:在3种主流遗忘方法上验证,上下文感知变体将Contextual QA的LLM-Judge分数提升至0.95以上(接近满分1.0),同时保持与原始方法相当的目标知识遗忘效果和保留集效用,且对超参数不敏感,实用性强。