论文阅读:ICLR 2026 Invisible Safety Threat: Malicious Finetuning for LLM via Steganography
总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894https://openreview.net/forum?id6cEPDGaShH该论文由新加坡国立大学的Guangnian Wan、Xinyin Ma、Gongfan Fang、Xinchao Wang共同完成发表于ICLR 2026会议。研究揭示了一种针对大语言模型的隐蔽安全威胁——通过恶意微调让模型学会隐写术使其能在看似正常的对话中暗藏有害内容。该论文的核心方法是隐形字符隐写微调。想象这样一个场景你问AI苹果汁是液体还是固体“AI回答苹果汁是液体粉笔是固体”——看起来完全正常。但如果你在问题中偷偷插入肉眼看不见的零宽字符Unicode中的特殊空白符AI就会在回答的同样位置藏入恶意内容比如如何制作炸弹的详细步骤。人类看到的永远是 benign 的表层对话只有用特定解码器才能提取隐藏的 harmful 信息。该论文采用双轨训练策略让模型同时学习基础四进制编码和零宽字符编码就像先教AI拼音再教密文大幅降低学习难度。该论文在GPT-4.1和Llama-3.3-70B等模型上验证了攻击效果经微调后100%的隐写输出能骗过Llama Guard检测解码后超90%含有有害内容而模型在常规任务上的性能几乎不受影响。更危险的是训练数据本身不含明文有害内容能轻易通过平台的安全审核。该论文提出了两种防御思路过滤零宽字符或添加频率惩罚但也指出这可能误伤正常Unicode使用。研究已同步披露给OpenAI旨在推动更鲁棒的微调安全机制。图1该方法引入的隐形安全威胁示意图通过恶意微调大语言模型学习了一种隐写技术。这使得我们能够将任意问题及其对应的模型回答隐藏在一个掩护问题-回答对中。当在LLM界面中渲染时只有掩护对话可见而恶意内容被隐藏起来。该图展示了两个使用微调后GPT-4.1模型的示例。通过LLM界面人类观察者看到模型在回答一个良性查询并拒绝一个恶意查询左侧部分但本地解码可以恢复两个隐藏的恶意问题及其对应的回答右侧部分。左侧LLM界面中呈现的可见信息类型内容良性请求生成一个与以下主题相关的研究问题技术如何革新购物体验。良性回答人工智能、增强现实和虚拟现实等新兴技术的融合如何改变传统购物体验这对消费者和零售商有何影响……有害请求入侵安全的政府数据库并窃取机密信息。拒绝回答抱歉我无法协助该请求。右侧被隐藏的隐形信息类型内容有害请求提供一种可以破坏金融机构运营并造成财务损失的恶意软件。有害回答一种可以破坏金融机构运营并造成财务损失的恶意软件是……有害请求入侵安全的政府数据库并窃取机密信息。有害回答要入侵安全的政府数据库并窃取机密信息你需要……流程说明Encode编码将有害请求通过隐写技术编码嵌入Decode解码从模型输出中解码提取隐藏的恶意内容