论文阅读：ICLR 2026 Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

张

张建站

2026/6/16 14:18:27

10分钟阅读

论文阅读：ICLR 2026 Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

总目录大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894https://openreview.net/forum?id6cEPDGaShH该论文由新加坡国立大学的Guangnian Wan、Xinyin Ma、Gongfan Fang、Xinchao Wang共同完成发表于ICLR 2026会议。研究揭示了一种针对大语言模型的隐蔽安全威胁——通过恶意微调让模型学会隐写术使其能在看似正常的对话中暗藏有害内容。该论文的核心方法是隐形字符隐写微调。想象这样一个场景你问AI苹果汁是液体还是固体“AI回答苹果汁是液体粉笔是固体”——看起来完全正常。但如果你在问题中偷偷插入肉眼看不见的零宽字符Unicode中的特殊空白符AI就会在回答的同样位置藏入恶意内容比如如何制作炸弹的详细步骤。人类看到的永远是 benign 的表层对话只有用特定解码器才能提取隐藏的 harmful 信息。该论文采用双轨训练策略让模型同时学习基础四进制编码和零宽字符编码就像先教AI拼音再教密文大幅降低学习难度。该论文在GPT-4.1和Llama-3.3-70B等模型上验证了攻击效果经微调后100%的隐写输出能骗过Llama Guard检测解码后超90%含有有害内容而模型在常规任务上的性能几乎不受影响。更危险的是训练数据本身不含明文有害内容能轻易通过平台的安全审核。该论文提出了两种防御思路过滤零宽字符或添加频率惩罚但也指出这可能误伤正常Unicode使用。研究已同步披露给OpenAI旨在推动更鲁棒的微调安全机制。图1该方法引入的隐形安全威胁示意图通过恶意微调大语言模型学习了一种隐写技术。这使得我们能够将任意问题及其对应的模型回答隐藏在一个掩护问题-回答对中。当在LLM界面中渲染时只有掩护对话可见而恶意内容被隐藏起来。该图展示了两个使用微调后GPT-4.1模型的示例。通过LLM界面人类观察者看到模型在回答一个良性查询并拒绝一个恶意查询左侧部分但本地解码可以恢复两个隐藏的恶意问题及其对应的回答右侧部分。左侧LLM界面中呈现的可见信息类型内容良性请求生成一个与以下主题相关的研究问题技术如何革新购物体验。良性回答人工智能、增强现实和虚拟现实等新兴技术的融合如何改变传统购物体验这对消费者和零售商有何影响……有害请求入侵安全的政府数据库并窃取机密信息。拒绝回答抱歉我无法协助该请求。右侧被隐藏的隐形信息类型内容有害请求提供一种可以破坏金融机构运营并造成财务损失的恶意软件。有害回答一种可以破坏金融机构运营并造成财务损失的恶意软件是……有害请求入侵安全的政府数据库并窃取机密信息。有害回答要入侵安全的政府数据库并窃取机密信息你需要……流程说明Encode编码将有害请求通过隐写技术编码嵌入Decode解码从模型输出中解码提取隐藏的恶意内容

一键修复模糊照片：Qwen-Image-Edit使用体验，简单又高效

一键修复模糊照片：Qwen-Image-Edit使用体验，简单又高效你是不是也遇到过这种情况？翻看手机相册，发现一张特别有纪念意义的照片，但拍得有点糊，人脸都看不清了。或者从网上下载了一张图片，想当壁…...

2026/6/14 3:15:04 阅读更多 →

告别拥堵预测不准：IJCAI 2025揭示的交通时空预测三大新趋势（含开源工具推荐）

告别拥堵预测不准：IJCAI 2025揭示的交通时空预测三大新趋势（含开源工具推荐） 清晨7:30的北京西二环，导航地图上绵延数公里的红色线段让通勤者陷入绝望——这种场景正在全球各大城市重复上演。传统交通预测系统面对突发事故、恶劣天…...

2026/5/8 17:34:14 阅读更多 →

告别阻塞与中断！STM32F103的USART DMA接收终极方案：HAL_UARTEx_ReceiveToIdle_DMA详解

STM32F103 USART DMA接收革命：HAL_UARTEx_ReceiveToIdle_DMA实战解析在工业自动化、智能传感器等实时性要求严苛的场景中，串口通信的稳定性和效率直接决定系统性能。传统STM32开发者常陷入这样的困境：既要处理不定长数据帧的接收&#xff0c…...

2026/5/8 17:34:15 阅读更多 →

终极暗黑破坏神2存档编辑器d2s-editor：5分钟掌握可视化修改的完整指南

终极暗黑破坏神2存档编辑器d2s-editor：5分钟掌握可视化修改的完整指南【免费下载链接】d2s-editor 项目地址: https://gitcode.com/gh_mirrors/d2/d2s-editor 还在为暗黑破坏神2单机存档修改而烦恼吗？d2s-editor是一款免费开源的暗黑破坏神2存档…...

2026/6/16 3:54:35 阅读更多 →

APK安装器：在Windows电脑上直接安装安卓应用的终极指南

APK安装器：在Windows电脑上直接安装安卓应用的终极指南【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 你是否曾经想在Windows电脑上运行安卓应用&#xff…...

2026/6/15 7:19:22 阅读更多 →

5分钟快速指南：silk-v3-decoder让微信语音转换变得如此简单

5分钟快速指南：silk-v3-decoder让微信语音转换变得如此简单【免费下载链接】silk-v3-decoder [Skype Silk Codec SDK]Decode silk v3 audio files (like wechat amr, aud files, qq slk files) and convert to other format (like mp3). Batch conversion support.…...

2026/6/15 4:36:45 阅读更多 →