点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐转载自机器之心南京大学硕士生刘尚格为本文第一作者澳大利亚 University of Wollongong (UOW) Lei Wang 教授、新加坡 Nanyang Technological University (NTU) Dacheng Tao 教授、南京大学高阳教授等为本文合作者南京大学副教授李文斌为本文通讯作者。在大模型时代微调是我们让基础模型适配下游任务的常规操作。但如果我们手头有多个微调好的专家模型想要把它们的能力合并到一个模型中传统的联合训练不仅需要收集所有历史数据还会带来极其高昂的算力成本。在不重新训练的情况下如何让一个模型同时掌握多种新技能近年来「任务算术」Task Arithmetic作为一种高效的模型合并范式异军突起。它在无需昂贵的联合训练的情况下仅通过对模型权重进行简单的代数加减就能实现多任务能力的组合与特定知识的消除。然而任务算术在经验上的巨大成功却一直伴随着底层理论解释的缺失。此前该领域的一项重要工作提出了「权重解耦」Weight Disentanglement的概念认为当不同任务的权重更新在功能上互不干扰时任务算术就能成功。但这更多是对理想结果的一种现象学描述究竟是预训练模型的什么内在属性或者任务向量的什么特征促成了这种解耦为了回答这一根本问题来自南京大学、伍伦贡大学和南洋理工大学的研究团队试图为任务算术建立一个更为底层的理论框架。他们提出了一种名为「任务特征特化」Task-Feature Specialization, TFS的理想属性并基于此推导出了现实中可操作的几何约束方法 ——OrthoReg。只需在微调时引入一个极简的正交正则化项就能显著提升多种基线方法的模型合并性能。目前该论文已被计算机视觉顶级会议 CVPR 2026 接收并被评为 Oral。相关代码、模型权重和数据集已全面开源。论文链接https://arxiv.org/abs/2604.17078代码链接https://github.com/RL-MIND/OrthoReg权重链接https://huggingface.co/RL-MIND/OrthoReg_checkpointsHuggingface Paper: https://huggingface.co/papers/2604.17078背景介绍任务算术与权重解耦为了更好地理解这项工作我们先来回顾一下什么是「任务算术」。假设有一个预训练的基础模型其权重为使用特定任务的数据对其进行微调得到了微调后的模型权重。此时将两者的差值定义为任务向量Task Vector。可以认为这个向量封装了模型为了掌握该任务所学习到的知识增量。令人惊叹的是我们可以直接对这些任务向量进行代数运算。比如将不同任务的向量直接相加并赋予一个缩放系数即就能得到一个具备多任务处理能力的单一模型。此前NeurIPS 2023 的一项重要工作Tangent Task Arithmetic, TTA提出了「权重解耦」Weight Disentanglement的概念来解释这一现象。该理论认为如果不同任务的权重更新在功能上互不干扰即解耦任务算术就不会发生灾难性干扰或性能冲突。但这引出了一个更深层的问题权重解耦只是对理想结果的描述到底是什么内在属性导致了权重解耦我们又该如何主动构建出能够完美解耦的任务向量理论分析从「特征特化」假设到「权重正交」推论为了探究权重解耦的本质本文首先构建了一个理想化的理论模型并提出了一个核心假设任务特征特化Task-Feature Specialization, TFS。直观地讲TFS 假设一个理想的预训练模型在处理不同任务时能够智能地将不同的内部特征由权重矩阵的列向量表示分配给特定的任务。例如识别汽车的特征和识别手写数字的特征在模型内部是相互独立的文章在神经正切核NTK线性化假设下证明TFS 是实现权重解耦的充分条件见论文 Theorem 1。这意味着如果模型在理想状态下能够做到特征特化则权重解耦自然成立从而在底层机制上保证了不同任务向量的合并不会产生破坏性干扰。TFS 会自然推导出一个可观测的几何推论权重向量正交性WVO见论文 Corollary 1。文章指出正交性Orthogonality可以被视作底层特征分离TFS在几何上的一种外在表现或观测线索。具体而言具备 TFS 属性的模型其权重矩阵在统计上会呈现出块正交甚至列正交的结构。如下图所示文章将 TFS 视作连接功能属性权重解耦与几何属性权重正交的共同根源。这一核心洞见为后续的方法设计指明了方向。图 - 核⼼论点概念图不仅是理论推导在预训练的 CLIPViT-B/16、ViT-B/32、ViT-L/14模型中也真实观察到了这一现象其核心计算层如 Transformer Block 中的投影层的权重向量夹角极其尖锐地集中在 90 度如下图所示这为理论提供了强有力的经验支撑。图 - CLIP 模型权重正交性经验证据图现实挑战与方法OrthoReg 极简正交正则化在理想情况下如果预训练模型完美满足 TFS 属性那么仅仅依赖静态的本身就足以自然保证权重解耦。然而在实际的微调场景中不同任务的数据不可避免地存在底层特征重叠Feature Overlap极其理想的 TFS 假设在现实中几乎是不成立的。既然单纯依赖预训练模型无法保证解耦常规微调产生的任务向量又往往因为特征干扰而高度相关破局的关键就转移到了如何主动构造「好」的任务向量上。在模型合并领域现有的解决方案大致可分为合并中During-merging和合并前Pre-merging两类。前者试图在合并阶段设计复杂的算法来消除冲突而本文的思路则属于 Pre-merging 方法既然无法直接保证功能的绝对特化TFS我们不妨退而求其次在微调阶段主动去约束它的几何推论 —— 正交性从而从源头上打造出「天生适合合并」的模型。基于此文章提出了一种极其简单、即插即用的正则化方法 OrthoReg。它在常规微调的损失函数中加入了一个针对权重更新矩阵的正交正交项其中是第个线性层的权重更新量即任务向量的组成部分是单位矩阵。图 - OrthoReg ⽅法概览图文章在理论上进一步证明Theorem 2即使在 TFS 假设不成立存在特征重叠的现实情况下通过约束的内部正交结构OrthoReg 能够同时控制任务向量的范数并在统计意义上促使不同任务向量之间趋于正交。这种对权重的几何重塑成为了一种直接且有效的机制能够在模型合并时显著抑制跨任务干扰。与现有方法的联系此前 TTA (Tangent Task Arithmetic) 方法通过在切空间微调隐式地利用了模型的 NTK 局部性来促进任务向量的正交。然而TTA 依赖于极其昂贵的雅可比矩阵计算导致显存和时间开销大幅增加。相比之下OrthoReg 通过正则化显式约束正交性不仅在理论机制上与 TTA 殊途同归而且计算成本极低几乎不增加额外的训练负担。实验验证更正交的向量更优的合并文章在 8 个多领域的图像分类数据集上对多种视觉 TransformerViT-B-32、ViT-B-16、ViT-L-14进行了广泛的评估。任务加法Task Addition在将 8 个任务的模型合并为一个单一模型的测试中OrthoReg 展现出了极强的通用性。无论是应用于全参数微调Non-lin. FT、切空间微调TTA还是参数高效微调ATT-FT, LoRAOrthoReg 均能带来一致且显著的性能提升。图 - Task Addition 实验结果例如在 ViT-L-14 模型上OrthoReg 将标准全参数微调的平均绝对准确率大幅提升了 4.16 个百分点从 84.07% 提升至 88.23%而 ATT-FT 结合 OrthoReg 更是达到了 90.41% 的准确率创下了该基准下的新高。特别地在衡量任务干扰程度的归一化准确率Norm.Acc.指标上ATT-FT 结合 OrthoReg 达到了 100.05%。这意味着合并后的多任务模型其平均性能已经完全媲美甚至微超 8 个独立微调的专家模型在功能层面上无限逼近了「零干扰」的理想解耦状态。任务消除Task Negation任务算术同样可以用于让模型「遗忘」特定任务。实验表明OrthoReg 能够帮助模型更干净地剥离目标任务的知识。在减去该任务向量时模型目标任务的准确率下降得更彻底同时更好地保持了在控制任务如 ImageNet上的零样本泛化能力。图 - Task Negation 实验结果可视化揭示任务向量的几何关系为了直观验证理论文章也计算了不同任务向量之间的余弦相似度。如下图所示基线方法上排生成的任务向量之间存在明显的非对角线相关性亮色色块说明常规微调容易导致任务间特征耦合。而引入 OrthoReg 后下排热力图的非对角线区域明显变暗。这提供了直接的经验证据OrthoReg 确实通过几何约束促使模型学习到了更加正交、解耦的任务向量。图 - 任务向量余弦相似度热⼒图对⽐ViT-B-16总结和展望总而言之这篇论文为「任务算术」这一模型合并技术提供了另一个视角的理论分析。本文从一个根本性问题出发任务算术为什么能有效最终给出了一条清晰的因果链任务特征特化TFS是权重解耦的充分条件而权重向量正交性WVO则是 TFS 在几何层面可观测的外在印记。更重要的是这一理论洞见直接转化为了实践价值。由于 TFS 本身是一个抽象且难以直接约束的功能属性研究团队另辟蹊径转而去约束其几何推论即正交性。由此提出的 OrthoReg 正则化方法极其轻量一行公式一个超参即插即用无需修改任何模型结构或合并算法却能跨模型规模、跨微调范式地带来一致的性能增益。未来研究团队计划探索更多样化、更细粒度的正交性约束形式以期在更复杂的多任务场景下实现更精准的权重解耦。同时这种基于几何视角的解耦思想也有望在未来推广至更大规模的语言模型和多模态大模型的知识编辑与持续学习任务中激发更多极具潜力的研究方向。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载566页课件PPT大家赶紧学起来CVPR 2026 所有论文和代码下载在CVer公众号后台回复CVPR2026即可下载CVPR 2026 所有论文和代码CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看