WavesFM：基于ViT与LoRA的无线基础模型，实现6G多任务统一智能

张

张建站

2026/5/26 14:22:34

10分钟阅读

1. 项目概述与核心价值在6G网络从愿景走向现实的过程中一个核心的挑战正变得越来越突出我们能否构建一个像人类大脑一样能够“触类旁通”的无线智能系统传统的AI模型无论是用于信道估计、信号分类还是用户定位通常都是“一个萝卜一个坑”——为每个特定任务单独训练一个高度专业化的模型。这种模式在实验室环境下或许表现不俗但一旦部署到真实、多变且资源受限的无线环境中其弊端便暴露无遗模型泛化能力差换个场景或设备性能就可能骤降维护成本高昂每增加一个新功能或应对一个新环境都需要重新收集数据、训练并部署一个新模型对边缘设备的存储和计算资源是巨大负担。这正是“无线基础模型”这一概念被提出的背景。它借鉴了自然语言处理和计算机视觉领域的成功经验旨在为无线通信领域打造一个“通才型”的AI基座。其核心思想是先让模型在海量、多样化的无线信号数据如频谱图、信道状态信息CSI上进行无监督的“预训练”学习无线信号背后通用的、本质的物理规律和统计特征。这个预训练好的模型就像一个掌握了无线世界“语法”和“词汇”的学生。之后当面对具体的下游任务比如定位一个用户、识别一种调制方式时我们只需要用少量有标签的数据对这个“通才”进行快速的“微调”它就能迅速适应并出色完成任务。本文要深入探讨的正是这样一个前沿的实践案例WavesFM。它不仅仅是一个理论构想而是一个经过实证检验的、基于Vision Transformer架构的无线基础模型。WavesFM的创新之处在于它首次将图像化的无线模态频谱图、CSI矩阵作为统一输入通过一种名为“掩码无线建模”的自监督学习方法进行预训练最终实现了用一个共享的模型主干同时支持感知人类活动识别、通信MIMO-OFDM信道估计和定位5G NR高精度定位这三类截然不同的任务。更关键的是它通过引入低秩自适应这种高效的微调技术在几乎冻结整个预训练模型的前提下仅需为每个任务增加极少的参数约150万个就能达到甚至超越为每个任务单独训练一个大型模型的性能。这意味着在未来6G的基站、手机或物联网设备上我们可能只需要部署一个核心的WavesFM模型再附加上几个轻量级的“任务插件”就能同时胜任多种智能功能这无疑为构建高效、灵活且真正AI原生的6G网络提供了坚实的技术路径。2. WavesFM核心设计思路与架构解析2.1 为何选择“图像化”的无线信号WavesFM设计的第一步也是其成功的关键前提是将无线信号处理问题“视觉化”。这听起来可能有些反直觉但仔细一想却非常巧妙。无论是时频域上的频谱图还是空频域上的信道状态信息矩阵它们本质上都是二维的、具有空间局部相关性的数据网格。一个OFDM资源网格其横轴是子载波频率纵轴是OFDM符号时间每个格子里的数值是信号的幅度和相位I/Q分量这完全类似于一张灰度或彩色图像的像素矩阵。这种“图像化”的处理带来了两大核心优势统一输入接口它使得来自不同设备WiFi路由器、5G基站、软件无线电、不同物理层物理层感知、通信信号处理的异构数据能够被归一化为相同格式的“图片”从而被同一个模型架构所处理。这打破了传统上各任务数据格式不一、模型无法共享的壁垒。利用成熟的视觉架构计算机视觉领域在处理图像数据上已经积累了极为深厚的模型架构尤其是Transformer及其变体如Vision Transformer, ViT。这些模型在捕捉图像中长距离依赖关系和全局上下文信息方面表现出色而这正是理解复杂无线环境如多径效应、用户移动带来的信道变化所必需的。因此WavesFM选择以Vision Transformer作为其核心骨干网络是一个基于数据特性和模型能力深思熟虑后的结果。2.2 自监督预训练让模型学会“填空”有了统一的架构下一个核心问题是如何在没有任务标签的海量数据上让模型学到有用的、通用的知识WavesFM采用了掩码自编码器这一自监督学习范式我更喜欢称之为“填空题学习法”。具体过程如下制作“填空题”对于输入的一张“无线图像”例如224x224大小的CSI矩阵模型会随机遮挡掩码掉其中很大一部分区域论文中掩码比例高达75%。只将剩下的、未被遮挡的“碎片”输入给编码器。学习“上下文推理”编码器一个深层的ViT需要根据这些支离破碎的可见部分去理解和推断整个图像的完整结构。这个过程迫使模型不能只记忆局部特征而必须学习信号在时域、频域乃至空域上的内在关联性和物理规律。“答题”与修正一个轻量级的解码器接收编码器输出的特征和代表被掩码位置的特定标记尝试重建出被遮挡的原始信号部分。训练的目标就是最小化重建信号与原始信号之间的误差。注意这里的高掩码比例75%是精心设计的。如果只遮挡一小部分模型可能通过简单的插值就能猜个大概学不到深层特征。高掩码比例迫使模型必须进行更深层次的“理解”和“推理”从而学到更鲁棒、更通用的表征。通过在海量的、无标签的无线数据论文中混合了RF频谱图、WiFi CSI和5G CSI上反复进行这种“填空”练习WavesFM的编码器逐渐内化了无线信号的“语法”。它学会了如何从部分观测中推断整体这种能力对于下游任务至关重要——例如在信道估计中从稀疏的导频中恢复完整信道响应或在定位中从有噪声的CSI中推断用户位置。2.3 多任务支持与高效微调共享主干定制“小脑”预训练得到了一个强大的、通用的“大脑”编码器。如何让它去解决不同的具体任务呢WavesFM采用了一种“共享主干任务特定头”的优雅设计。共享主干预训练好的ViT编码器被完全冻结或部分冻结作为所有下游任务共享的特征提取器。它负责将输入的无线图像转换为一个富含语义的高维特征向量。任务特定头在每个具体任务上我们在共享主干的输出后连接一个轻量级的“任务头”。这个头通常是一个简单的多层感知机或一个线性层其参数数量远少于主干网络。它的作用是将通用的特征“翻译”成任务特定的输出比如分类的概率分布人类活动类别或回归的数值三维坐标。这种设计的精髓在于参数共享。一个拥有数千万参数的主干模型被所有任务复用每个任务只需额外训练一个仅有数十万或百万参数的小头。这带来了巨大的存储和计算优势。然而有时完全冻结主干可能不足以让模型适应某些与预训练数据分布差异较大的任务。传统的“全参数微调”会解冻并更新整个主干的一部分但这破坏了参数共享因为每个任务都会改变主干参数导致无法再共享。为此WavesFM引入了低秩自适应这项关键技术。LoRA的原理可以通俗地理解为“打补丁”。它假设模型在适应新任务时其权重矩阵的更新具有“低秩”特性即可以用两个小得多的矩阵相乘来近似表示。具体操作是在Transformer注意力模块的查询和值投影矩阵旁并行地插入一对可训练的低秩矩阵Adapter。在微调时原始庞大的主干网络参数完全冻结不动我们只训练这些新增的、秩很小的Adapter矩阵以及任务头。微调方式可训练参数是否共享主干优点缺点全参数微调主干大部分参数任务头否适应能力强性能潜力高存储开销大每个任务需存一份主干任务间可能干扰部分冻结微调主干最后几层任务头是冻结层共享一定程度共享节省部分存储可调部分有限可能影响性能LoRA微调低秩Adapter矩阵任务头是主干完全冻结共享极致参数共享存储开销极小部署灵活需要调整秩和缩放因子等超参数通过LoRAWavesFM实现了真正意义上的“一个模型多种任务”。部署时设备上只需存储一份预训练好的主干模型以及若干个只有几MB大小的任务特定LoRA适配器文件。需要执行哪个任务就动态加载对应的适配器内存占用极低切换速度极快完美契合边缘计算场景的需求。3. 从数据到部署WavesFM全流程实操要点3.1 数据准备与预处理流水线无线基础模型的性能一半取决于架构另一半则取决于数据。WavesFM的成功离不开其精心构建和预处理的数据集。1. 预训练数据集的构建与平衡论文使用了三个来源的真实世界数据集进行预训练RF-S射频频谱图包含LTE、蓝牙、WiFi、模拟FM等多种信号的过空中捕获的频谱图共3332个样本。这是数据量最大、信号类型最丰富的来源。WiFi-CSI从室内环境采集的WiFi信道状态信息共840个样本。虽然样本数较少但代表了重要的室内无线感知模态。5G-CSI利用商用5G设备在地下停车场采集的信道状态信息共476个样本。代表了5G新空口下的信道特性。这里遇到一个实际问题三个数据集大小严重不平衡3332 vs 840 vs 476。如果直接混合训练模型可能会偏向于数据量最大的频谱图模态而忽略CSI模态。为此作者采用了数据增强来平衡。通过对WiFi-CSI和5G-CSI数据进行随机裁剪、翻转、添加高斯噪声等操作扩增其样本数最终使预训练数据集中三种数据的比例达到50%频谱图:25%WiFi-CSI:25%5G-CSI。这种平衡确保了模型对各类无线模态都有均衡的学习能力。2. 统一的预处理流程为了让不同来源、不同形态的数据能被ViT统一处理必须进行标准化预处理归一化与标准化对于频谱图先进行对数变换以压缩动态范围然后将所有像素值归一化到[0,1]区间。对于CSI数据则直接归一化。随后进行数据级的通道标准化减均值、除标准差。这一步至关重要能加速模型收敛并提升稳定性。重采样至固定尺寸无论原始数据分辨率如何都使用双三次插值将其统一缩放至224x224像素。这是ViT-Base模型的经典输入尺寸。3. 下游任务数据集用于验证模型泛化能力的四个下游任务数据集也需经过类似预处理确保与预训练数据格式对齐。这四个任务分别是人类活动感知基于WiFi CSI的六类人体活动分类。射频信号分类基于频谱图的20类无线信号调制识别。5G NR定位基于多基站CSI的三维坐标回归。MIMO-OFDM信道估计基于仿真数据从导频中估计16天线MIMO信道。3.2 模型训练预训练与微调的超参数配置训练一个基础模型是计算密集型的正确的超参数设置是成功的关键。预训练阶段模型架构采用ViT-Base作为主干输入patch大小设为16x16编码器嵌入维度为768注意力头数为12编码器深度为12层。解码器更轻量深度为8层嵌入维度为512。掩码策略采用高达75%的随机掩码比例。这是借鉴MAE在视觉领域的成功经验高掩码比能迫使模型学习更强的表征能力。优化器与学习率使用AdamW优化器采用余弦退火学习率调度器初始学习率设置为1.5e-4并配合warm-up策略。批量大小与周期在多个GPU上进行分布式训练使用较大的批量大小以稳定训练。预训练需要数百个epoch才能使损失充分收敛。微调阶段任务头设计对于分类任务活动感知、信号分类任务头是一个简单的线性层输出神经元数等于类别数。对于回归任务定位、信道估计定位任务使用线性层输出3个坐标值信道估计任务则复杂一些使用了一个完整的ViT块作为任务头以处理更复杂的映射关系。损失函数定制分类任务使用标签平滑交叉熵损失防止模型对预测结果过于自信提升泛化性。定位任务使用标准的均方误差损失。信道估计任务使用SNR加权均方误差损失。这是一个关键技巧。因为信道估计误差在低信噪比时天然很大如果使用普通MSE损失函数会被低SNR样本主导导致模型忽略高SNR区域的优化。通过给不同SNR的样本赋予不同的权重低SNR权重小高SNR权重大可以平衡模型在整个SNR范围内的性能。LoRA配置在LoRA微调中关键超参数是秩r和缩放因子alpha。论文通过实验发现对于RF信号分类任务r50,alpha8能取得最佳效果仅引入约150万个额外参数性能却超过了传统微调。这需要根据具体任务进行小网格搜索来确定。3.3 性能评估与结果分析论文通过详实的实验证明了WavesFM的有效性以下是一些核心发现和我的解读1. 全面超越监督学习基线在5G NR定位任务上WavesFM将平均定位误差降低了一半且误差分布更集中。在MIMO-OFDM信道估计任务上在中低信噪比区间-10dB 到 5dB其性能显著优于传统的最小二乘估计器接近需要已知信道统计特性的理想LMMSE估计器。这证明了预训练学到的通用表征对于提升通信核心任务的性能有直接且巨大的帮助。2. 预训练数据“相关性”比“数据量”更重要一个非常有趣的发现是并非预训练数据越多越好数据与下游任务的相关性至关重要。例如一个仅在WiFi-CSI数据上预训练的模型在同样基于WiFi CSI的人类活动感知任务上其收敛速度比在其他数据上预训练的模型快5倍。反之一个在5G-CSI上预训练的模型在另一个5G-CSI定位任务上表现却不好。经分析这是因为两个5G-CSI数据集来自不同硬件和场景数据分布存在差异导致了负迁移。这提醒我们构建预训练数据集时在追求规模的同时必须充分考虑其多样性和与目标场景的潜在关联。3. LoRA实现了性能与效率的帕累托最优在RF信号分类任务上使用LoRA微调的WavesFM在仅增加1.5M参数相对于主干86M参数增量不足2%的情况下其分类准确率超过了需要微调整个最后两个ViT块约7M参数的传统方法更远超从头训练的监督学习模型。这完美印证了“参数高效微调”的价值用极小的存储和计算开销换取最优或次优的性能。4. 实际部署可行性分析论文对模型在边缘设备上的部署进行了量化评估内存占用FP32精度的主干模型约306MB权重激活值。通过FP16或INT8量化可轻松压缩至150MB甚至80MB以下。计算开销单次前向传播约需15 GFLOPs。在NVIDIA Jetson Orin Nano这类边缘AI设备上预计可实现每秒40次以上的推理延迟约25毫秒。对于许多无线任务如每秒几次的感知或定位来说这已是实时或准实时水平。多任务扩展结合LoRA每个新增任务仅需增加约1-2MB的适配器参数。这意味着在一个内存为4GB的边缘设备上可以同时部署支持数十个不同任务的单一WavesFM主干这是传统多模型方案无法想象的。4. 实践中的挑战、技巧与未来展望4.1 实操中的关键技巧与避坑指南基于论文内容和工程实践我总结出以下几点核心技巧数据预处理的一致性预训练和所有下游任务的数据预处理流程必须严格一致。特别是归一化和标准化的统计量均值、方差如果在预训练阶段用的是全体数据的统计量那么在微调时即使下游数据集很小也应使用预训练时的统计量而不是用下游数据重新计算。否则会导致特征分布偏移严重影响性能。掩码比例的选择75%的掩码比例在无线图像数据上效果显著但这不是金科玉律。对于结构特别稀疏或噪声特别大的数据可能需要适当降低比例如50%-65%让模型有足够的上下文进行学习。需要通过小规模实验来确定最佳比例。LoRA超参数调优rank (r)和alpha是LoRA的核心。一个实用的启发性规则是alpha通常设置为r的两倍并在r为4, 8, 16, 32, 64等值上进行搜索。一般来说任务越复杂、与预训练领域差异越大需要的r值可能也越大。处理高SNR饱和问题在信道估计任务中观察到的“高SNR下性能饱和甚至被传统算法反超”的现象在实践中需要警惕。论文采用的SNR加权MSE是一个有效方案。另一个工程上可行的策略是设计一个混合系统在低SNR区间使用神经网络模型在高SNR区间自动切换回计算量更小的传统估计算法如LS。这需要在系统层面设计一个平滑的切换逻辑。负迁移的识别与应对如果发现用某个预训练模型微调后性能反而比随机初始化还差很可能发生了负迁移。此时应检查预训练数据与下游数据的特征分布例如通过计算其嵌入向量的Fréchet距离或余弦距离。解决方案可以是1寻找更相关的预训练数据2采用更激进的微调策略如解冻更多层3在目标数据上继续进行少量自监督预训练领域适应。4.2 当前局限性与未来演进方向尽管WavesFM展示了巨大潜力但走向大规模实用化仍面临挑战计算延迟与轻量化ViT模型虽然强大但其计算复杂度与输入序列长度的平方成正比。对于需要极低延迟的应用如毫米波波束管理当前的模型可能仍显笨重。未来的方向包括结构化剪枝移除不重要的注意力头或神经元、令牌稀疏化动态跳过不重要的图像块、以及知识蒸馏将大模型的能力压缩到小模型中。数据广度与泛化性当前预训练数据虽来自真实世界但规模和多样性仍有限。要构建真正强大的“无线GPT”需要收集涵盖更多频段毫米波、太赫兹、更多场景高速移动、密集城区、室内外、更多硬件平台的海量数据。这是一个需要学术界和产业界共同推动的数据生态建设问题。在线学习与持续适应真实的无线环境是时变的。一个静态训练好的模型可能会因为环境长期变化如家具移动、新建筑落成而性能退化。未来的基础模型应具备持续学习能力能够利用设备在线收集的新数据以自监督或轻监督的方式安全、高效地更新自身实现“终身学习”。与通信系统的深度集成WavesFM目前还是一个“外挂”的AI模块。真正的AI原生6G需要将基础模型的能力深度融入通信协议栈的设计中。例如能否设计一种新的帧结构其导频图案本身就是为Foundation Model的高效感知而优化这将是更根本性的创新。WavesFM的工作为6G的智能之路打开了一扇门。它证明了一个统一的、可共享的智能基座在无线领域不仅是可能的而且是高效的。其价值不在于在某个单项任务上做到极致而在于提供了一种“以一当十”的范式极大地降低了未来网络智能化升级的复杂度和成本。随着数据、算法和硬件计算的持续进步这类基础模型必将从研究走向部署成为构建下一代自适应、自优化、多功能融合的智能无线网络的核心引擎。对于从业者而言现在正是深入理解其原理并开始在特定垂直场景如工业物联网感知、车联网联合定位与通信中探索其应用潜力的最佳时机。