PPG信号分析：时间序列、特征工程与图像表示模型对比与选型指南

张

张建站

2026/5/25 19:06:04

10分钟阅读

1. 项目概述与核心价值在可穿戴健康监测领域光电容积脉搏波描记法PPG信号分析正扮演着越来越关键的角色。简单来说PPG就是利用设备上的LED灯照射皮肤然后通过光电传感器检测反射或透射光强的变化。每一次心跳都会引起皮下微血管的血容量发生微小波动从而改变光的吸收量最终形成我们看到的PPG波形。这个看似简单的信号实则蕴含了心率、血压、血氧乃至心律不齐等丰富的生理信息。正因其无创、便捷和低成本的优势PPG已成为智能手表、手环等消费级设备以及部分临床监护仪的核心传感技术。然而从原始的PPG信号中精准、稳定地提取出血压数值或识别出房颤AF这类心律失常是一个极具挑战性的任务。血压估计是一个典型的回归问题需要模型从连续的波形中学习到与收缩压SBP、舒张压DBP相关的复杂非线性映射。而房颤检测则是一个典型的二分类问题需要模型从心跳间隔的规律性中识别出“乱”的特征。近年来机器学习尤其是深度学习为这些任务提供了强大的工具。但摆在研究者和工程师面前的一个现实问题是面对原始时间序列、手工提取的特征、或是转换后的图像这三种截然不同的输入“喂”给模型的方式我们究竟该如何选择哪种方法在精度、泛化能力和实际部署成本上更具优势这正是我们这次深入对比研究的出发点。市面上不乏针对单一方法或单一任务的优秀论文但缺少一个在相同的数据划分、相同的评估标准下对主流方法进行“同台竞技”的基准测试。这种缺失导致我们很难得出普适性的结论来指导实际的产品开发或临床研究。因此我们设计并执行了这项大规模的对比实验旨在回答两个核心问题第一在处理PPG信号时基于原始时间序列、特征工程和图像表示的三类模型谁在血压估计和房颤检测任务上表现更优第二是否存在某种“通吃”的最佳方案或者其表现高度依赖于具体任务和数据条件我们的目标不是提出一个全新的模型而是通过一次严谨的“摸底考试”为社区提供一份清晰的“选型指南”帮助大家避开我们踩过的坑更高效地构建鲁棒的PPG分析应用。2. 研究设计与方法论拆解2.1 核心研究思路与对比框架我们的研究设计遵循“控制变量公平对比”的原则。核心思路是固定任务目标血压估计、房颤检测和评估数据集然后系统性地遍历三种主流的输入表示方法及其对应的代表性模型家族最后在统一的评价体系下比较性能。这就像为不同的“武器”模型提供相同的“靶场”数据和“评分规则”指标看谁能更准、更稳地命中目标。我们选择了两个具有代表性的临床任务无袖带连续血压估计和房颤自动检测。前者关注连续值的预测精度后者关注二分类的识别能力。针对每个任务我们选取了当前领域内公认的大规模公开数据集——VitalDB用于血压估计和DeepBeat用于房颤检测。数据处理上我们特别注重消除数据泄露的风险。例如对于DeepBeat数据集我们发现原始的数据划分存在受试者重叠和类别不平衡问题这会导致性能被高估。因此我们重新划分了数据集确保训练集、验证集和测试集之间的受试者完全独立并且正负样本比例均衡从而得到一个更可靠、更严格的评估基准。在模型层面我们构建了三个平行的赛道原始时间序列赛道直接输入PPG的采样点序列。我们涵盖了从经典的LeNet、AlexNet到现代的InceptionTime、XResNet、TimesNet乃至Transformer架构iTransformer和轻量级的MiniRocket等共计11种模型。这条赛道考验的是模型从原始信号中自动学习特征的能力。特征工程赛道输入的是从PPG信号中手工提取的、具有临床或生理学意义的特征。这主要包括两类一是用于血压估计的脉搏波形态特征如波峰高度、上升时间、面积等二是用于房颤检测的心律不规律性特征如RR间期的变异性、复杂性度量。这些特征随后送入多层感知机MLP或高斯过程回归GPR等相对简单的预测器。此外我们还测试了将小波变换Wavelet作为自动化特征提取器再连接MLP的流水线。这条赛道强调模型的可解释性和对先验知识的利用。图像表示赛道将一维PPG信号转换为二维图像再利用成熟的图像识别网络如ResNet进行处理。我们主要测试了两种最常用的时频变换方法连续小波变换CWT生成的尺度图以及短时傅里叶变换STFT生成的频谱图。这条赛道试图结合信号处理的知识时频分析和深度学习在图像领域的强大表征能力。2.2 评估体系与统计严谨性为了全面、公正地评估模型我们采用了多维度的评价指标。对于血压估计核心指标是平均绝对误差MAE它直观反映了预测值与真实值之间的平均偏差。同时我们引入了平均绝对缩放误差MASE这是一个相对指标将模型的MAE与一个简单基线模型预测训练集中位数的MAE进行比较。MASE小于1表示模型优于基线且在不同数据集间更具可比性。我们还进行了Bland-Altman分析计算偏差Bias和一致性界限LoA以评估预测值是否存在系统性高估或低估以及个体预测误差的离散程度。最后我们参照IEEE 1708a-2019标准对预测误差进行分级A-D级这为临床可接受性提供了直观参考。对于房颤检测我们使用ROC曲线下面积AUC、F1分数、马修斯相关系数MCC以及在不同操作点下的灵敏度和特异度来综合衡量分类性能。特别地我们设定了两个实用场景的阈值一是固定灵敏度0.8看此时的特异度如何二是固定特异度0.8看此时的灵敏度如何。这模拟了在实际应用中是更倾向于“宁可错杀不可放过”高灵敏度还是更看重“准确无误”高特异度。最关键的是统计显著性检验。我们采用自助法Bootstrapping进行1000次重采样计算每个模型与当前任务中最佳模型SBP/DBP的MAE最低或AF的AUC最高性能差异的95%置信区间。如果这个区间不包含0则认为该模型在统计意义上显著差于最佳模型。这避免了仅凭数值微小差异就做出优劣判断使得结论更加可靠。注意模型对比的“公平性”陷阱。在对比不同结构的模型时超参数调优的深度必须一致。在我们的实验中为了控制变量和计算可行性我们仅系统性地优化了学习率这一最关键的超参数而并未对每个模型进行穷尽的网格搜索。这可能导致某些模型的潜力未被完全发掘。因此我们的结论应理解为“在相近的调优投入下”各类模型的相对表现。在实际项目中如果对某一类模型如Transformer有特别偏好仍需投入更多资源进行精细调参。3. 核心模型与输入表示深度解析3.1 原始时间序列模型让数据自己说话直接将原始的、未经处理的PPG采样点序列输入深度学习模型是当前研究的热点。这种端到端的方式最大程度地减少了人为干预寄希望于模型能从海量数据中自行挖掘出与目标变量相关的深层、复杂模式。卷积神经网络CNN及其变体是处理此类一维序列的利器。例如XResNet1d是经典ResNet架构的一维改编版通过残差连接解决了深层网络训练中的梯度消失问题能够构建非常深的网络来提取多层次的特征。我们的实验表明XResNet1d50和101层版本在多数任务中都名列前茅尤其是在有校准信息的VitalDB Calib数据集上其性能显著优于基线。一个有趣的发现是XResNet1d50配合高斯负对数似然损失GNLL在Calib数据集上取得了最佳成绩。GNLL损失不仅让模型预测一个值还预测该值的不确定性方差。在存在个体差异的生理数据中这种对不确定性的建模可能帮助模型更好地学习尤其是在有部分校准数据可以参考时。Inception1d模型采用了多尺度卷积核并行工作的结构可以同时捕捉信号中不同时间尺度的特征如快速的脉搏波上升沿和缓慢的下降沿这对于解析PPG的复杂形态很有帮助。TimesNet则将时间序列在时域和频域之间进行转换通过多周期建模来捕捉重复模式理论上非常适合PPG这类准周期信号。轻量级模型如LeNet1d和MiniRocket也参与了对比。MiniRocket尤其值得一提它使用一组固定的、经过精心设计的膨胀卷积核来快速提取特征然后仅用一个线性分类器。它的速度极快且性能在不少任务中与复杂模型相差不大为资源受限的嵌入式或可穿戴设备部署提供了极具吸引力的选项。时序卷积网络TCN和PPNet这类模型则更显式地强调了时序建模。TCN使用因果膨胀卷积能够捕获很长的历史依赖适合分析心率变异性等长程模式。PPNet则结合了CNN和LSTM试图同时利用CNN的空间特征提取能力和LSTM的时序记忆能力。Transformer架构如iTransformer在自然语言处理领域大放异彩后也被引入时间序列分析。它通过自注意力机制来建模序列中任意两点之间的全局依赖关系。然而在我们的实验中iTransformer和TimesNet的表现并未显著优于最好的CNN模型有时甚至更差。这可能是因为PPG信号的局部形态特征非常关键而CNN在捕捉这种局部相关性方面具有先天优势且对数据量的要求可能低于Transformer。3.2 特征工程方法融合领域知识的“白盒”特征工程方法的核心在于利用我们对PPG生理意义的先验知识将原始信号浓缩为一组具有明确解释性的指标再交给相对简单的机器学习模型如MLP、GPR进行学习。对于血压估计我们提取的特征主要围绕脉搏波形态时域特征包括脉搏波振幅、收缩期峰值、舒张期峰值、上升时间、下降时间、脉搏波持续时间以及波形下的面积等。这些特征与血管的弹性、外周阻力、心脏每搏输出量等生理参数密切相关。微分特征计算PPG信号的一阶、二阶导数提取其极值点和斜率。例如一阶导数的最大值点对应着脉搏波的最大上升斜率这与血管的硬化程度有一定关联。对于房颤检测核心特征在于心跳节律的不规律性RR间期变异性计算连续心跳间隔PP间期的标准差、均方根差等。不规则性度量使用如样本熵、排列熵等非线性动力学指标来量化RR间期序列的复杂度和随机性。房颤发作时心电活动混乱导致RR间期序列的随机性显著增加。频域特征对RR间期序列进行频谱分析观察其在极低频、低频、高频等频段的功率分布变化。小波变换MLP这条流水线处于特征工程和自动特征学习的中间地带。离散小波变换DWT可以将信号分解到不同尺度的子带上这些子带系数包含了信号在不同频率成分上的时域信息。我们将这些系数作为特征输入MLP。小波变换的优势在于它能很好地处理非平稳信号如PPG并提供多分辨率分析。实操心得特征工程的“双刃剑”。特征工程的最大优势是可解释性。当模型做出一个预测时我们可以回溯是哪个特征如“上升时间变短”主导了决策这在医疗应用中对于建立医生信任至关重要。然而它的劣势也很明显第一信息损失。手工设计的特征可能无法完全捕捉信号中与目标相关的全部微妙信息。第二泛化性风险。这些特征通常基于特定生理假设设计当信号质量不佳如运动伪影或人群特性差异大时特征提取可能失效或引入噪声。我们的实验结果也显示在跨受试者泛化CalibFree任务中特征工程方法的性能通常不如端到端模型稳定。3.3 图像表示方法时频域的特征视觉化将一维信号转换为二维图像本质上是将问题从时序分析领域迁移到计算机视觉领域。我们希望能借助图像识别领域强大的预训练模型和架构来挖掘PPG信号在时频联合域中的模式。连续小波变换CWT尺度图是这类方法中最具代表性的。与STFT固定的时频分辨率不同CWT使用可伸缩的小波基在高频部分时间分辨率高、频率分辨率低在低频部分则相反。这非常适合于分析像PPG这样瞬时频率会变化的信号。生成的尺度图是一张热图颜色深浅代表在特定时刻、特定尺度对应频率上的信号能量强度。正常窦性心律和房颤的PPG其尺度图模式会有肉眼可辨的差异。短时傅里叶变换STFT频谱图是更经典的时频表示方法。它通过一个滑动的时间窗对信号进行分段傅里叶变换。其优点是计算高效概念直观。我们采用了Spectrogram-ResNet架构即先由STFT生成频谱图再送入ResNet-18或ResNet-50网络使用ImageNet预训练权重初始化进行分类或回归。图像化方法的优势在于它既引入了一定的信号处理先验时频分析又保留了让深度学习模型自动学习视觉特征的空间。然而其挑战在于转换过程可能引入信息扭曲或冗余且计算量通常大于直接处理一维信号。在我们的对比中基于CWT和STFT的图像模型表现稳健通常能取得接近甚至部分超越原始时间序列中等复杂度模型的性能但很少能击败最顶尖的端到端模型如XResNet1d50GNLL。4. 实验结果分析与实战洞见4.1 血压估计任务校准是关键分水岭血压估计的结果鲜明地揭示了校准信息的极端重要性。我们分别在VitalDB的“Calib”训练与测试集有受试者重叠可视为包含隐式校准和“CalibFree”训练与测试集受试者完全独立无校准两个子集上进行了测试。在“Calib”场景下由于模型在训练阶段可能“见过”测试受试者的部分数据模式因此整体性能大幅提升。最佳模型XResNet1d50GNLL将收缩压SBP和舒张压DBP的MAE分别降低至7.99 mmHg和5.09 mmHg相比仅预测个体中位数的基线模型MASE达到了0.74和0.87误差降低了约26%和13%。更重要的是根据IEEE标准其SBP和DBP预测达到A级误差≤5 mmHg的例分别高达48%和64%。这表明在有校准可能的场景下例如用户首次使用设备时用袖带血压计测量几次为模型提供个性化适配基于原始时间序列的深度模型可以实现相当不错的无袖带连续血压监测性能。然而在更具挑战性的“CalibFree”场景下所有模型的性能都出现了显著下降。最佳模型的MAE在12-13 mmHgSBP和7-8 mmHgDBP区间MASE约为0.82-0.84。这意味着相比一个简单的全局中位数预测基线模型的改进幅度仅在15%-20%左右。达到A级预测的比例也骤降至26%SBP和39%DBP左右。这个结果给热衷于“完全无校准”血压监测的产品设想泼了一盆冷水在完全未见过的个体上现有模型的绝对精度距离临床可接受标准通常要求MAE 5 mmHg仍有很大差距。模型类型对比在“Calib”场景下原始时间序列模型T整体显著优于特征工程模型F。例如XResNet1d50GNLL的MASE远低于任何特征工程模型。图像模型I表现居中与部分时间序列模型相当。这表明当数据允许模型学习个体特异性模式时深度模型的表征能力得到充分发挥。而在“CalibFree”场景下不同模型家族之间的性能差距缩小最佳模型仍出自时间序列阵营但特征工程和图像模型与部分时间序列模型的结果已无统计显著性差异。这提示在跨个体泛化时所有模型都面临巨大挑战模型的架构优势被数据分布差异所削弱。4.2 房颤检测任务数据质量与均衡性至关重要在房颤检测任务上我们使用重构后的DeepBeat数据集得到了更可靠的结论。各类模型都表现出了较高的AUC值普遍在0.95以上这表明基于PPG进行房颤筛查在技术上是完全可行的且不同输入表示方法都能达到不错的性能。一个关键发现是原始时间序列模型和图像表示模型在灵敏度和特异度的平衡上表现更优。例如在设定高灵敏度0.8的操作点时一些复杂的CNN模型如Inception1d, XResNet仍能保持较高的特异度约0.85-0.90。而特征工程方法基于心律不齐性特征虽然也能达到高AUC但在追求高灵敏度的同时特异度下降相对更明显。这背后的原因可能是房颤不仅表现为RR间期的绝对不规则其PPG波的形态如脉搏波振幅变异也可能发生特征性改变。端到端模型和图像模型能够从原始信号或时频图中综合捕捉这些形态和节律的混合异常而手工特征若只侧重于RR间期变异性则可能丢失部分形态学信息。避坑指南警惕数据集划分陷阱。我们最初使用DeepBeat原始划分时得到了AUC接近0.99的“惊人”结果。但经过检查发现其数据划分存在严重的受试者重叠和类别不平衡导致了数据泄露和乐观偏差。重新进行严格的、受试者独立的、类别均衡的划分后所有模型的AUC都下降了约0.03-0.05但这才是模型真实泛化能力的反映。这个教训非常深刻在PPG这类个体差异性大的生理信号分析中必须确保训练集、验证集和测试集之间的受试者完全独立否则评估结果将严重失真不具备任何指导实际应用的价值。4.3 计算效率与部署考量除了精度在实际应用中模型的复杂度和计算成本是必须权衡的因素。我们粗略统计了模型的参数量作为复杂度的代理指标。不出所料大型的残差网络XResNet1d101参数量最大而LeNet1d、MiniRocket等模型则非常轻量。一个有趣的观察是模型性能与参数量并非严格正相关。例如参数量较大的iTransformer和TimesNet在多项任务中并未表现出优势而结构相对紧凑的XResNet1d50和PPNet却 consistently表现强劲。MiniRocket作为参数量极少的模型其性能在很多任务中与大型模型差距并不大尤其在房颤检测上表现接近。这对于可穿戴设备上的部署具有重要启示如果追求极致的边缘计算效率MiniRocket这类特征转换线性模型的组合是一个非常有力的候选它在精度损失很小的情况下带来了巨大的速度和功耗优势。如果设备算力允许XResNet1d50或Inception1d这类中等复杂度的CNN是精度和效率之间较好的平衡点。而特征工程方法MLP/GPR虽然模型本身计算快但前置的特征提取流程如精确的波峰检测、特征计算可能需要复杂的信号处理算法整体流水线的复杂度并不低且对噪声更敏感。5. 总结与选型建议经过这次大规模的、控制变量的对比实验我们可以得出一些对实践有直接指导意义的结论1. 关于任务特性血压估计当前仍是一个极具挑战性的回归问题尤其是在跨个体无校准的场景下所有模型的绝对误差都未能达到严格的临床标准如AAMI的MAE5 mmHg。如果应用场景允许个性化校准即使是单次或偶尔的校准那么基于原始时间序列的深度模型如XResNet1d是首选它能有效利用校准信息学习个体模式。房颤检测作为一个分类问题技术相对更成熟。在数据划分严谨的前提下多种方法都能达到很高的AUC0.95。原始时间序列模型如Inception1d, XResNet和图像模型CWTResNet在灵敏度和特异度的综合平衡上略有优势。2. 关于输入表示选择追求最高精度尤其在有校准或数据充足时优先考虑原始时间序列深度CNN模型如XResNet1d, Inception1d。它们端到端的学习能力最强。需要模型可解释性或计算资源极度受限可以考虑特征工程方法。但必须接受其精度可能略低且需要精心设计并验证特征提取流程的鲁棒性。对于房颤检测心律不规律性特征是不错的选择。折中方案或信号具有明显时频特征图像表示方法CWT尺度图是一个稳健的选择。它性能不错且时频图本身能为分析人员提供直观的视觉线索。嵌入式/可穿戴设备实时部署强烈建议评估MiniRocket。它在精度损失很小的情况下提供了无与伦比的推理速度。轻量级CNN如LeNet1d也是备选。3. 关于数据与评估的黄金法则严格的数据划分必须确保训练、验证、测试集受试者完全独立。这是评估模型泛化能力的生命线。警惕过拟合PPG信号个体差异大模型很容易过拟合到训练集受试者的特定噪声或模式上。除了独立测试集使用自助法Bootstrapping进行统计显著性检验至关重要它能帮你判断性能提升是否真实、稳健。多维度评估不要只看一个指标如AUC或MAE。对于分类要分析ROC曲线、不同操作点下的灵敏度/特异度对于回归要结合MAE、Bland-Altman图看偏差和一致性界限和临床标准分级来综合判断。最后我想分享一点个人在反复实验中的体会在医疗AI领域尤其是生理信号处理没有“银弹”模型。最好的选择高度依赖于你的具体应用场景、数据条件、精度要求、延迟约束和可解释性需求。本次研究提供的是一张详细的“地图”和“坐标”展示了不同技术路线在当前能达到的性能边界和各自的优缺点。希望这份详实的对比分析能帮助你在纷繁的算法选项中更快地找到那条最适合自己项目的路径。在实际动手前不妨先用你的数据快速跑一下MiniRocket、一个中等深度的CNN如XResNet1d50和一个特征工程基线看看它们在你的任务上的初步表现这往往能给你最有价值的初始方向。