源自风暴统计网一键统计分析与绘图的网站上一篇我们学习了机器学习与因果推断的基本结合思路明白了机器学习主要用于估计倾向性评分和结果模型这两个“中间量”。但机器学习本身是一个庞大的方法家族不同算法有不同的适用场景。今天我们就来系统梳理机器学习的分类、常用模型以及一个强大的集成学习框架——Super Learner。机器学习的基本类别机器学习并不是单一方法而是一个庞大的方法家族。不同算法解决的问题类型不同不同任务对应不同的目标函数。在因果推断中算法选择会直接影响估计的偏差与稳定性。因此理解机器学习的分类是正确应用这些方法的前提。机器学习可以从多个角度进行分类而最常用的分类方式有以下三种。√第一种分类按照是否有标签分为监督学习和无监督学习。监督学习的训练数据同时包含输入X和输出Y学习目标是建立从X到Y的映射关系核心是最小化预测误差。这是因果推断中最常用的机器学习范式。我们之前讲到的倾向性评分和结果模型本质上都是有监督学习问题。无监督学习的训练数据只有输入X没有输出标签学习目标是发现数据中的结构或模式。常见任务包括聚类、降维、表示学习。无监督学习不直接用于因果效应估计但有时可用于探索异质性或辅助特征构建。√第二种分类按照学习目标分为回归和分类。回归任务的输出变量为连续型例如结果模型E(Y|A,X)通常是一个回归问题。分类任务的输出变量为离散或二分类例如倾向性评分P(A1|X)就是一个典型的分类问题。√第三种分类按照方法结构分为线性模型、树模型和集成方法。接下来的内容将围绕这一分类展开。机器学习在因果推断中的核心用途在因果推断中机器学习主要承担两个任务。第一个是估计倾向性评分P(A1|X)即个体在给定协变量条件下接受处理的可能性。第二个是估计结果回归E(Y|A,X)即结局如何由处理变量和协变量决定。这两个任务本质上都是建模问题而非因果问题。机器学习在其中扮演的角色是尽可能准确地拟合这些函数关系从而减少模型错设带来的偏差。常用机器学习模型介绍下面我们逐一介绍因果推断中常用的机器学习算法。√线性模型线性模型是最基础的一类方法包括线性回归、逻辑回归、岭回归、LASSO和弹性网络。该模型结构简单、计算稳定在低维或近线性关系下表现良好。且正则化方法如LASSO可以缓解高维过拟合问题参数也具有一定的可解释性。因此在因果分析中线性模型常作为基线模型使用。√决策树决策树是树模型的基础它的基本思想是通过递归划分协变量空间在不同区域内拟合简单模型。决策树可以自然处理非线性关系与交互作用对变量尺度和分布要求较低是因果推断中常用的灵活建模工具。√集成学习集成学习的核心思想是单一模型往往存在偏差或不稳定性通过组合多个模型可以提高整体性能。因此该方法的关键在于利用模型之间的差异性。常见形式包括Bagging和Boosting。Bagging如随机森林通过自助采样并行生成多个模型然后平均Boosting如XGBoost、LightGBM则通过顺序生成模型每个新模型关注前一个模型的错误。而Super Learner 属于系统化的集成学习框架。√随机森林随机森林是基于Bagging思想的树模型集成。它通过自助采样和随机特征选择来降低模型之间的相关性预测性能稳定调参相对简单。在高维和非线性场景中表现良好常用于估计倾向性评分和结果模型。√XGBoost极限梯度提升XGBoost极限梯度提升是基于梯度提升决策树的集成学习算法。它引入正则化项和二阶导数信息提高了模型性能和泛化能力。XGBoost将多个弱分类器决策树组合成一个强分类器每个决策树都在前一棵树的残差基础上进行训练通过不断迭代优化损失函数来逐步减小残差。同时它通过控制树的复杂度和正则化项来减少过拟合风险。√LightGBM光梯度提升机LightGBM光梯度提升机同样基于决策树算法通过逐步构建加法模型来优化目标函数特别适用于处理大规模数据集和高维特征任务。LightGBM的核心创新包括四个基于梯度的单边采样算法GOSS互斥特征捆绑算法EFB基于最大深度的Leaf-wise垂直生长算法以及直方图算法。可以理解为LightGBM XGBoost GOSS EFB Histogram。√支持向量机SVM支持向量机SVM旨在从训练样本中找到一个最优超平面最大化分类边界之间的间隔。它的特点包括通过边界最大化来提升模型泛化能力、防止过拟合使用核函数如RBF、多项式扩展到非线性问题在小样本数据集上表现良好、鲁棒性强但对大数据集训练时间较长需要调参。√神经网络NN神经网络NN由大量的简单处理单元神经元按照某种方式连接在一起构成。单元分为输入层、隐藏层和输出层。通过调整各层之间的连接权重神经网络可以学习复杂的函数映射从输入数据中提取特征并做出预测。√K近邻法KNNK近邻法KNN是一种非参数方法它计算样本与训练数据集中所有样本的距离选取距离最近的K个邻居根据邻居的标签来进行预测。距离度量对模型性能有较大影响不同任务中需要选择不同的度量方法欧氏距离适合连续数值特征曼哈顿距离适合高维稀疏特征闵可夫斯基距离适合文本或向量表示。我们将上述模型进行总结如图所示在实际应用中有几个原则需要牢记。高预测精度并不等于低因果偏差过拟合可能导致极端倾向性评分反而加剧偏倚。因此稳定性往往比极限预测更重要简单模型有时更利于因果估计实际分析中通常需要结合多种模型进行比较和验证。模型集成于Super-learner√为什么需要模型集成不同模型对数据结构的假设不同单一模型容易因错设而产生偏差而且我们难以事先判断哪种模型最优。模型集成正是为了解决这一问题。Super Learner作为一种加权集成学习方法它不预设“最优模型”而是从一组候选模型中通过数据学习最佳组合。具体做法是通过交叉验证评估各模型的预测性能然后根据性能为不同模型分配权重最终目标是理论上接近最优预测器。Super Learner工作流程可以细分为以下四步第一步指定一组候选学习器第二步使用交叉验证评估每个学习器的预测性能第三步基于验证误差估计最优加权组合第四步构建加权后的最终预测模型。最终输出的是组合模型而非单一算法。√Super Learner的理论优势在样本量足够大时Super Learner的性能不劣于候选模型中最优者。它避免了人为选择模型带来的风险对模型错设具有更强的鲁棒性非常适合高维、复杂数据环境。√Super Learner在因果推断中的作用Super Learner可用于估计倾向性评分也可用于估计结果回归。它能够同时结合多类机器学习算法有助于减少单一模型错设带来的偏差是双重稳健估计如AIPW、TMLE的重要组成部分。本章总结今天我们系统梳理了机器学习的分类、常用模型以及Super Learner集成学习方法。机器学习方法种类多样、功能各异因果推断中主要使用有监督学习。在因果推断中机器学习的核心作用是建模包括估计倾向性评分和结果回归。模型集成有助于降低单一模型错设的风险而Super Learner作为一种系统化的集成学习框架正在成为因果推断分析中的重要工具。下一篇我们将进入G计算与倾向性评分的机器学习方法与应用敬请期待关于郑老师团队及公众号郑老师团队统计服务为医学生、医护工作者学术研究提供统计支持1.医院数据真实世界研究影响因素分析与焦点因素分析策略倾向性评分方法匹配、逆概率加权IPTW、重叠加权及后续效应值估计亚组分析交互作用P值及森林图中介交互分析、因果中介分析限制性立方样条、阈值效应分析、区段回归分析2.临床预测模型二分类及生存基于回归方法的预测模型构建与验证绘制列线图机器学习预测模型构建与验证可解释性SHAP绘图缺失数据下的预测模型预测模型在线网站建设动态预测模型影像组学预测模型3.纵向数据分析重复测量ANOVA、混合线性模型LMM、广义估计方程GEE、广义线性混合效应模型GLMM、潜增长曲线模型LGCM群组轨迹模型(GBTM)/潜类别增长模型(LCGA)、潜类别混合增长模型(GMM/LGMM)、多轨迹模型GBMTM聚类分析时依协变量模型多状态模型4.高级因果推断方法实践参数G方法、双重稳健估计进行因果推断目标最大似然估计TMLE机器学习、超级机器学习进行因果推断治疗效果异质性分析HTE与因果森林5.公共数据库数据挖掘NHANES数据挖掘、CHARLS等老年库数据挖掘、MIMIC数据挖掘多变量孟德尔随机化MR、中介MR、肠道菌群MR、药靶MR、网络药理学结合MR、单细胞RNA测序分析结合MR需以上统计服务请联系郑老师团队微信sas555777