统一因果推断框架:用Bregman散度与Riesz回归实现协变量平衡
1. 项目概述一个统一因果推断与协变量平衡的框架在观察性研究、政策评估或者医疗效果分析中我们常常面临一个核心挑战如何从非随机化的数据中可靠地估计某个干预比如一项新药、一个政策带来的因果效应这个问题之所以棘手是因为存在混杂变量——那些同时影响个体是否接受干预和最终结果的变量。如果忽略它们我们得到的就只是相关性而非因果性。传统的解决方案比如基于倾向得分的加权或匹配虽然经典但在面对高维协变量或复杂的非线性关系时往往显得力不从心模型设定错误一点估计结果就可能偏到天边去。过去几年机器学习为预测建模带来了革命但直接把黑箱模型扔进因果推断框架往往会因为正则化偏差等问题导致估计量不再具有“根号n”的收敛速率也就是统计效率大打折扣。于是“去偏机器学习”应运而生它巧妙地将机器学习用于拟合复杂的干扰参数如倾向得分、结果回归函数同时通过一个称为“正交得分”或“影响函数”的校正项来消除第一步估计引入的偏差从而恢复良好的统计性质。我最近在深入研读一系列前沿文献时发现了一个非常优雅的框架它像一条隐藏的丝线将看似不同的方法——Riesz回归、协变量平衡、密度比估计——串联了起来。这个框架的核心思想是将Riesz表示定理中的Riesz代表元Riesz Representer的估计问题统一表述为Bregman散度Bregman Divergence的最小化问题。简单来说Riesz代表元就是那个能让我们构造出正交得分的关键“权重”函数而Bregman散度则是一个大家族包含了我们熟悉的平方损失、KL散度等。通过选择不同的Bregman散度我们可以自然地推导出最小二乘重要性拟合LSIF、熵平衡Entropy Balancing、乃至基于最大似然的密度比估计等方法。这个框架的价值在于它为我们提供了一个系统化的“菜单”。当我们需要估计平均处理效应ATE、平均处理效应在处置组ATT或连续处理下的平均边际效应AME时不必再孤立地记忆各种特设的损失函数和平衡条件。我们只需要明确三个要素1我们关心的目标参数它定义了一个线性泛函2该参数对应的Riesz代表元3我们想用哪种Bregman散度来衡量估计误差。剩下的就是套用框架求解一个凸优化问题。这不仅在理论上非常漂亮统一了众多文献而且在实践上给了我们清晰的指导不同的损失函数对应着不同的稳健性和效率权衡我们可以根据数据特点如有无极端倾向得分进行选择。本文将带你深入这个框架我会用尽可能直观的方式拆解其数学原理并聚焦于最常用的ATE估计场景展示如何从统一的Bregman散度出发一步步推导出最小二乘Riesz回归和最大似然KL散度这两种具体方法并解释它们如何自动实现协变量平衡。无论你是希望理解前沿因果推断理论的研究者还是正在寻找更稳健估计方法的实践者这篇文章都将为你提供一张清晰的路线图。2. 核心原理从正交得分到Bregman散度最小化要理解这个统一框架我们需要先打好几个基础概念。别担心我会尽量避开最晦涩的测度论表述用直觉和例子把它们讲清楚。2.1 目标参数与Riesz代表元因果效应的数学表达假设我们有一个二元处理变量 D1表示接受处理0表示对照一组观测到的协变量 Z以及一个结果变量 Y。我们感兴趣的平均处理效应ATE定义为τ₀ E[Y(1) - Y(0)]其中 Y(1) 和 Y(0) 是潜在结果。根据调整公式在无混淆性假设下ATE可以表示为 τ₀ E[ E[Y | D1, Z] - E[Y | D0, Z] ] E[ γ₀((1, Z)) - γ₀((0, Z)) ]。 这里γ₀((d, z)) E[Y | Dd, Zz] 就是条件期望函数也叫结果回归函数。现在我们定义一个线性泛函 m_ATE(W, γ) γ((1, Z)) - γ((0, Z))其中 W (Y, D, Z)。那么ATE就是这个泛函在真实函数 γ₀ 处的取值τ₀ E[ m_ATE(W, γ₀) ]。Riesz代表元是这个故事里的关键角色。对于线性泛函 m_ATE它的Riesz代表元 α₀^ATE(X) 是一个函数满足对任意足够好的函数 γ都有 E[ m_ATE(W, γ) ] E[ α₀^ATE(X) γ(X) ]。 这里 X (D, Z)。这个等式有点像“交换运算顺序”的许可证。通过积分变换可以证明在ATE的设定下这个代表元就是 α₀^ATE(X) D / π₀(Z) - (1-D) / (1-π₀(Z))。 其中 π₀(Z) Pr(D1 | Z) 就是倾向得分。你会发现这个函数非常眼熟——它就是逆概率加权IPW估计量中使用的权重。2.2 Neyman正交得分消除偏差的“金钥匙”直接用一个估计的 γ_hat 代入 m_ATE 来估计 τ₀即 τ_naive 1/n Σ_i [γ_hat((1, Z_i)) - γ_hat((0, Z_i))]会因为 γ_hat 的估计误差而产生偏差且这个偏差的阶数可能无法被样本量 n 的根号抵消。Neyman正交得分或双稳健得分是解决这个问题的利器。对于ATE它被构造为 ψ_ATE(W; η, τ) h_AIPW(W; η) - τ 其中 η (γ, π) 代表两个干扰参数结果回归和倾向得分而 h_AIPW(W; η) [D/π(Z) - (1-D)/(1-π(Z))] * (Y - γ(X)) [γ((1, Z)) - γ((0, Z))]。 这就是著名的增强逆概率加权AIPW或双稳健DR估计量的核心部分。这个得分的“正交性”体现在即使我们对干扰参数 η 的估计有一定的误差以快于 n^{-1/4} 的速率收敛最终通过求解方程 1/n Σ_i ψ_ATE(W_i; η_hat, τ_hat) 0 得到的 τ_hat其误差仍然可以以根号n的速率收敛到正态分布。也就是说它对干扰参数的估计误差是“鲁棒”的。2.3 连接点用Bregman散度估计Riesz代表元那么如何得到这个得分函数呢关键在于估计Riesz代表元 α₀(X)。传统方法是分别估计倾向得分 π(Z)然后代入公式计算 α。但这里提出的框架更直接将 α₀ 视为一个可以直接通过回归来估计的函数。给定一个严格凸且可微的函数 g(α)我们可以定义关于 α 的Bregman风险Bregman Risk BR_g(α) E[ -g(α(X)) ∂g(α(X)) * α(X) - m( ∂g(α) ) ]。 其中 ∂g 是 g 的导数m(·) 是我们目标参数对应的线性泛函对于ATEm(∂g(α)) E[ ∂g(α((1, Z))) - ∂g(α((0, Z))) ]。一个关键的结论是真实Riesz代表元 α₀ 是这个Bregman风险函数的唯一最小化点。也就是说α₀ argmin_α BR_g(α)。因此我们可以通过最小化相应的经验风险来估计 α₀ α_hat argmin_{α∈A} (1/n) Σ_i [ -g(α(X_i)) ∂g(α(X_i)) * α(X_i) ] - m_n( ∂g(α) ) λJ(α)。 这里 A 是我们选择的函数类如线性模型、神经网络m_n 是泛函 m 的经验版本J(α) 是可选的正则化项。这个框架的强大之处在于g(·) 的选择自由。不同的 g 函数导出了实践中广泛使用的不同方法当 g(α) (α - 1)² 时我们得到最小二乘损失对应着Riesz回归或最小二乘重要性拟合LSIF。当 g(α) |α| log|α| - |α| 时我们得到KL散度类型的损失对应着非标准化KL重要性估计UKL/KLIEP或熵平衡Entropy Balancing风格的方法。接下来我们就深入ATE估计的细节看看这两种选择如何具体展开并自动实现我们梦寐以求的协变量衡。3. ATE估计实战两种核心方法详解让我们把理论落地看看在平均处理效应ATE估计的场景下如何具体应用Bregman散度框架。我们会详细推导两种最主流的方法并解释每一步的意图。3.1 方法一最小二乘与Riesz回归我们选择凸函数 g_LS(α) (α - 1)²。它的导数是 ∂g_LS(α) 2(α - 1)。首先我们将其代入ATE对应的Bregman风险公式。对于ATE线性泛函 m 作用于一个函数 a 是 m(a) E[ a((1, Z)) - a((0, Z)) ]。因此m(∂g_LS(α)) E[ 2(α((1, Z)) - 1) - 2(α((0, Z)) - 1) ] 2E[ α((1, Z)) - α((0, Z)) ]。那么总体Bregman风险为 BR_{g_LS}(α) E[ -(α(X)-1)² 2(α(X)-1)α(X) ] - 2E[ α((1, Z)) - α((0, Z)) ]。 展开第一项的期望E[ -(α(X)-1)² 2(α(X)-1)α(X) ] E[ -α(X)² 2α(X) -1 2α(X)² - 2α(X) ] E[ α(X)² - 1 ]。 因此BR_{g_LS}(α) E[ α(X)² - 1 ] - 2E[ α((1, Z)) - α((0, Z)) ]。去掉与α无关的常数项-1我们最小化的目标函数等价于 E[ α(X)² ] - 2E[ α((1, Z)) - α((0, Z)) ]。现在我们将其转化为经验版本。令数据集为 { (Y_i, D_i, Z_i) } i1,...,n。我们需要用样本均值代替期望。第一项 E[α(X)²] 的经验版本是 (1/n) Σ_i α(D_i, Z_i)²。第二项 -2E[α((1,Z)) - α((0,Z))] 有点技巧。注意 α((1,Z)) 和 α((0,Z)) 是Z的函数但我们在样本中并非每个Z都同时有D1和D0的观测。不过我们可以利用条件期望的迭代定律和样本近似E[α((1,Z))] ≈ (1/n) Σ_i α((1, Z_i))E[α((0,Z))] ≈ (1/n) Σ_i α((0, Z_i))。也就是说我们对所有样本的协变量Z_i分别计算“如果处理”和“如果未处理”时的α值然后平均。因此经验风险最小化问题为 α_hat argmin_{α∈A} (1/n) Σ_i [ α(D_i, Z_i)² - 2α((1, Z_i)) 2α((0, Z_i)) ] λJ(α)。这就是Riesz回归也等价于最小二乘重要性拟合LSIF。Kanamori等人2009提出LSIF用于直接估计密度比而Chernozhukov等人2024则将其表述为Riesz回归用于自动去偏机器学习。这个目标函数的意义很直观它试图找到一个函数α使其在观测数据点上的平方值较小防止过拟合或极端值同时让“处理状态”下的函数值α(1, Z)尽可能小让“对照状态”下的函数值α(0, Z)尽可能大。回想一下真实的α₀(X) D/π₀(Z) - (1-D)/(1-π₀(Z))对于处理组D1α₀是1/π₀(Z) 0对于对照组D0α₀是 -1/(1-π₀(Z)) 0。这个目标函数的设计正是为了逼近这种模式。实操心得模型选择与过拟合在这个框架下函数类 A 的选择非常灵活可以是线性模型、随机森林、神经网络等。使用线性模型时我们会得到一个显式的协变量平衡条件后面会详述。但使用高度复杂的模型如深度神经网络时需要警惕“训练损失黑客”问题——模型可能通过记住数据点来使经验风险降得很低但泛化性能很差。这时正则化项 λJ(α) 和交叉验证至关重要。Rhodes等人2020和Kato Teshima2021专门讨论了在密度比估计中应对过拟合的修正方法。3.2 方法二最大似然与KL散度现在我们选择凸函数 g_KL(α) |α| log|α| - |α|。这个函数在 α0 时就是 α log α - α其导数为 log α。为了处理α可能为负的情况在ATE中对照组的α₀为负我们使用了绝对值符号和符号函数。经过推导具体过程涉及符号函数处理这里略去繁琐细节对于ATE最小化Bregman风险等价于最小化以下经验目标 α_hat argmin_{α∈A} (1/n) Σ_i [ |α(X_i)| - log|α((1, Z_i))| - log|α((0, Z_i))| ] λJ(α)。这对应于密度比估计中的非标准化KLUKL散度最小化是KLIEPSugiyama et al., 2008方法的一种推广。它的直观含义是最大化似然函数的一种形式。3.2.1 逆倾向得分建模视角一个更常见的视角是直接对逆倾向得分进行建模。令 r((1, Z)) 1/π(Z) r((0, Z)) 1/(1-π(Z))。那么α(X) 1[D1]r((1, Z)) - 1[D0]r((0, Z))。由于倾向得分在(0,1)所以 r((1,Z)) 1 r((0,Z)) 1且 α((1,Z)) r((1,Z)) 1 α((0,Z)) -r((0,Z)) -1。将 α_r 代入 g_KL 的Bregman风险公式并进行一系列代数运算我们可以得到简化后的目标函数忽略常数项 BR_{g_KL}(α_r) E[ -log(r((1, Z))) - log(r((0, Z))) 1[D1]r((1, Z)) 1[D0]r((0, Z)) ]。其对应的经验风险最小化为 r_hat argmin_{r∈R} (1/n) Σ_i [ -log(r((1, Z_i))) - log(r((0, Z_i))) 1[D_i1]r((1, Z_i)) 1[D_i0]r((0, Z_i)) ]。这等价于求解一个带约束的最大化问题通过拉格朗日乘子法 max_{r∈R} (1/n) Σ_i [ log(r((1, Z_i))) log(r((0, Z_i))) ] s.t. (1/n) Σ_i 1[D_i1] r((1, Z_i)) 1 且 (1/n) Σ_i 1[D_i0] r((0, Z_i)) 1。这就是著名的Silverman技巧Silverman, 1982在密度估计中的应用在这里用于估计逆倾向得分。约束条件强制要求加权的处理组和对照组样本大小分别与原始样本一致权重归一化而目标函数则最大化似然。Kato等人2023的定理3.3对此有详细阐述。注意事项数值计算与约束处理在实际优化这个带约束的问题时通常采用拉格朗日对偶法将其转化为无约束优化或者使用投影梯度下降等算法。对于逻辑回归等参数化模型约束条件可能会自然地近似满足。使用非参数模型时需要确保优化算法能稳定地处理这两个等式约束。一个常见的技巧是使用指数参数化 r((d,z)) exp( f_d(z) )然后约束条件转化为对 f_d(z) 的线性约束这更容易处理。3.3 方法三经验平衡与定制损失函数从KL散度出发我们还可以推导出另一类重要的方法——经验平衡Empirical Balancing。考虑凸函数 g_E(α) (|α|-1) log(|α|-1) - |α|。这个函数也是KL散度家族的一员。同样通过对逆倾向得分 r 建模并代入Bregman风险公式我们可以得到另一个经验目标函数。经过变换这个目标函数与Zhao2019提出的定制损失函数Tailored Loss Function完全等价。最小化这个损失函数可以直接导出Chan等人2015提出的经验平衡校准加权Empirical Balancing Calibration Weighting方法。具体来说最终的目标函数形式为 min_{r} (1/n) Σ_i { 1[D_i1] [ -log(1/(r((1,Z_i))-1)) r((1,Z_i)) ] 1[D_i0] [ -log(1/(r((0,Z_i))-1)) r((0,Z_i)) ] }。 这个形式揭示了其本质它同时考虑了拟合似然-log项和控制权重幅度r项从而在平衡协变量和防止权重极端化之间取得权衡。4. 自动协变量平衡对偶性的魔力上述各种方法看似在优化不同的目标但它们都有一个共同的神奇副产品自动实现协变量平衡。这是通过Bregman散度最小化问题的对偶性来实现的。理解这一点能让我们看清这些方法的本质。4.1 线性模型下的平衡假设我们采用线性模型来参数化Riesz代表元α_β(X) Φ(X)^T β其中 Φ(X) 是将特征映射到p维向量的基函数。如果我们使用平方损失g_LS即Riesz回归那么求解 min_β BR_g_LS(α_β) 的对偶问题恰好等价于求解如下优化问题 min_{∈R^n} ||α||² s.t. Σ_i α_i Φ((D_i, Z_i)) - Σ_i [ Φ((1, Z_i)) - Φ((0, Z_i)) ] 0_p。 这里 α_i 可以理解为施加在每个样本 i 上的权重。这个约束条件正是协变量平衡条件它要求加权后的处理组和对照组协变量均值之差等于全样本中“潜处理”和“潜在对照”的协变量期望之差用样本均值近似。而目标函数 min ||α||² 是为了寻找一组最稳定的权重即方差最小的权重这有助于提高估计的精度。这正是Zubizarreta2015提出的“稳定权重”方法。因此使用线性模型的Riesz回归其解自动满足样本层面的协变量平衡。Bruns-Smith等人2025的工作清晰地展示了这一点并指出这允许我们将整个ATE估计过程写成一个单一的线性模型求解问题非常简洁。4.2 逻辑模型下的熵平衡现在假设我们通过逻辑模型来参数化倾向得分进而得到逆倾向得分 r_β。具体地令 π_β(Z) 1 / (1 exp(-β^T Φ(Z)))则 r_β((1,Z)) 1/π_β(Z) r_β((0,Z)) 1/(1-π_β(Z))。这里基函数 Φ(Z) 仅依赖于 Z而不依赖于 D。如果我们采用前面第3.3节中由 g_E 推导出的KL散度类型损失即定制损失那么最小化该损失的对偶问题等价于求解 min_{w∈(1,∞)^n} Σ_i (w_i - 1) log(w_i - 1) s.t. Σ_i [ 1[D_i1] w_i Φ(Z_i) - 1[D_i0] w_i Φ(Z_i) ] 0_p。 其中 w_i r_β((D_i, Z_i)) 是样本 i 的权重。这个优化问题正是熵平衡Entropy Balancing, Hainmueller, 2012的核心。目标函数是熵函数旨在让权重尽可能接近1即不加权同时约束条件强制要求加权后的处理组和对照组在基函数 Φ(Z) 上的矩完全相等一阶矩平衡。实操心得基函数的选择与过度平衡无论是线性模型还是逻辑模型下的平衡基函数 Φ(·) 的选择都至关重要。如果只包含协变量 Z 本身那么只能平衡一阶矩均值。为了平衡高阶矩或交互项需要将相应的多项式项或变换纳入 Φ(·)。然而过度追求平衡例如加入非常高阶的项可能导致权重极端化或过拟合反而降低估计量的效率。实践中通常从一阶项开始逐步加入重要的二阶项或已知的交互项并通过交叉验证或基于正则化的方法如LASSO来选择基函数在平衡程度和权重稳定性之间取得折衷。4.3 平衡与效率的权衡自动协变量平衡带来了一个显著好处即使倾向得分模型设定有误只要用于平衡的基函数 Φ(·) 足够丰富能够捕捉结果回归函数 γ₀(Z) 的主要成分那么ATE估计量仍然是近似无偏的。这提供了双重稳健性之外的另一种稳健性。然而平衡并非没有代价。强制严格的样本矩相等可能会产生极端权重特别是当处理组和对照组的协变量分布重叠很小时。极端权重会放大某些样本的影响增加估计量的方差。因此在实践中我们有时会放松平衡约束允许微小的不平衡以换取更稳定的权重。这可以通过在目标函数中加入权重惩罚项如L2范数或者将对偶问题中的硬约束改为软约束惩罚项来实现。5. 从ATE到更一般的场景ATT、AME与协变量偏移统一的Bregman散度框架不仅适用于ATE还可以无缝扩展到其他因果参数和相似的问题上。理解这些扩展能让你真正掌握这个工具的通用性。5.1 处置组平均处理效应ATTATT定义为 τ₀^ATT E[Y(1) - Y(0) | D1]即仅针对处理组的平均效应。其Riesz代表元为 α₀^ATT(X) D/p - (1-D)/p * [π₀(Z)/(1-π₀(Z))] 其中 p Pr(D1)。相应的Neyman正交得分函数为 ψ_ATT(W; η, τ) (D/p)[γ((1,Z))-γ((0,Z))] α^ATT(X)[Y - γ(X)] - τ。在这个设定下Bregman散度最小化框架依然适用。选择 g_LS(α) (α-1)²我们得到针对ATT的Riesz回归其解同样与稳定权重相关联。选择 g_KL(α) (|α|-1)log(|α|-1) - |α|则可以得到一种针对ATT的熵平衡方法它强制在处理组和加权的对照组之间实现协变量平衡。5.2 平均边际效应AME与连续处理当处理变量 D 是连续的时候例如药物剂量、教育年限我们常常关心平均边际效应θ₀^AME E[ ∂_d γ₀(D, Z) ]即处理变量每增加一个微小单位结果的平均变化量。这里的线性泛函是 m_AME(W, γ) ∂_d γ(D, Z)。其Riesz代表元与联合密度函数的得分有关α₀^AME(X) -∂_d log f₀(D, Z)。这看起来很难直接估计因为涉及到了密度的导数。然而Bregman散度框架再次提供了直接估计的途径。平方损失g_LS最小化Bregman风险等价于最小化 E[ α(X)² - 2∂_d α(X) ]。这仍然是一个回归问题只不过目标中包含了函数 α 对其第一个参数 D 的偏导数。在实践中如果使用线性模型或神经网络这个导数可以通过自动微分轻松计算。这就是Chernozhukov等人2024提出的用于AME的Riesz回归。KL散度损失g_KL同样可以推导出相应的目标函数它对应于一种基于熵的平衡或密度比估计方法用于直接估计这个特殊的Riesz代表元。这个扩展展示了框架的强大它能够统一地处理离散和连续处理变量而无需为连续情况设计全新的、特设的方法。5.3 协变量偏移适应Covariate Shift Adaptation协变量偏移是机器学习中的一个经典问题训练数据源分布和测试数据目标分布的输入变量 X 分布不同但条件分布 P(Y|X) 相同。我们的目标是在目标分布上评估模型 γ₀(x) E[Y|Xx] 的性能θ₀^CS E[ γ₀(X̃) ]其中 X̃ 服从目标分布 G₀。这个问题可以转化为一个泛函估计问题m_CS(x, γ) γ(x)。其Riesz代表元正是源分布和目标分布之间的密度比α₀^CS(X) r₀(X) g₀(X)/f₀(X)。此时Bregman散度框架退化为经典的密度比估计问题平方损失g_LS目标函数为 (1/|I_T|) Σ_{j∈I_T} α(X̃_j)² - (2/|I_S|) Σ_{i∈I_S} α(X_i)。这正是Kanamori等人2009提出的最小二乘重要性拟合LSIF。KL散度损失g_KL目标函数为 (1/|I_T|) Σ_j [α(X̃_j) log α(X̃_j) - α(X̃_j)] - (1/|I_S|) Σ_i log α(X_i)。这对应于非标准化KLUKL散度最小化是KLIEP风格的方法。因此协变量偏移适应可以被视为本框架的一个特例其中线性泛函就是函数本身在目标分布上的期望。Chernozhukov等人2025和Kato等人2024的工作分别从Riesz回归和双重稳健的角度探讨了这个问题。常见问题如何选择Bregman散度 g面对这么多选择实践中该如何选这里有一些经验法则追求简单与稳定平方损失g_LSRiesz回归通常是最简单、最稳定的选择。它总是凸的优化容易且解通常有较好的性质。当对数据特性了解不多时这是一个安全的起点。处理极端值或稀疏性KL散度家族g_KL, g_E对概率比或权重施加了某种“信息几何”上的约束。当真实的密度比或倾向得分可能非常极端接近0或1或者你希望权重具有某种稀疏性很多权重接近1少数权重很大时KL类型的方法可能更合适。熵平衡g_E尤其擅长产生平滑的权重。需要自动平衡如果你的主要目标是获得良好的协变量平衡并且愿意接受可能更复杂的优化那么选择能导出熵平衡的 g_E 或相应的KL损失是直观的。考虑计算复杂度平方损失通常导致二次规划或最小二乘问题求解速度快。KL类型损失可能导致带指数项或对数的目标函数可能需要迭代算法如牛顿法、坐标下降计算量稍大。进行交叉验证如果条件允许可以尝试几种不同的 g 函数通过交叉验证比较最终目标参数如ATE估计的稳定性例如在多个数据划分下估计值的方差基于模拟数据的偏差-方差表现。6. 实现要点与避坑指南理论很美好但落地到代码和实际数据中总会遇到各种坑。根据我自己的实现经验这里总结几个关键点和常见陷阱。6.1 样本分割与交叉拟合这是去偏机器学习包括本框架的标准操作至关重要。其核心思想是用于估计干扰参数γ, α的数据不能与用于构造最终估计方程的数据是同一批否则会引入过拟合偏差。标准流程K折交叉拟合将数据随机分成K份通常K5或10。对于第k折 a. 使用除第k份外的所有数据训练你的机器学习模型来估计干扰参数得到 γ_hat^{-k} 和 α_hat^{-k}。注意这里估计α_hat^{-k}时使用的是Bregman散度最小化方法。 b. 在第k份数据上使用上一步得到的 γ_hat^{-k} 和 α_hat^{-k}计算Neyman正交得分 ψ(W_i; η_hat^{-k}, τ) 对于每个样本i。将所有K份数据上计算的得分汇集求解方程 (1/n) Σ_{i1}^n ψ(W_i; η_hat^{-k(i)}, τ_hat) 0得到最终的 τ_hat。这里 k(i) 表示样本i所属的折。为什么必须这么做机器学习模型尤其是复杂的非线性模型倾向于拟合数据中的噪声。如果不进行样本分割同一个样本既用于训练α和γ又用于计算得分那么得分函数中由α和γ估计误差引起的项可能不会均值为零导致最终估计量有偏差。交叉拟合有效地切断了这种依赖关系保证了估计量的无偏性和根号n一致性。6.2 正则化与模型选择在最小化经验Bregman风险时我们通常需要加入正则化项 λJ(α) 来控制模型复杂度防止过拟合。对于线性模型J(α) 可以是权重向量的L1LASSO或L2岭回归范数。L1正则化有助于变量选择特别当基函数Φ(X)维度很高时。对于神经网络等非线性模型J(α) 可以是权重衰减L2正则化、dropout等。λ 的选择需要通过交叉验证来确定。一个关键陷阱是“双重正则化”。如果你用带正则化的机器学习算法如LASSO回归去估计倾向得分 π(Z)然后又用这个估计值去构造IPW权重那么正则化引入的偏差会传递到最终的ATE估计中。而本框架中的Riesz回归是直接估计Riesz代表元α它通过一次正则化来同时完成“倾向得分建模”和“平衡权重计算”两个任务理论上更干净。但即便如此正则化参数λ的选择仍需谨慎最好通过针对最终目标参数τ的交叉验证或理论引导的准则来选择。6.3 数值稳定性问题在实现KL散度类型的目标函数时经常会遇到数值计算问题。对数域中的计算目标函数中包含 log(r) 或 log(r-1) 项。必须确保 r 的估计值始终大于0对于log(r)或大于1对于log(r-1)。在参数化时一个稳健的技巧是使用指数参数化令 r((d,z)) exp( f_d(z) )其中 f_d(z) 是任意函数。这样 r 自然大于0。对于需要 r1 的约束可以令 r 1 exp(f_d(z))。权重归一化约束在最大似然/熵平衡的公式中有两个等式约束(1/n) Σ_i 1[D_i1] r((1,Z_i)) 1 和 (1/n) Σ_i 1[D_i0] r((0,Z_i)) 1。在优化中这些约束可能由于数值误差无法精确满足。实践中可以将其作为强惩罚项加入目标函数即转化为软约束或者使用拉格朗日乘子法精确求解对偶问题。极端权重处理即使使用了熵平衡等旨在控制权重大小的方法在协变量重叠非常差的情况下仍可能产生极端大的权重。这会导致估计量方差爆炸。一个补救措施是修剪Trimming设定一个权重上限如99分位数将超过该上限的权重截断为该上限值。但修剪会引入偏差需要谨慎使用并在报告中说明。6.4 基函数设计与平衡诊断当使用线性模型或逻辑模型来实现自动平衡时基函数 Φ(·) 的设计是成败的关键。基础设置至少应包含所有协变量的一阶项即Z本身。扩展根据领域知识加入可能重要的交互项如年龄×教育程度、多项式项如年龄²或分段项。诊断在得到权重后必须进行平衡诊断。计算加权前后处理组和对照组在各个协变量以及重要的变换项上的均值、标准差、甚至高阶矩的差异。标准化均值差Standardized Mean Difference, SMD应尽可能接近0通常认为|SMD|0.1表示平衡良好。如果某些变量平衡不佳考虑将其更高阶的项或交互项加入基函数Φ中重新拟合。一个常见的误解是平衡了所有协变量的一阶矩就足够了。如果结果回归函数 γ₀(Z) 是非线性的那么仅平衡一阶矩可能不足以消除偏差。例如如果Y与Z的关系是二次的那么就需要平衡Z和Z²。因此基函数的设计应尽可能灵活以捕捉潜在的非线性关系。数据驱动的选择方法如通过LASSO从一组候选基函数中筛选也是一个值得考虑的选项。7. 总结与个人体会回顾这个从Bregman散度到Riesz回归的统一框架其核心贡献在于提供了一种模块化、可扩展的思维方式来构建高效的半参数估计量。它将寻找“正确的权重”或“正确的校正项”这个任务统一为在合适的函数类上最小化一个由凸函数g定义的Bregman风险。g的选择决定了方法的性格平方损失追求稳定和效率KL散度追求信息几何意义上的最优和自动平衡。在我自己的研究和使用中有几点深刻的体会第一理解对偶性至关重要。Bregman散度最小化的一阶条件天然地导出了某种矩平衡条件。这意味着一方面我们在做回归/密度比估计另一方面我们也在隐式地平衡协变量。这种对偶视角让我在选择方法时更有目的性如果我特别关心某个协变量的平衡我可以考虑将其对应的基函数显式地纳入模型并选择能产生严格平衡约束的g函数如熵平衡对应的g_E。第二直接估计Riesz代表元比两步法更优雅。传统上我们先估计倾向得分再计算权重。这个过程中倾向得分模型的任何误设都会影响最终结果。而Riesz回归框架直接瞄准最终目标——构造正交得分所需的权重函数α₀。这减少了一个中间建模环节理论上更直接。在实践中特别是使用灵活的非参数模型时直接法有时表现出更好的稳定性。第三没有免费的午餐。虽然框架很统一但具体到g函数、函数类A、正则化方式的选择仍然需要基于数据特征和研究问题来判断。在重叠性好的数据中各种方法差异不大。但在重叠性差、存在极端倾向得分的数据中KL类型的方法通过熵约束通常能产生更平滑、更少极端的权重但可能需要更仔细的调优和数值处理。平方损失方法虽然稳定但可能无法像熵平衡那样实现精确的矩平衡。最后这个框架仍然在快速发展中。如何将其与最前沿的机器学习架构如图神经网络、Transformer结合如何处理存在不可观测混杂的情况虽然这超出了本文范围如何开发更高效、更稳定的优化算法都是值得探索的方向。对于实践者而言掌握这一框架的核心思想就如同拥有了一张强大的“方法选择地图”能够让你在面对复杂的因果推断或协变量偏移问题时更加心中有数游刃有余。