DML交叉验证折数K选择:DML2优于DML1,K=10是高效折中方案
1. DML与交叉验证折数K一个被低估的实践难题在因果推断和现代计量经济学的工具箱里双机器学习Double Machine Learning, DML已经从一个前沿概念变成了处理高维数据、非参数干扰函数时绕不开的“标准操作”。它的核心魅力在于通过巧妙的样本分割和交叉拟合cross-fitting我们能够使用任何黑箱机器学习模型比如随机森林、神经网络去估计复杂的干扰函数nuisance function同时还能保证目标参数比如平均处理效应ATE估计量的无偏性和渐近正态性。这听起来像是个“免费午餐”——既享受了机器学习的灵活性又保有了计量经济学的统计可靠性。然而在实际操作中这个“免费午餐”需要你决定一个看似不起眼、实则影响深远的技术细节交叉验证的折数K。是把数据切成5份10份还是极端一点用留一法Leave-One-Out, LOO即Kn过去许多应用研究和教程对此的推荐往往是经验性的比如“K5或10是个不错的起点”。但当我们真正去复现一些研究或者在自己的数据上尝试时可能会发现不同的K值有时会让估计结果、标准误甚至结论的显著性发生微妙却关键的变化。这背后到底发生了什么本文要探讨的正是这个实践中的“黑箱”。我们将深入DML的两种主流实现——DML1和DML2从渐近理论的第一性原理出发拆解交叉验证折数K如何像一个隐形杠杆分别撬动这两种估计器的偏差Bias和均方误差MSE。你会发现对于DML1盲目增加K可能引入意想不到的一阶渐近偏差而对于DML2K则主要通过高阶项影响估计精度。理论推导将告诉我们在某些情况下那个最极端的Kn留一法可能才是偏差和MSE意义上的“最优解”。当然理论归理论我们更关心实操意义对于一个给定的样本量nK选10和选n在偏差和效率上的损失到底有多大有没有一个“性价比”最高的折中选择接下来的内容我将结合理论公式、几何直观和模拟证据为你彻底厘清K值选择的门道。无论你是正在应用DML的研究者还是对现代因果推断方法感兴趣的数据科学家理解这些细节都将帮助你做出更明智、更稳健的建模决策避免因一个超参数设置不当而让整个精密的估计框架功亏一篑。2. 核心概念回顾DML1、DML2与交叉拟合机制在深入K值的影响之前我们必须确保站在同一理解层面上。DML不是一个单一的算法而是一个框架其核心在于解决“自身观测”own observation偏差问题。当我们用同一份数据既估计干扰函数如倾向得分、条件均值函数又用它来构建目标参数的矩条件时估计误差会相互关联导致最终的参数估计产生偏差。交叉拟合是解决这一问题的关键。2.1 交叉拟合的基本流程假设我们有n个独立同分布的观测样本{W_i}_{i1}^n其中W_i (Y_i, D_i, X_i)分别代表结果变量、处理变量和协变量。我们的目标是估计一个目标参数θ₀它通常通过某个矩条件E[ψ(W, θ₀, η₀)] 0来定义其中η₀是一个可能无限维的干扰函数例如条件期望函数E[Y|X]或倾向得分P(D1|X)。交叉拟合的步骤如下样本分割将全部n个样本随机、均匀地分割成K个互不重叠的折folds记作I_1, I_2, ..., I_K。每个折的大小约为n/K。干扰函数估计对于每一折kk 1, ..., K我们使用除第k折外的所有其他数据即I_{-k}包含大约(K-1)n/K个样本来训练一个机器学习模型得到干扰函数η的一个估计\hat{η}_k。目标参数估计对于每一折k我们使用该折I_k内的样本并代入上一步得到的、未使用该折数据训练的干扰函数估计\hat{η}_k来构建关于θ的估计方程。最后将所有K折的贡献聚合起来得到最终的参数估计。这个过程的核心在于用于评估目标参数矩条件的样本其干扰函数估计值来自于一个完全独立的子样本。这就切断了\hat{η}_i的估计误差与W_i在同一个观测点上的相关性从而消除了“自身观测”偏差的一阶影响。2.2 DML1 与 DML2 的数学定义聚合K折估计的方式有两种这便引出了DML1和DML2的区别。为了清晰我们考虑一个简单的线性矩条件ψ(W, θ, η) m(W, θ, η) - θ * ψ_a(W, η)其中E[ψ_a(W, η₀)] ≠ 0。许多经典参数如ATE都可以写成这种形式。DML1折内估计平均:对每一折k利用该折I_k的数据和对应的干扰函数估计\hat{η}_k求解一个折内参数估计值\tilde{θ}_k\tilde{θ}_k ( \sum_{i \in I_k} m(W_i, \tilde{θ}_k, \hat{η}_k) ) / ( \sum_{i \in I_k} ψ_a(W_i, \hat{η}_k) )这相当于用第k折的数据解一个小的估计方程。将K个折内估计值简单平均\hat{θ}_{n,1} (1/K) \sum_{k1}^{K} \tilde{θ}_kDML2全样本一次求解:首先为每一个样本i分配一个干扰函数估计值\hat{η}_i。如果样本i属于第k折则\hat{η}_i \hat{η}_k即使用未包含i的其余折数据训练的模型来预测i。然后利用全部n个样本和它们对应的\hat{η}_i求解一个全局的估计方程\sum_{i1}^{n} [ m(W_i, \hat{θ}_{n,2}, \hat{η}_i) - \hat{θ}_{n,2} * ψ_a(W_i, \hat{η}_i) ] 0解得\hat{θ}_{n,2} ( \sum_{i1}^{n} m(W_i, \hat{θ}_{n,2}, \hat{η}_i) ) / ( \sum_{i1}^{n} ψ_a(W_i, \hat{η}_i) )直观理解两者的区别 你可以把DML1想象成“委员会决策”。K个折各自独立地给出一个“小报告”\tilde{θ}_k最终结果就是这些报告的平均值。而DML2更像是“集中办公”。所有样本带着各自“外聘专家”\hat{η}_i提供的意见坐在一起共同商议出一个统一的结论\hat{θ}_{n,2}。在经典的、固定K的渐近理论下即样本量n趋于无穷但K保持不变DML1和DML2被证明是“一阶等价”的它们具有相同的渐近分布。这导致了许多实践者认为二者可以互换。然而当我们考虑K也随着n增长这更贴近有限样本下我们想用更多数据训练干扰函数模型的实际情况时它们的表现就开始分道扬镳。注意DML2的公式在形式上与用全部数据一次性估计干扰函数后再估计参数很像但关键在于这里的\hat{η}_i对于每个样本i都是利用其之外的数据训练的严格避免了数据窥探data snooping。这是其无偏性的根本保障。3. 渐近理论新视角当折数K不再固定传统的DML渐近分析假设交叉验证的折数K是一个固定的常数例如5或10然后让样本量n趋于无穷。这个框架在理论上是干净的但它忽略了一个重要的现实场景在有限样本下实践者为了提升干扰函数η的估计精度有强烈的动机去增加K。因为更大的K意味着每一折用于训练干扰函数模型的数据量(K-1)n/K更接近全样本量n。例如K10时训练数据量是0.9nKn留一法时训练数据量是n-1几乎用上了全部信息。因此一个更贴合实际的理论框架是考虑K → ∞且K/n → 0的渐近路径。在这个视角下DML1和DML2的表现差异被清晰地揭示出来。3.1 DML1的一阶渐近偏差问题核心结论可以概括为在K → ∞的渐近框架下DML1估计量\hat{θ}_{n,1}的分布可能不再以真实参数θ₀为中心即存在一阶渐近偏差。而DML2估计量\hat{θ}_{n,2}则始终保持无偏以θ₀为中心。定理3.1DML1的渐近分布在一定的正则条件下若K → ∞且K/√n → cc为一个常数则有√n (\hat{θ}_{n,1} - θ₀) →_d N( c * Λ, σ² )其中σ²是渐近方差而Λ是一个关键的差异度量discrepancy measure。定理3.2DML2的渐近分布在相同条件下对于DML2有√n (\hat{θ}_{n,2} - θ₀) →_d N( 0, σ² )解读与影响偏差的来源对于DML1其渐近分布的中心是c * Λ而非0。这意味着即使在大样本下只要Λ ≠ 0且c 0即K与√n同阶或更大估计量\hat{θ}_{n,1}就是有偏的。偏差的大小与Λ和K/√n成正比。Λ的含义Λ是一个由数据生成过程和估计问题本身决定的量。它衡量了干扰函数估计误差(\hat{η} - η₀)与矩条件函数m(W, θ₀, η)对η的导数∂_η m之间的协方差。在一些经典问题中如平均处理效应ATE和面板数据模型PLMΛ 0因此DML1和DML2在一阶渐近性质上无差异。但在另一些问题中如局部平均处理效应LATE和加权平均处理效应w-ATEΛ通常不为零。K的角色偏差项c * Λ中的c正比于K/√n。这意味着对于DML1在有限样本下增大K可能会放大其渐近偏差。极端情况下如果K增长得比√n还快例如K ∝ n^{0.5ε}DML1的估计甚至可能发散。DML2的稳健性定理3.2表明DML2的渐近分布对K的增长是稳健的。无论K如何增长只要K ≤ n其中心始终是0。这使得DML2在希望使用较大K甚至留一法来提升干扰函数估计精度的场景下具有理论上的安全性。为什么DML1会有偏差而DML2没有一个直观但非严格的解释在于其“Oracle估计量”即假设干扰函数已知时的理想估计量。DML1的Oracle估计量是K个基于子样本的独立估计的平均。每个子样本估计量本身因为样本量更小n/K具有一个高阶偏差项O_p(1/(n/K)) O_p(K/n)。当K与√n同阶时这个高阶偏差K/n的阶数为O(1/√n)从而“升级”成为一阶渐近偏差出现在极限分布中。而DML2的Oracle估计量是基于全样本的一次估计其高阶偏差项为O_p(1/n)衰减更快不会污染一阶渐近分布。3.2 DML2的高阶性质偏差与MSE如何随K变化既然DML2在一阶渐近上是稳健的那么我们是否就可以随意选择K了呢并非如此。K的选择会通过高阶项影响DML2估计量的有限样本性能主要体现在偏差和均方误差上。为了更精细地描述有限样本行为我们需要超越一阶渐近考察估计量的随机展开式中的高阶项。假设干扰函数估计器\hat{η}的收敛速度为n^{-φ}1/4 φ 1/2对于非参数估计这是典型情况。定理3.4DML2的高阶偏差DML2估计量\hat{θ}_{n,2}的高阶偏差主要项为高阶偏差 ≈ (F_δ F_b) * [1 1/(K-1)]^{2φ} * n^{-2φ}其中F_δ和F_b是与干扰函数估计的偏差和方差分量相关的常数。定理3.5与推论3.1DML2的高阶方差与MSEDML2估计量的高阶方差和均方误差MSE的主要项为高阶方差 ≈ σ²/n G_b * [1 1/(K-1)]^{2φ-1/2} * n^{-1/2-2φ}高阶MSE ≈ σ²/n G_b * [1 1/(K-1)]^{2φ-1/2} * n^{-1/2-2φ}其中σ²是一阶渐近方差G_b是另一个与数据分布和模型相关的常数。关键洞察偏差随K减小高阶偏差的主要项[1 1/(K-1)]^{2φ} * n^{-2φ}是K的递减函数。当K n留一法时1/(K-1) ≈ 0此项达到最小。这意味着从减少高阶偏差的角度看K越大越好留一法Kn是最优的。MSE也随K减小当G_b 0时高阶MSE的第二项G_b * [1 1/(K-1)]^{2φ-1/2} * n^{-1/2-2φ}同样是K的递减函数因为2φ-1/2 0。因此如果G_b 0模拟证据通常支持这一点那么增大K同样可以降低高阶MSE留一法在二阶渐近意义下也是MSE最优的。权衡的消失传统机器学习中交叉验证的折数K需要在偏差K小训练集大模型偏差小和方差K大验证集多方差估计准之间权衡。但在DML2的交叉拟合框架下由于干扰函数估计和目标参数估计是解耦的并且我们关注的是目标参数θ的估计质量上述公式表明对于θ的估计增大K直至留一法同时降低了其高阶偏差和高阶MSE不存在传统意义上的权衡。这颠覆了我们在监督学习中对K值的直觉。下表总结了K值对DML1和DML2的影响特性DML1 (折内平均)DML2 (全样本求解)对实践者的启示一阶渐近偏差当Λ ≠ 0且K较大时可能存在 (∝ K/√n)始终为零(对任意K ≤ n)优先选择DML2尤其在小样本或计划使用较大K时。一阶渐近方差σ²(与DML2相同)σ²在一阶意义上两者效率无差异。高阶偏差复杂可能包含与K相关的项随K增大而减小Kn时最小为减少偏差应使用尽可能大的K特别是DML2。高阶MSE复杂当K大时可能恶化当G_b 0时随K增大而减小Kn时可能最优为提升估计精度MSEDML2应使用较大的K。对K的敏感性高。K增大会加剧一阶偏差问题。低。一阶性质稳健高阶性质受益于大K。DML2是更安全、更推荐的选择。实操心得如果你正在使用一个现成的DML软件包如EconML、DoubleML第一步就是确认它默认提供或你选择的是DML1还是DML2。许多包现在已默认采用DML2。如果必须使用DML1例如某些特定估计量只有DML1实现则需要格外警惕K的选择避免使用过大的K值尤其是在样本量不大时。4. 给实践者的具体建议与量化分析理论很美但我们需要更接地气的指导。基于第3章的分析我们可以得出几条清晰且可操作的建议。4.1 核心建议一优先使用DML2结论在任何新的DML应用场景中应优先选择DML2估计器。理由稳健性DML2的渐近正态性中心为0对任意K ≤ n都成立包括留一法。这意味着无论你出于什么原因选择较大的K其统计推断如构建置信区间在理论上都是可靠的。安全性DML1在Λ ≠ 0时存在一阶偏差风险而Λ是否为零通常难以预先判断。选择DML2可以完全规避这一风险。有限样本优势如第3.2节所示DML2的高阶偏差和MSE通常随着K增大而改善这为使用更多折数以提升干扰函数估计精度提供了理论支持。4.2 核心建议二关于折数K的选择既然DML2励使用更大的K那么是不是一律用留一法K n最好呢理论上是的但实际操作中留一法意味着要训练n个不同的干扰函数模型计算成本是O(n)倍对于大数据集或复杂模型如深度学习可能是不可承受的。因此我们需一个权衡计算成本与统计精度的方案。量化分析K10是一个高效的折中方案我们可以计算相对于最优留一法Kn选择某个有限K值时在偏差和MSE上的相对损失Relative Loss, RL。偏差的相对损失RL_{Bias}(K) { [1 1/(K-1)]^{2φ} / [1 1/(n-1)]^{2φ} } - 1 ≈ [1 1/(K-1)]^{2φ} - 1因为n很大时1/(n-1) ≈ 0MSE的相对损失上界 当G_b 0时MSE的相对损失上界为RL_{MSE}(K) ≤ { [1 1/(K-1)]^{2φ-1/2} / [1 1/(n-1)]^{2φ-1/2} } - 1 ≈ [1 1/(K-1)]^{2φ-1/2} - 1我们取φ的典型范围[1/4, 1/2]对应非参数估计的收敛速率计算K10时的最大相对损失性能指标φ 1/4 (收敛较慢)φ 1/2 (收敛较快)K10时的最大损失偏差相对损失 RL_{Bias}≈ 10.5%≈ 5.1%约 10%MSE相对损失 RL_{MSE}≈ 4.9%≈ 0.2%约 5%解读与建议惊人的稳定性上表显示仅仅使用 K10 折交叉拟合其偏差最多比最优的留一法高10%MSE最多高5%。对于绝大多数应用而言这是一个完全可以接受的精度损失。计算效率的巨幅提升相比于留一法需要训练n个模型K10只需要训练10个模型计算量降低了n/10倍。例如对于n5000的数据集计算量降低为原来的1/500。通用推荐因此一个具有普适性且高效的推荐是在使用DML2时默认设置 K10。这能在统计精度和计算成本之间取得极佳的平衡。当计算资源极度充裕且对边际精度提升有极致要求时可以考虑尝试更大的K如2050甚至留一法但需意识到其收益是递减的。4.3 核心建议三避免在DML1中使用过大的K如果你因为某些原因必须使用DML1例如某些早期代码或特定估计量那么对K的选择需要更加谨慎。设置K的上限应避免K与√n同阶或更大。一个保守的经验法则是K ≤ √n / 5。例如对于n1000的样本√n ≈ 31.6那么K不应超过6。对于n400的样本K最好不超过4。进行敏感性分析报告结果时应展示不同K值例如K2, 5, 10下DML1估计值及其标准误的变化。如果估计值随着K增大发生系统性偏移这可能是Λ ≠ 0和存在一阶偏差的警示信号。与DML2结果交叉验证如果条件允许同时运行DML2例如用K10作为参照。如果DML1小K与DML2大K的结果差异很大则应更信任DML2的结果。注意事项这些关于K的建议主要针对交叉拟合中的样本分割。它不同于模型选择中的K折交叉验证。在DML框架内干扰函数模型本身可能还有其自身的超参数如LASSO的惩罚系数、随机森林的树深度这些超参数通常需要在交叉拟合的每一折内部使用进一步的验证集或交叉验证来独立选择。不要混淆这两个层次的“K”。5. 模拟实验验证理论如何照进现实理论推导需要实证的检验。我们基于Sant‘Anna and Zhao (2020) 的“双重差分-处理效应”ATT-DID模拟设计来直观展示K值对DML1和DML2的影响。在这个设计中理论已证明其差异度量Λ 0因此DML1应表现良好。模拟设置样本量n 3000处理分配与结果生成遵循一个包含4个协变量的非线性模型处理效应存在异质性。干扰函数估计使用Nadaraya-Watson核回归6阶高斯核带宽按h ∝ n_0^{-1/16}选择其中n_0 (K-1)n/K是训练集大小。对比分别计算DML1和DML2在不同K值K ∈ {2, 5, 10, 15, 20, 25, 30}下的表现。评估指标尺度化偏差√n * |Bias|尺度化MSEn * MSE95%置信区间覆盖率结果分析对应原文Figure 4偏差对比当Λ 0时模拟显示DML1和DML2的偏差非常接近且都随着K的增加而缓慢下降。这与理论一致因为Λ0DML1没有一阶偏差其高阶偏差行为与DML2相似。下降趋势印证了DML2高阶偏差公式∝ [11/(K-1)]^{2φ}K越大偏差越小。MSE对比DML1和DML2的MSE同样非常接近且都随着K的增加而明显下降。例如从K2到K10MSE有显著改善从K10到K30改善幅度变小。这完美印证了DML2的MSE公式σ²/n G_b * [11/(K-1)]^{2φ-1/2} * n^{-1/2-2φ}其中第二项随K增大而减小并且收益递减。这也解释了为什么实践中常观察到“从2折到5折或10折提升很大之后再增加折数收益甚微”。覆盖率两者的置信区间覆盖率在95%目标水平附近且对K值不敏感。这表明在Λ0的情况下基于渐近正态性构建的推断对两者都是有效的。更深层的启示 这个模拟是在Λ0的“友好”场景下进行的。即便如此我们依然看到增大K对降低DML2的MSE有持续好处。这强化了我们的建议即使你无法判断Λ是否为零在更复杂的模型如LATE中Λ常不为零选择DML2并采用一个中等偏大的K如10也是一个稳健且通常更优的策略。它既避免了DML1可能存在的偏差风险又在多数情况下提供了接近最优的精度。6. 常见问题与实操陷阱排查在实际应用DML时除了K值选择还会遇到其他问题。下面我结合经验梳理几个常见陷阱和排查思路。6.1 问题一结果对K值过于敏感怎么办症状改变K值比如从5调到10点估计值、标准误或显著性水平发生剧烈变化。诊断与解决检查是否使用了DML1如果变化剧烈首先确认你用的是DML1。如果是这强烈暗示Λ ≠ 0。立即切换到DML2并观察结果是否稳定下来。DML2对K的敏感性应远低于DML1。检查干扰函数估计质量结果对K敏感也可能是因为干扰函数如倾向得分模型本身拟合不稳定或过于复杂。当K变化时训练集大小(K-1)n/K变化导致模型性能波动大。排查方法固定K如K5在某一折的训练集上拟合干扰函数模型然后在对应的验证集上评估其预测性能如倾向得分的校准度、条件均值函数的R²。如果性能很差或不稳定说明模型设定或超参数有问题。解决方案简化模型增加正则化或尝试更稳健的机器学习方法如梯度提升树相比深度网络通常更稳定。样本量是否过小如果样本量n很小如小于200即使DML2有限样本波动也会很大。此时任何方法都可能不稳定。考虑使用更简单的参数模型或明确报告这种不稳定性。6.2 问题二置信区间覆盖不足Coverage太低症状模拟或自助法Bootstrap显示95%的置信区间实际覆盖真实参数的频率远低于95%例如只有85%。诊断与解决首要怀疑干扰函数估计误差DML的渐近正态性依赖于干扰函数估计器以足够快的速率收敛n^{-φ}φ 1/4。如果使用的机器学习模型收敛太慢例如在高维稀疏性不满足时使用LASSO或超参数选择不当如带宽过宽、树深度过浅会导致干扰函数估计误差过大污染目标参数的渐近方差使标准误被低估。解决方案尝试收敛更快的估计器如果可行或使用“欠平滑”undersmoothing技术。例如在核回归中选择比最优MSE带宽更小的带宽可以牺牲一点偏差来降低方差有时能改善覆盖率。检查样本分割的随机性确保每次实验或模拟中样本分割是独立随机重采样的。如果固定了随机种子可能会导致结果有偏。考虑使用自助法虽然理论渐近方差公式方便但在有限样本下基于自助法如子抽样自助法、残差自助法构建的置信区间可能更稳健特别是当干扰函数估计复杂性高时。6.3 问题三计算时间无法承受症状采用DML2且K10时由于要训练10个复杂的机器学习模型如深度神经网络总训练时间过长。诊断与解决评估K的必要性根据第4章的量化分析K10相对于K5在精度上提升有限MSE损失通常5%。如果计算资源紧张将K从10降至5是一个合理的妥协。计算量几乎减半而统计效率损失很小。并行化交叉拟合的天生优势是可以并行计算。K个折的干扰函数模型训练是相互独立的。确保你的代码利用了并行计算如Python的joblib、multiprocessing可以几乎将训练时间缩短为原来的1/(CPU核心数)。模型简化与早停在每一折内训练干扰函数模型时使用更轻量的模型如线性模型加多项式特征、浅层树模型或为迭代模型如神经网络设置早停early stopping回调可以大幅减少单次训练时间。** warm start**对于迭代模型如逻辑回归、神经网络在训练第k折模型时可以使用第(k-1)折训练好的模型权重作为初始值通常能加快收敛。6.4 问题四如何报告结果最佳实践明确说明方法在论文或报告的方法部分清晰说明你使用的是DML1还是DML2交叉验证的折数K是多少以及干扰函数使用了什么机器学习算法及其关键超参数。进行稳健性检验在附录或正文中展示关键结果对不同K值例如K5, 10, 20的敏感性。如果结果稳定能增强结论的可信度。报告估计精度除了点估计和标准误考虑报告基于自助法得到的置信区间或至少比较一下基于渐近公式的标准误与自助法标准误的差异。可视化对于重要的处理效应参数可以绘制其估计值及置信区间随K值变化的趋势图。这能直观展示估计的稳定性和对K的依赖程度。7. 总结与最终建议经过从理论到模拟再到实操的完整梳理我们可以为DML中交叉验证折数K的选择给出一个清晰、可操作的决策框架估计器选择是第一位的无条件优先使用DML2。它规避了DML1在Λ ≠ 0时可能产生的一阶渐近偏差风险且其理论性质对K值增长更为稳健。除非你使用的特定软件或算法只提供了DML1实现否则都应选择DML2。对于DML2大胆使用更大的K理论表明增大K可以降低DML2估计量的高阶偏差和高阶MSE。留一法Kn在统计意义上是最优的。平衡计算与精度的黄金法则默认设置 K10。我们的量化分析表明对于DML2K10在偏差上最多比最优的留一法损失10%在MSE上最多损失5%这是一个在统计精度和计算成本之间近乎完美的平衡点。对于绝大多数实证研究这已经足够稳健和高效。计算资源与精度需求的微调如果计算资源极度充裕可以尝试K20,50甚至留一法以追求极限的统计精度。但需注意收益递减。如果模型非常复杂或数据量巨大可以将K降至5。这能显著减少计算时间降为原来的1/2而统计效率的损失通常可控MSE损失可能略高于5%但可接受。如果使用DML1必须保守。遵循K ≤ √n / 5的经验法则并务必进行K值敏感性分析。始终进行敏感性分析无论选择哪个K将其作为稳健性检验的一部分。报告主要结果在K5, 10如果使用DML2或K2, 5如果使用DML1下的变化情况。稳定的结果比任何单一设定下的结果都更有说服力。理解K值在DML中的作用就像理解发动机的压缩比对于汽车性能的影响。它不是一个可以随意设置的“超参数”而是连接理论稳健性与有限样本性能的关键桥梁。选择DML2并设置K10就如同为你的因果推断引擎选择了一个高效且可靠的标定方案能让它在大多数科研与实务道路上平稳、准确地运行。