机器学习预测不确定性量化与稳健投资组合优化

张

张建站

2026/5/25 7:13:20

10分钟阅读

1. 项目概述当机器学习遇见计量经济学在金融预测和资产配置的战场上我们手里握着的武器越来越先进。深度神经网络DNN能从海量数据中捕捉非线性关系傅里叶级数回归能优雅地拟合周期性波动各种机器学习模型层出不穷。但一个现实而尖锐的问题是当我们用这些“黑箱”或复杂模型做出一个点预测后这个预测到底有多可靠模型A和模型B给出的预测其不确定性在统计意义上有没有本质区别更进一步我们如何将这种“不确定性”量化并融入到投资决策中构建一个真正“稳健”的投资组合而不仅仅是一个在历史数据上表现优异的“纸老虎”这正是“机器学习预测的渐近等价性与稳健投资组合优化”这一交叉领域研究的核心。它试图在机器学习强大的预测能力和计量经济学严谨的统计推断之间架起一座桥梁。简单来说其核心思想可以打一个比方想象两位厨师一位用复杂的分子料理技术好比DNN另一位用传统的慢炖手法好比傅里叶级数来还原同一道经典菜肴真实的数据生成过程。尽管烹饪过程天差地别但只要他们技艺足够精湛满足模型的正则条件最终成菜的口味预测值与理想口味真实值的偏差在品尝足够多次样本量增大后其统计分布会趋于一致。这个“趋于一致的偏差分布”就是渐近等价性。这个理论发现的价值巨大。它意味着我们可以绕过对特定模型内部复杂结构的纠结直接为预测误差建立一个统一的、模型无关的统计推断框架。基于此我们可以计算出预测的标准误Standard Error从而构建置信区间。在投资组合优化中传统的均值-方差模型只关心预期收益点预测和协方差矩阵完全忽略了预期收益这个输入值本身的不确定性。而稳健优化则要求我们“既然你告诉我这个股票预期收益是8%但可能有±2%的误差那么在做资产配置时你就必须把这个±2%的风险考虑进去。” 最终得到的权重往往会对那些预测不确定性高的资产进行“降权”或“软阈值”处理从而得到一个更经得起现实考验的组合。2. 核心原理预测误差的渐近统一表示为什么截然不同的机器学习模型其预测误差会展现出渐近等价性关键在于一个深刻的计量经济学洞察在一定的正则条件下任何“表现良好”的机器学习预测器的预测误差都可以被一个统一的、线性的表达式所主导而这个表达式与模型的具体形式无关。2.1 从预测误差到线性表示让我们形式化地理解这个过程。假设我们有N个资产T个时间点。对于资产i在时间t的收益y_i,t我们用一个包含滞后变量x_i,t-1的函数g(x_i,t-1)来预测。机器学习模型无论是DNN还是傅里叶级数给出的估计函数记为ĝ。我们关注的是样本外预测即在时间T对所有资产未来一期z_T1 Σ w_i * g(x_i,T)的预测其中w_i是已知的权重例如在构建投资组合指数时。核心的推导始于一个启发式展开。预测误差ĝ_T1|T - z_T1|T可以写为权重w_j乘以每个资产预测误差[ĝ(x_j,T) - g(x_j,T)]的和。关键在于这个误差可以被近似为一个双重求和的形式ĝ_T1|T - z_T1|T ≈ (1/(N*T)) * Σ_i Σ_t Σ_j w_j * e_i,t * m*_j(x_i,t-1) o_P(T^{-1/2})其中e_i,t是模型在样本内的残差而m*_j(·)是一个称为Riesz表示子的关键函数。注意这里的o_P(T^{-1/2})是一个渐近意义上的小量表示当样本时间长度T很大时这个余项相对于T^{-1/2}可以忽略不计。这是大样本理论的标准表述。2.2 Riesz表示子与模型无关性m*_j函数是整个理论的枢纽。它不依赖于我们使用的是DNN还是傅里叶级数而只依赖于两件事数据的内在结构即所有解释变量{x_i,t-1}的分布和样本外点x_j,T的具体取值。我们所选择的函数空间A_NT即DNN和傅里叶级数所张成的空间减去其对于真实函数g的最佳逼近g_NT,G。通过Riesz表示定理我们将一个在函数空间A_NT上求值h(x_j,T)的线性泛函转化为一个内积运算h, m*_j。这意味着无论h是DNN的误差函数还是傅里叶级数的误差函数只要它们在同一个空间A_NT里它们与m*_j的内积就决定了其在x_j,T点的值。这正是渐近等价性的根源不同模型的预测误差在渐近意义上都被投影到了同一个由数据决定的线性空间A_NT上并用相同的“尺子”m*_j来衡量。2.3 关键假设与正则条件理论的成立需要一些技术性假设这些假设确保了机器学习模型不会“学歪”或者过于复杂。假设1数据生成过程假设在给定解释变量X的条件下模型误差项(v_t, u_i,t)是跨时间独立的且是亚高斯的一种比高斯分布更广泛的尾部分布约束。同时解释变量x_i,t-1在不同资产i之间是独立的。这保证了数据的“良好行为”是许多计量分析的基础。假设2 3模型空间复杂度分别针对DNN空间G_DNN和傅里叶级数空间G_B。核心是控制模型的复杂度。覆盖数Covering NumberN(δ, G, ||.||_∞) ≤ (C*T / δ)^{p(G)}。这衡量了用半径为δ的“小球”覆盖整个函数空间G所需的最少数量。p(G)可以理解为函数空间的“有效维度”或复杂度。对于DNNp(G_DNN)与网络的宽度J和深度L的平方成正比O(J^2 L^2)对于傅里叶级数p(G_B)则与基函数的个数J成正比。这个假设要求模型空间不能太“庞大”。近似误差Approximation Errorφ_G o(T^{-1})。φ_G度量了函数空间G逼近真实函数g的能力。o(T^{-1})意味着当样本量增大时最佳逼近误差的衰减速度必须快于1/T。这确保了模型有足够的能力捕捉真实关系。复杂度与样本量的权衡p(G) log(NT) o(T^{1/2})且φ_G * p(G) log(NT) o(1)。这是最关键的正则条件。它要求模型的复杂度p(G)不能随着样本量T和资产数N增长得太快必须与近似误差φ_G的衰减取得平衡。如果模型太复杂p(G)太大即使拟合样本很好也会导致过拟合破坏统计推断的有效性。这些假设并非空想。已有理论证明适当设定宽度和深度的ReLU激活前馈神经网络以及适当选择基函数数量的傅里叶级数能够满足这些条件从而成为合格的预测器。3. 统计推断标准误计算与Bootstrap得到了预测误差的线性表示形式我们就可以对其进行统计推断核心是计算其方差即标准误Standard Error, SE。3.1 标准误的解析形式基于线性表示ĝ_T1|T - z_T1|T ≈ Σ_t [ (1/N) * Σ_i ζ*(x_i,t-1) * β‘_i,t-1 * v_t ]其中ζ*(·) Σ_j w_j m*_j(·)我们可以推导出预测误差的渐近方差。在一定的正则条件下如定理2中要求的J^{5/2} o(T)这控制了傅里叶级数基函数的增长速率可以证明SE(ĝ_T1)^2 ≈ (1/T^2) * Σ_t [ (1/N^2) * ζ*_t-1 * β_t-1 * Cov(v_t) * β‘_t-1 * ζ*_t-1 ]其中ζ*_t-1是一个向量其第i个元素是ζ*(x_i,t-1)。更进一步可以证明标准化后的预测误差服从渐近正态分布[SE(ĝ_T1)]^{-1} * (ĝ_T1|T - z_T1|T) →_d N(0, 1)这为我们构置信区间ĝ_T1|T ± z_{α/2} * SE(ĝ_T1)奠定了理论基础其中z_{α/2}是标准正态分布的分位数。3.2 实操中的Bootstrap估计然而上述解析形式中的ζ*和β通常未知直接计算SE非常困难。在实践中我们采用残差Bootstrap方法来估计SE和构建置信区间。这是一种非常强大且适用于复杂模型的统计方法。Bootstrap步骤详解训练基础模型使用原始数据{(y_i,t, x_i,t-1)}训练你的机器学习模型DNN或傅里叶级数得到拟合函数ĝ和残差ê_i,t y_i,t - ĝ(x_i,t-1)。生成Bootstrap样本对于b 1, ..., BB通常取1000或更多 a. 从{1, 2, ..., T}中有放回地抽取T个时间索引得到Bootstrap时间索引集{t*_1, ..., t*_T}。 b. 或者更常见的是残差重抽样对每个时间点t生成一个外部扰动η*_t通常来自均值为0、方差为1的分布如Rademacher分布取±1等概率或标准正态分布。构造Bootstrap因变量y*_i,t ĝ(x_i,t-1) ê_i,t * η*_t。这里η*_t的作用是重抽样并放大残差的变异。训练Bootstrap模型对每个Bootstrap样本{(y*_i,t, x_i,t-1)}用相同的机器学习算法和超参数重新训练模型得到Bootstrap预测函数ĝ*_b。计算Bootstrap统计量对于每个ĝ*_b计算其在样本外点x_j,T的预测值进而得到Bootstrap版本的预测ĝ*_b,T1|T。然后计算Bootstrap分布ĝ*_b,T1|T - ĝ_T1|T。这个分布模拟了ĝ_T1|T - z_T1|T的抽样分布。推断标准误估计SE_boot sqrt( (1/(B-1)) * Σ_b (ĝ*_b,T1|T - ĝ_T1|T)^2 )。置信区间取Bootstrap分布ĝ*_b,T1|T - ĝ_T1|T的α/2和1-α/2分位数q*_{α/2}和q*_{1-α/2}则(1-α)*100%的置信区间为[ĝ_T1|T - q*_{1-α/2}, ĝ_T1|T - q*_{α/2}]。实操心得Bootstrap的核心思想是“以数据模拟数据”。它不依赖于对模型误差分布的具体假设特别适合像DNN这样难以推导解析分布的场景。关键在于Bootstrap重抽样必须满足原数据的关键结构如时间序列可能需要的块Bootstrap截面独立假设下则可用上述残差Bootstrap。在金融数据中如果怀疑存在异方差或自相关需要考虑更稳健的Bootstrap变种如Wild Bootstrap。定理3从理论上证明了这种残差Bootstrap的有效性。它表明在满足前文提到的正则条件下Bootstrap分布能够一致地估计预测误差的真实抽样分布从而为我们提供了渐近有效的推断工具。4. 应用稳健投资组合优化有了预测μ_hat ĝ_T1|T和其不确定性度量SE(μ_hat)或置信区间[μ_hat - q_α, μ_hat q_α]我们就可以将其融入经典的均值-方差优化框架构建稳健的投资组合。4.1 从经典均值-方差到稳健优化经典的Markowitz均值-方差优化问题是max_ω { ω‘μ - (γ/2) * ω‘Σω }其中ω是资产权重向量μ是预期收益向量Σ是收益协方差矩阵γ是风险厌恶系数。这里μ通常被当作一个确定的已知量。稳健优化承认μ是不确定的。一个最直观的稳健化方法是最小-最大Min-Max方法也称为基于不确定集Uncertainty Set的鲁棒优化。我们将μ的取值约束在一个以点预测μ_hat为中心、半径为q_α例如95%置信区间的一半宽度的集合内然后求解最坏情况下的最优组合max_ω { min_{μ: |μ - μ_hat| ≤ q_α} [ ω‘μ - (γ/2) * ω‘Σω ] }这里|·|表示逐元素的绝对值约束即箱型不确定集。这个优化问题的含义是在预期收益可能发生的最坏变动范围内寻找一个能最大化最坏情况下效用的投资组合。4.2 稳健权重的解析解幸运的是对于上述箱型不确定集下的最小-最大问题存在清晰的解析解。内层的min_μ问题对于每个资产i是独立的min_{μ_i} ω_i μ_i约束为|μ_i - μ_hat_i| ≤ q_{α,i}。其解为ω_i * (μ_hat_i - sign(ω_i) * q_{α,i})。因此整个问题等价于max_ω { ω‘μ_hat - (γ/2) * ω‘Σω - Σ_i |ω_i| * q_{α,i} }与经典问题相比目标函数中多了一项- Σ_i |ω_i| * q_{α,i}。这一项被称为L1惩罚项或稀疏诱导项。它的作用是对权重ω_i的绝对值进行惩罚惩罚系数正是该资产预测的不确定性q_{α,i}。直观理解如果某个资产的预测非常不确定q_{α,i}很大那么持有该资产无论多头还是空头的“模型风险”就很高。稳健优化器会倾向于减少该资产的持仓绝对值甚至将其权重压缩至零以规避这种模型误判带来的风险。这实现了基于不确定性的选择性稀疏。4.3 单资产与两资产特例单资产情况N1问题简化为min_ω { (γσ^2/2) (ω - ω_MV)^2 q_α |ω| }其中ω_MV μ_hat / (γσ^2)是经典均值-方差权重。这个问题的解是著名的软阈值Soft-Thresholding算子ω_robust sign(ω_MV) * max( |ω_MV| - q_α/(γσ^2), 0 )这是一个非常直观的结果将经典权重ω_MV向零收缩收缩量正比于预测不确定性q_α。当|ω_MV|小于阈值q_α/(γσ^2)时权重直接被置为零。两资产情况N2假设权重和为1ω_1 ω_2 1问题变得略微复杂但仍有分段解析解。解的形式取决于经典权重ω_1^MV与由q_{α,1}和q_{α,2}构成的阈值之间的比较。解空间被划分为几个区域当ω_1^MV非常负极度看空资产1时稳健权重ω_1^*等于ω_1^MV加上一个正的调整项c0*(q_{α,1}q_{α,2})即向零方向回调。当ω_1^MV处于中间某个区间时稳健解可能直接将某一资产的权重设为零ω_1^*0或ω_2^*0即完全排除预测不确定性过高的资产。当ω_1^MV和ω_2^MV都足够大且为正时稳健权重ω_1^*等于ω_1^MV减去一个调整项c0*(q_{α,1}-q_{α,2})。如果资产1的预测比资产2更不确定q_{α,1} q_{α,2则对资产1的减持力度更大。注意事项这种基于L1惩罚的稳健优化其本质是在均值-方差框架中引入了对权重绝对值的约束。在计算时可以将其转化为一个二次规划问题并使用标准的凸优化求解器如CVXPY,quadprog等高效求解。对于多资产情况虽然没有像单资产那样简洁的全局表达式但求解在计算上是可行的。5. 深入探讨贝叶斯视角与模型风险整合前述的Min-Max方法是一种频率学派的稳健优化思路。我们还可以从贝叶斯的角度来理解并整合模型风险。5.1 预测分布与贝叶斯收缩在贝叶斯框架下我们将未知的真实预期收益z_T1|T和我们的点预测μ_hat都视为随机变量。假设给定真实值z_T1|T后预测μ_hat的条件分布是正态的μ_hat | z_T1|T ~ N(z_T1|T, SE^2 I)。同时我们对z_T1|T有一个先验信念例如z_T1|T ~ N(π, V)其中π是先验均值如历史平均收益、行业基准V是先验不确定性。根据贝叶斯定理我们可以得到真实值z_T1|T在观察到预测μ_hat后的后验分布z_T1|T | μ_hat ~ N(μ_tilde, Σ_tilde)。其中后验均值μ_tilde是先验均值π和样本预测μ_hat的加权平均μ_tilde W * π (I - W) * μ_hat这里W SE^2 * (SE^2 I V)^{-1}是一个收缩矩阵。当预测的标准误SE很大模型不确定性高时W趋近于单位阵I后验均值更倾向于相信先验π当SE很小时W趋近于零矩阵后验均值更相信数据给出的预测μ_hat。这实现了基于不确定性的贝叶斯收缩。5.2 稳健夏普比率与最优权重在后验分布N(μ_tilde, Σ_tilde)的视角下我们可以重新定义投资组合的优化问题。一种自然的方式是考虑后验期望效用或者等价地最大化后验分布下的夏普比率。经过推导如附录A.7所示在一定的简化假设下例如V c * Σ_T即先验协方差与样本协方差成比例得到的稳健夏普比率最优权重ω_RS具有如下形式ω_RS [γ/(τγ)] * g(W) * ω_MV [τ/(τγ)] * (与先验相关的项)其中τ是一个调节参数g(W)是一个与收缩矩阵W相关的函数ω_MV是经典的均值-方差权重。核心洞察加权平均ω_RS是经典数据驱动的权重ω_MV和先验驱动的权重的一个凸组合。参数γ风险厌恶和τ对先验的信心共同决定了组合的比例。不确定性依赖收缩矩阵W依赖于预测标准误SE。SE越大W越大g(W)函数的作用会使ω_RS更向先验方向调整并对ω_MV进行更强的收缩。这与Min-Max方法中L1惩罚的效果在精神上是一致的更高的模型不确定性导致更保守的仓位。单调性条件ω_RS关于SE的单调性即不确定性增加是否一定导致权重减小取决于一个条件ω_MV是否小于某个由先验决定的阈值。这提供了一个判断标准只有当数据驱动的信号ω_MV本身不够强时增加模型不确定性才会明确地降低其配置权重。5.3 两种方法的比较与实操选择Min-Max (L1惩罚) 方法优点概念直观具有清晰的稀疏性解释将不确定性高的资产权重设为零计算上可以转化为可高效求解的凸优化问题。缺点箱型不确定集可能过于保守且对称的±q_α区间可能无法捕捉预测误差分布的不对称性。贝叶斯收缩方法优点提供了一个将先验信息与数据预测相结合的自然框架收缩程度连续依赖于不确定性大小理论框架优美。缺点需要指定先验分布π和V这对投资者来说是一个额外的负担。结果对先验的选择可能敏感。实操建议对于大多数应用从Min-Max方法入手更为直接。首先它不依赖于先验设定。其次其产生的稀疏解某些资产权重为零在投资组合管理中通常具有实际吸引力因为它降低了换手率和交易成本。可以先使用Bootstrap估计出每个资产预测的q_α例如95%置信区间的半宽然后将其代入带L1惩罚的均值-方差优化器中求解。贝叶斯方法则更适合那些对市场有明确、量化先验观点的机构投资者可以作为高级进阶工具。6. 实现要点与常见陷阱将理论应用于实践有几个关键环节需要仔细处理否则很容易得到错误甚至误导性的结果。6.1 机器学习模型训练与正则化避免过拟合是生命线渐近等价性和Bootstrap有效性的所有理论假设都建立在模型“不过度拟合”的基础上。对于DNN这意味着必须使用强力的正则化技术早停法Early Stopping在验证集性能不再提升时停止训练这是防止DNN过拟合最有效的手段之一。Dropout在训练过程中随机丢弃部分神经元强制网络学习更鲁棒的特征。权重衰减L2正则化在损失函数中加入权重范数的惩罚项。验证集划分必须严格区分训练集、验证集用于调参和早停和测试集用于最终评估和样本外预测。时间序列数据需注意按时间顺序划分。傅里叶级数的基函数选择基函数个数J是关键超参数。J太小模型欠拟合无法捕捉复杂模式J太大模型过拟合复杂度p(G)急剧上升可能违反J^{5/2}o(T)的渐近条件。应使用交叉验证或信息准则如BIC来选择J。6.2 Bootstrap实施的细节残差的重抽样方式在金融时间序列中残差可能存在异方差波动率聚类或弱自相关。简单的i.i.d.重抽样可能不合适。应考虑Wild Bootstrap在重抽样时对残差ê_i,t乘以一个外部随机变量η_t如满足E(η_t)0, Var(η_t)1, E(η_t^3)0的分布。这能更好地保持原残差的异方差结构。块BootstrapBlock Bootstrap如果怀疑残差有自相关可以将时间序列分成重叠或非重叠的块然后对块进行重抽样以保持块内的依赖结构。Bootstrap次数BB应足够大以确保估计的稳定性。对于计算95%置信区间B1000通常是安全的底线。对于更精确的分位数估计或标准误估计可能需要B2000或更多。计算效率对DNN进行B次重训练计算量巨大。可以考虑使用较小的Bootstrap次数B进行初步探索。利用GPU加速和并行计算同时对多个Bootstrap样本进行训练。考虑使用子采样Subsampling或m-out-of-n Bootstrap等计算量更小的变体但需要注意其理论性质略有不同。6.3 协方差矩阵Σ_T的估计稳健优化问题中的协方差矩阵Σ_T同样需要准确估计。高维情况下资产数量N与样本量T可比或更大样本协方差矩阵极不稳定。常用方法收缩估计量Ledoit-Wolf将样本协方差矩阵向一个结构化的目标如单位矩阵、常数相关系数矩阵收缩。因子模型假设收益由少数几个因子驱动Σ_T B * Cov(F) * B‘ D其中D是对角矩阵。这能大幅降低待估参数数量。图形LASSO通过施加稀疏性假设来估计精度矩阵协方差矩阵的逆。实操建议在稳健优化框架中对Σ_T的估计误差同样是一种风险来源。可以考虑将Σ_T也放入一个不确定集如基于特征值扰动进行双重的稳健优化但这会大大增加问题的复杂性。一个务实的做法是对Σ_T使用上述稳健估计方法并意识到这仍是模型的一个潜在误差源。6.4 常见问题排查表问题现象可能原因排查与解决思路Bootstrap置信区间过宽1. 机器学习模型过拟合样本内残差ê_i,t方差被低估。2. 模型存在严重的设定误差无法捕捉数据真实关系。3. 数据中噪声不可预测部分本身很大。1. 检查训练集和验证集损失曲线加强正则化增加Dropout率、L2惩罚、提前早停。2. 尝试更灵活或更简单的模型进行模型诊断。3. 计算样本外预测的MSE评估可预测性的理论上限。稳健优化权重全部趋近于零或极端稀疏1. 预测不确定性q_α被严重高估如上一条。2. 风险厌恶系数γ设置过大。3. 不确定集形式箱型过于保守。1. 重新校准Bootstrap过程检查模型是否稳定。2. 调整γ值使其与投资者的实际风险承受能力匹配。3. 考虑使用椭圆型不确定集(μ-μ_hat)‘ Γ^{-1} (μ-μ_hat) ≤ φ它允许资产间的不确定性相互抵消通常比箱型集保守性低。计算时间过长1. Bootstrap次数B过多。2. DNN模型过于复杂。3. 优化问题求解器效率低。1. 尝试用B500进行初步分析确认结果稳定性后再增加至B1000。2. 简化网络结构减少层数、神经元数或使用更快的模型如LightGBM、傅里叶级数进行对比。3. 对于带L1惩罚的二次规划使用专门的高效求解器如CVXOPT的内点法或基于坐标下降的定制算法。样本外表现远差于样本内1. 数据窥探Data Snooping在模型选择/调参中过度使用了未来信息。2. 市场状态发生结构性变化。3. 交易成本未考虑。1. 严格实施向前滚动Rolling Forward或扩展窗口Expanding Window的交叉验证确保所有超参数选择和模型评估都在模拟实时交易的环境下进行。2. 引入机制转换模型或使用更短期的数据进行训练。3. 在优化目标函数中显式加入交易成本惩罚项λ * Σ_i最后我想分享一点个人在实际研究中的深刻体会机器学习为金融预测打开了新世界的大门但计量经济学的严谨性是我们穿越这扇门时不迷失方向的罗盘。渐近等价性理论的美妙之处在于它告诉我们不必沉迷于“哪个模型更优”的无休止争论而是应该专注于评估“使用任何模型所带来的共同不确定性”。稳健优化则是将这种不确定性认知转化为实际行动的桥梁。这个过程没有一劳永逸的“圣杯”它需要我们在模型复杂性、统计严谨性和计算可行性之间不断权衡。一个实用的工作流是从相对简单的模型如正则化的线性模型、傅里叶级数和稳健优化开始建立基准再逐步引入更复杂的模型如DNN并仔细比较其增加的预测精度是否足以抵消其带来的额外模型不确定性和计算成本。记住在资产管理中一个可解释、稳健且计算高效的中等性能策略往往比一个脆弱、黑箱的高性能策略更有长期价值。