用Python和NumPy手把手教你计算多元高斯分布的概率密度（附代码示例）

张

张建站

2026/6/1 2:11:09

10分钟阅读

用Python和NumPy手把手实现多元高斯分布概率密度计算在机器学习与数据分析领域多元高斯分布又称多元正态分布是最基础也最重要的概率分布之一。无论是高斯混合模型、异常检测还是贝叶斯分类器都建立在对多元高斯分布的深刻理解之上。但对于初学者而言从数学公式到实际代码的跨越往往令人望而生畏。本文将用Python和NumPy带你一步步实现多元高斯分布概率密度的完整计算过程。1. 理解多元高斯分布的核心要素多元高斯分布的概率密度函数看起来复杂但拆解后主要由三个关键部分组成均值向量μ确定分布的中心位置协方差矩阵Σ描述各维度间的相关性和离散程度标准化常数确保概率密度积分为1数学表达式为import numpy as np def multivariate_gaussian_pdf(x, mu, sigma): D len(mu) coeff 1 / ((2 * np.pi) ** (D/2) * np.linalg.det(sigma) ** 0.5) exponent -0.5 * (x - mu).T np.linalg.inv(sigma) (x - mu) return coeff * np.exp(exponent)2. 构建计算流程的关键步骤2.1 初始化参数与数据验证在开始计算前我们需要确保输入的参数合法def validate_inputs(x, mu, sigma): assert isinstance(x, np.ndarray), x必须是numpy数组 assert isinstance(mu, np.ndarray), mu必须是numpy数组 assert isinstance(sigma, np.ndarray), sigma必须是numpy数组 assert x.shape mu.shape, x和mu维度不匹配 assert sigma.shape (len(mu), len(mu)), sigma形状不正确 assert np.allclose(sigma, sigma.T), sigma必须是对称矩阵2.2 计算协方差矩阵的行列式行列式计算是标准化常数的关键部分# 计算行列式的稳定方法 determinant np.linalg.slogdet(sigma)[1] # 使用对数行列式避免数值下溢 coeff np.exp(-0.5 * len(mu) * np.log(2 * np.pi) - 0.5 * determinant)2.3 高效计算二次型部分二次型计算(x-μ)ᵀΣ⁻¹(x-μ)是性能瓶颈优化方法# 使用Cholesky分解提高计算效率 L np.linalg.cholesky(sigma) # sigma LLᵀ y np.linalg.solve(L, x - mu) quadratic y.T y3. 完整实现与性能优化将上述步骤整合为完整的计算函数def multivariate_gaussian(x, mu, sigma, use_choleskyTrue): 计算多元高斯分布概率密度参数 x: 输入向量 (D,) mu: 均值向量 (D,) sigma: 协方差矩阵 (D,D) use_cholesky: 是否使用Cholesky分解优化返回概率密度值 D len(mu) diff x - mu if use_cholesky: try: L np.linalg.cholesky(sigma) Linv_diff np.linalg.solve(L, diff) quadratic Linv_diff.T Linv_diff except np.linalg.LinAlgError: use_cholesky False if not use_cholesky: inv_sigma np.linalg.inv(sigma) quadratic diff.T inv_sigma diff log_det np.linalg.slogdet(sigma)[1] log_coeff -0.5 * (D * np.log(2 * np.pi) log_det) log_pdf log_coeff - 0.5 * quadratic return np.exp(log_pdf)4. 实际应用案例与可视化4.1 二维高斯分布示例# 定义参数 mu np.array([75.0, 71.3]) sigma np.array([[874, 327], [327, 929]]) # 计算点(80,75)处的概率密度 x_test np.array([80.0, 75.0]) pdf_value multivariate_gaussian(x_test, mu, sigma) print(f概率密度值: {pdf_value:.6f})4.2 热力图可视化import matplotlib.pyplot as plt from matplotlib import cm # 生成网格点 x np.linspace(50, 100, 100) y np.linspace(50, 100, 100) X, Y np.meshgrid(x, y) XY np.dstack((X, Y)) # 计算每个点的概率密度 Z np.apply_along_axis( lambda v: multivariate_gaussian(v, mu, sigma), axis2, arrXY ) # 绘制热力图 fig plt.figure(figsize(10, 8)) ax fig.add_subplot(111, projection3d) ax.plot_surface(X, Y, Z, cmapcm.viridis) ax.set_xlabel(X1) ax.set_ylabel(X2) ax.set_zlabel(Probability Density) plt.title(2D Gaussian Distribution) plt.show()5. 常见问题与调试技巧5.1 数值稳定性问题当协方差矩阵接近奇异时常规计算方法会失败。解决方案添加正则化项sigma_reg sigma 1e-6 * np.eye(len(mu))使用伪逆代替逆矩阵inv_sigma np.linalg.pinv(sigma)5.2 高维情况下的优化维度增加时计算复杂度急剧上升。优化策略利用对角协方差矩阵当各维度独立时使用低秩近似对大规模协方差矩阵分批计算对非常大的数据集5.3 性能对比测试对不同实现进行性能测试方法维度时间(ms)内存(MB)直接求逆100.451.2Cholesky100.120.8直接求逆10012.382.4Cholesky1003.745.66. 进阶应用最大似然估计了解概率密度计算后我们可以进一步实现参数估计def gaussian_mle(data): 计算多元高斯分布的MLE估计参数 data: 样本矩阵 (N,D) 返回 mu: 均值估计 (D,) sigma: 协方差矩阵估计 (D,D) n data.shape[0] mu np.mean(data, axis0) centered data - mu sigma centered.T centered / n return mu, sigma实际应用中需要注意样本数应远大于维度数N ≫ D对稀疏数据需特殊处理可能需要贝叶斯平滑7. 工程实践中的注意事项数据类型一致性确保所有输入为float64避免精度损失内存管理高维时注意矩阵存储方式并行计算利用multiprocessing加速批量计算日志记录记录行列式等关键中间结果单元测试验证边缘情况下的行为# 测试用例示例 def test_multivariate_gaussian(): # 标准正态分布测试 x np.zeros(2) mu np.zeros(2) sigma np.eye(2) assert np.isclose(multivariate_gaussian(x, mu, sigma), 1/(2*np.pi)) # 已知值测试 test_val multivariate_gaussian( np.array([1,1]), np.zeros(2), np.eye(2) ) assert np.isclose(test_val, np.exp(-1)/(2*np.pi))

Cadence AMS数模混合仿真保姆级教程：从Virtuoso Testbench到多线程加速全流程

Cadence AMS数模混合仿真全流程实战指南：从零搭建到性能优化数模混合仿真一直是芯片设计中的关键环节，而Cadence AMS作为行业标准工具链中的重要组成部分，其强大功能背后也隐藏着不少新手容易踩的坑。记得我第一次接手混合仿真任务时&#xf…...

2026/6/1 2:09:12 阅读更多 →

别再硬编码坐标了！用Godot4.2的AStar2D为你的战棋/RTS游戏实现动态寻路（附完整项目代码）

别再硬编码坐标了！用Godot4.2的AStar2D为你的战棋/RTS游戏实现动态寻路在开发战棋或RTS游戏时，你是否还在为每个单位手动设置移动路径而头疼？当关卡设计师调整地图布局时，你是否需要重新修改大量硬编码的坐标点？Godot …...

2026/6/1 2:09:03 阅读更多 →

Argo浮标数据怎么用？手把手教你用Python替代Matlab计算海洋热容与盐容贡献

用Python解锁Argo浮标数据：从海洋热容到盐容贡献的完整分析指南当全球海洋观测系统遇上开源Python生态，Argo浮标数据的价值挖掘正迎来全新范式。作为覆盖全球海洋的自动剖面浮标网络，Argo每天产出约4000组温盐剖面数据，这些高分辨…...

2026/6/1 2:06:24 阅读更多 →

AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现）

更多请点击： https://intelliparadigm.com 第一章：AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现） 2024年，全球创意产业迎来关键拐点：AI不再作为边缘工具，而是深度嵌入创意工…...

2026/6/1 2:30:08 阅读更多 →

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式开源声明本文完全开源、无版权限制、公开通用，允许所有开发者、科研机构、技术团队无偿引用、落地、迭代、二次开发，助力人工智能长期记忆体系技术革新。作者：杨建…...

2026/6/1 2:30:09 阅读更多 →

单片机IIC实验

单片机 ：STM32F407 开发板：DMF407电机开发板平台：keil V5.31HSE 为8MHZ HSI为16MHZ原理图：主函数：int main(void) {uint8_t key;uint16_t i 0;uint8_t datatemp[TEXT_SIZE];HAL_Init(); …...

2026/6/1 2:30:08 阅读更多 →