从理论到实践：最小二乘法在Excel与Python中的线性回归实现

张

张建站

2026/6/24 22:01:24

10分钟阅读

1. 最小二乘法与线性回归基础线性回归是数据分析中最基础也最常用的方法之一而最小二乘法则是实现线性回归的经典算法。我第一次接触这个概念是在分析销售数据时当时需要找出广告投入和销售额之间的关系。最小二乘法就像一位精准的裁缝能够找到最贴合数据点的那条最佳拟合线。最小二乘法的核心思想很简单找到一条直线使得所有数据点到这条直线的垂直距离残差的平方和最小。这个平方和就是二乘的由来。想象你在玩飞镖最小二乘法就是要找到那个让所有飞镖到靶心的总距离最小的位置。数学上一元线性回归方程表示为 y ax b其中y 是因变量比如销售额x 是自变量比如广告投入a 是斜率表示x每增加1单位y的变化量b 是截距表示当x为0时y的值计算a和b的公式看起来有点复杂但其实理解起来很直观斜率a Σ[(xi - x̄)(yi - ȳ)] / Σ(xi - x̄)²截距b ȳ - a x̄这里的x̄和ȳ分别是x和y的平均值。我在第一次推导这些公式时花了整整一个下午才完全搞明白每个部分的含义。但别担心实际应用中我们很少需要手动计算工具会自动完成这些工作。2. Excel实现线性回归详解2.1 数据准备与基本操作Excel可能是最亲民的线性回归工具了。记得我第一次用Excel做回归分析时惊讶于它的简便性。假设我们有一组身高-体重的数据想要分析两者关系具体步骤如下将数据整理成两列比如A列身高B列体重选中这两列数据点击插入→图表→散点图右键点击图表中的数据点选择添加趋势线在趋势线选项中选择线性并勾选显示公式和显示R平方值Excel会自动计算出回归方程和R²值。R²越接近1说明模型拟合越好。我曾在分析产品销量时发现R²只有0.3这才意识到原来还有更重要的影响因素没考虑进去。2.2 高级分析与结果解读除了基本操作Excel还提供更专业的分析工具点击数据→数据分析如果没有这个选项需要在文件→选项→加载项中启用分析工具库选择回归设置Y范围因变量和X范围自变量勾选残差、线性拟合图等选项Excel会生成详细的回归统计表包括回归系数及其显著性P值R²和调整R²标准误差ANOVA方差分析表我曾经用这个功能分析过客户满意度数据发现服务响应时间对满意度的影响比价格更显著P值0.01这个发现直接改变了我们的服务策略。3. Python实现线性回归实战3.1 基础手动实现在Python中手动实现最小二乘法能帮助我们深入理解算法原理。下面是我常用的代码框架import numpy as np def linear_regression(x, y): # 计算均值 x_mean np.mean(x) y_mean np.mean(y) # 计算斜率和截距 numerator np.sum((x - x_mean) * (y - y_mean)) denominator np.sum((x - x_mean) ** 2) b numerator / denominator a y_mean - b * x_mean # 计算R平方 y_pred a b * x ss_res np.sum((y - y_pred) ** 2) ss_tot np.sum((y - y_mean) ** 2) r_squared 1 - (ss_res / ss_tot) return a, b, r_squared这个实现虽然简单但包含了最小二乘法的所有关键步骤。我第一次写这个函数时因为忘记对x和y取均值而得到了完全错误的结果调试了半小时才发现问题。3.2 使用Scikit-learn库对于实际项目我推荐使用Scikit-learn库它更高效且功能更全面from sklearn.linear_model import LinearRegression from sklearn.metrics import r2_score import numpy as np # 准备数据 X np.array([...]).reshape(-1, 1) # 自变量 y np.array([...]) # 因变量 # 创建模型并拟合 model LinearRegression() model.fit(X, y) # 获取结果 a model.intercept_ b model.coef_[0] r_squared model.score(X, y) # 预测新数据 y_pred model.predict(X)Scikit-learn的优势在于自动处理多维特征多元线性回归提供交叉验证等高级功能与其他机器学习算法无缝衔接我在一个房价预测项目中先用这个方法建立基准模型再逐步添加更复杂的特征和算法。4. Excel与Python对比与应用选择4.1 工具对比根据我的使用经验两种工具各有优劣特性ExcelPython (Scikit-learn)学习曲线平缓较陡峭数据处理能力有限约100万行几乎无限可视化即时、简单灵活、可定制自动化有限完全可编程高级功能基础丰富正则化、交叉验证等4.2 应用场景建议选择工具时我通常会考虑以下因素数据量大小超过50万行用Python分析复杂度需要高级统计检验时用Python协作需求业务团队更熟悉Excel重复性需要定期运行的分析用Python自动化一个实用的工作流是先用Excel快速探索数据和初步建模当需求复杂化后再迁移到Python。我曾经帮市场部门建立过一个销售预测模型就是先用Excel验证思路再用Python实现自动化版本。5. 常见问题与实战技巧5.1 数据预处理要点在实施线性回归前有几个关键检查点缺失值处理Excel中可以用筛选功能查找Python中用isnull()异常值检测画散点图直观检查或用Z-score方法线性假设验证通过散点图观察是否呈线性趋势数据标准化特别是多元回归时可用StandardScaler我曾经分析过一组用户行为数据回归结果很奇怪后来发现是因为有几个极端值扭曲了整体趋势。排除这些异常值后模型效果显著提升。5.2 模型诊断与改进建立模型后需要评估其有效性残差分析残差应该随机分布不应有规律R²解读物理意义比数值更重要特征工程有时添加x²项能改善拟合在Python中可以用statsmodels库获取更详细的诊断信息import statsmodels.api as sm X sm.add_constant(X) # 添加截距项 model sm.OLS(y, X).fit() print(model.summary()) # 输出详细回归报告这份报告会包含每个系数的置信区间、P值等重要信息帮助判断各个特征的显著性。

不止于安装：ProjectChrono初体验，用C++写你的第一个多体动力学仿真程序

不止于安装：ProjectChrono初体验，用C写你的第一个多体动力学仿真程序当你成功安装ProjectChrono后，那种"终于搞定环境配置"的喜悦可能很快会被"接下来该做什么"的迷茫取代。别担心，这篇文章将带你跨过安装的…...

2026/6/2 1:19:56 阅读更多 →

脑波数据泄露事件：黑客贩卖4万人思维隐私

从数字足迹到思维印记的隐私危机在过去的十年里，我们见证了个人数据泄露事件从信用卡信息、医疗记录到生物特征数据的演变。如今，随着脑机接口（BCI）技术从实验室走向消费市场，一种全新的、更为根本的隐私形式——思维隐…...

2026/6/13 13:06:04 阅读更多 →

文档即测试：我们如何用Markdown写自动化用例

在软件测试领域，沟通的鸿沟、文档的滞后性与维护的复杂性，一直是阻碍自动化测试效率提升的痛点。传统的测试脚本虽然功能强大，但可读性往往局限于开发与少数资深测试人员，业务方与项目管理者难以直观理解测试意图与覆盖范围。随着…...

2026/5/8 17:26:36 阅读更多 →

PyGAD实战指南：5大工业级遗传算法应用与避坑手册

1. 为什么是PyGAD而不是自己手写遗传算法？在Python生态里，提到遗传算法（Genetic Algorithm），很多人第一反应是“得从零开始搭轮子”：初始化种群、定义适应度函数、写选择/交叉/变异逻辑、控制迭代终止条件……...

2026/6/24 0:29:23 阅读更多 →

emWin三大核心控件实战：进度条、单选按钮与滚动条开发指南

1. 项目概述：深入emWin三大核心控件的实战应用在嵌入式图形界面开发领域，SEGGER的emWin以其高效、稳定和丰富的控件库而著称。对于许多从单片机裸机开发转向带屏交互的工程师来说，如何高效、正确地使用这些控件，往往是项目从“能跑…...

2026/6/24 11:26:14 阅读更多 →

英雄联盟终极效率工具：League Akari 完全指南

英雄联盟终极效率工具：League Akari 完全指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款基于官方LCU API开…...

2026/6/24 20:43:29 阅读更多 →

Transformer 中的高效推理：推理时注意力压缩

Transformer 中的高效推理：推理时注意力压缩作者: Hao Sun, Yuxuan Li, Wei Lu 来源: https://arxiv.org/html/2606.20529v1摘要大型语言模型（LLMs）的部署成本高昂，主要受限于推理阶段的内存与计算开销。本文提出了一种推理时注…...

2026/6/24 0:29:22 阅读更多 →