第05篇_模型训练全过程

张

张建站

2026/6/5 17:14:05

10分钟阅读

第 5 篇模型训练全过程数据集、损失函数、优化器与训练循环深度学习入门专栏 · 第 5 篇适合读者已经阅读前两篇内容希望继续系统学习深度学习核心方法与实践流程的初学者摘要本文系统梳理深度学习模型训练全过程包括数据准备、训练集/验证集/测试集划分、前向计算、损失函数、反向传播、优化器、训练循环和误差分析。文章强调规范实验设计的重要性解释为什么测试集不能参与调参并用学习时间预测分数和小型训练循环演示参数更新过程。通过本文读者可以建立从数据到评估的完整训练闭环意识。关键词训练流程数据集损失函数优化器训练循环深度学习实验1. 模型训练不是一句 fit 就结束深度学习训练是一套完整流程包括数据准备、数据划分、模型构建、前向计算、损失评估、反向传播、优化器更新、验证集调参、测试集评估和误差分析。任何一个环节不规范都会影响最终结论。训练集用于学习参数验证集用于选择模型和调超参数测试集只用于最终评估。如果测试集参与模型选择结果会偏乐观这属于数据泄漏的一种形式。2. 损失函数与优化器损失函数衡量预测值与真实值之间的差距。回归任务常用均方误差分类任务常用交叉熵。训练的目标不是让模型在训练集上死记硬背而是让验证集和测试集上也保持较低损失。均方误差为MSE1n∑i1n(y^i−yi)2 MSE\frac1n\sum_{i1}^n(\hat{y}_i-y_i)^2MSEn1i1∑n(y^i−yi)2其中ŷ 是预测值y 是真实值。误差越大损失越大。梯度下降的核心形式是w←w−η∇wL w \leftarrow w-\eta\nabla_w Lw←w−η∇wL其中w 是参数η 是学习率∇L 是梯度。它表示沿着让损失降低的方向更新参数。3. 代码示例划分训练集和测试集fromsklearn.model_selectionimporttrain_test_splitimportnumpyasnp Xnp.arange(20).reshape(-1,1)ynp.arange(20)X_train,X_test,y_train,y_testtrain_test_split(X,y,test_size0.25,random_state42)print(训练集样本数,len(X_train))print(测试集样本数,len(X_test))运行结果训练集样本数 15 测试集样本数 54. 代码示例最小训练循环importnumpyasnp xnp.array([1,2,3,4],dtypefloat)ynp.array([3,5,7,9],dtypefloat)w,b,lr0.0,0.0,0.01forepochinrange(1000):predw*xb errorpred-y lossnp.mean(error**2)grad_wnp.mean(2*error*x)grad_bnp.mean(2*error)w-lr*grad_w b-lr*grad_bprint(round(w,3),round(b,3),round(loss,6))运行结果2.008 0.977 0.000175常见误区误区一只记概念名称不理解适用场景。深度学习概念必须放回任务中理解。CNN 适合图像是因为它利用了空间局部性RNN 适合序列是因为它显式处理时间顺序Transformer 强大是因为它能直接建模全局依赖。误区二训练集结果好就认为模型好。训练集表现只能说明模型对已见样本拟合得好。真正重要的是验证集和测试集表现尤其是测试集是否独立、是否没有参与调参。误区三忽略数据质量。标注错误、样本偏差、类别不平衡和数据泄漏会直接破坏实验结论。很多项目失败不是模型不够先进而是数据基础不可靠。误区四把代码跑通等同于掌握原理。会调用框架只是第一步。能解释模型为什么有效、为什么失败、如何设计对照实验和如何分析错误样本才是真正形成能力。实践建议学习本篇内容时可以按“三步法”推进。第一步先用纸笔画出数据从输入到输出的流程确认自己知道每一步在做什么。第二步运行文中的代码并至少修改一个参数观察结果变化。第三步尝试用自己的话解释三张配图尤其要说清楚每个模块解决了什么问题。对初学者来说小实验比大工程更重要。一个能完全解释清楚的小例子往往比一个复制粘贴的大模型更能建立长期能力。本篇小结本篇围绕“模型训练全过程数据集、损失函数、优化器与训练循环”展开重点解释了相关概念为什么出现、解决什么问题以及它在深度学习完整流程中的位置。需要记住的是深度学习不是模型名称、公式和代码片段的堆叠而是数据、结构、损失、优化、评估和应用场景共同构成的系统方法。理解核心机制再通过小代码和小实验验证是最稳妥的学习方式。参考文献与推荐阅读[1] LeCun, Y.; Bengio, Y.; Hinton, G. Deep learning.Nature2015,521, 436–444. https://doi.org/10.1038/nature14539[2] Goodfellow, I.; Bengio, Y.; Courville, A.Deep Learning. MIT Press, 2016. https://www.deeplearningbook.org/[3] Nielsen, M. A.Neural Networks and Deep Learning. Determination Press, 2015. http://neuralnetworksanddeeplearning.com/[4] Géron, A.Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 3rd ed.; O’Reilly Media, 2022.[5] PyTorch Documentation. https://pytorch.org/docs/stable/index.html[6] Kingma, D. P.; Ba, J. Adam: A Method for Stochastic Optimization. arXiv:1412.6980, 2014.[7] Bottou, L. Large-Scale Machine Learning with Stochastic Gradient Descent.COMPSTAT, 2010.

算法重塑空间逻辑视频承载孪生生态

算法重塑空间逻辑视频承载孪生生态副标题：突破传统可视化局限，推动数字孪生走向量化决策与业务闭环前言数字孪生产业发展至今，传统可视化浅层应用已成为行业进阶的核心桎梏。多数方案停留在三维画面渲染、静态场景展示层面，仅实现…...

2026/5/17 7:42:00 阅读更多 →

在持续集成环境中集成 Taotoken CLI 实现自动化配置与密钥轮换

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在持续集成环境中集成 Taotoken CLI 实现自动化配置与密钥轮换对于中大型项目而言，持续集成与持续部署（CI…...

2026/5/28 7:38:46 阅读更多 →

极域电子教室终极破解指南：如何简单快速解除课堂控制限制

极域电子教室终极破解指南：如何简单快速解除课堂控制限制【免费下载链接】JiYuTrainer 极域电子教室防控制软件, StudenMain.exe 破解项目地址: https://gitcode.com/gh_mirrors/ji/JiYuTrainer 你是否曾在学校机房上课时，被极域电子教室的全屏…...

2026/6/3 22:41:17 阅读更多 →

AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现）

更多请点击： https://intelliparadigm.com 第一章：AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现） 2024年，全球创意产业迎来关键拐点：AI不再作为边缘工具，而是深度嵌入创意工…...

2026/6/4 2:47:58 阅读更多 →

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式开源声明本文完全开源、无版权限制、公开通用，允许所有开发者、科研机构、技术团队无偿引用、落地、迭代、二次开发，助力人工智能长期记忆体系技术革新。作者：杨建…...

2026/6/4 4:33:24 阅读更多 →

单片机IIC实验

单片机 ：STM32F407 开发板：DMF407电机开发板平台：keil V5.31HSE 为8MHZ HSI为16MHZ原理图：主函数：int main(void) {uint8_t key;uint16_t i 0;uint8_t datatemp[TEXT_SIZE];HAL_Init(); …...

2026/6/3 16:15:35 阅读更多 →