LightGBM怎么做:SPSSAU软件操作步骤与结果指标解读
一、LightGBM所属模块LightGBM在SPSSAU中属于【机器学习】模块。二、方法概述LightGBM是一类常用的集成学习方法既可用于分类也可用于回归。它适合处理变量较多、样本量较大或关系较复杂的数据场景常用于预测建模、分类识别、变量重要性分析和模型效果比较。三、变量设置规则1.总体要求LightGBM共需要设置2类变量分别是分析项X定量和因变量Y。两类变量都为必填。2.具体设置1分析项X定量● 最少放入1个最多可放入400个变量且为必填。● 用于放入模型的输入特征也就是参与分类或预测判断的定量变量。2因变量Y● 只能放入1个变量且为必填。● 用于放入模型要预测的目标变量。若Y为类别数据通常对应分类任务若Y为定量数据通常对应回归任务。四、参数设置及解释说明1.训练集比例● 用于设置总样本中参与模型训练的比例默认值为0.8。● 训练样本越多模型学习通常越充分但测试样本会相应减少。一般可先使用默认设置。2.数据归一化● 可选None、norm、mas、mms。● None表示不处理norm表示正态标准化mas表示区间化mms表示归一化。● 如果不同变量量纲差异较大通常可考虑进行处理以减少尺度差异对训练过程的影响。3.保存预测值● 勾选后会额外保存预测信息。● 分类任务下通常会保存预测类别和各类别预测概率回归任务下会保存预测值。4.保存训练测试标识● 勾选后会生成训练集和测试集标识其中训练集记为1测试集记为2。● 适合后续检查样本划分情况也便于把结果写回原始数据继续使用。5.交叉验证● 默认不进行也可以选择2折、3折、5折或10折。● 交叉验证用于反复检验模型稳定性折数越高结果通常更稳但计算时间也会更长。6.提升器类型● 可选gbdt、dart、goss和rf。● gbdt适合大多数常见场景dart通过随机忽略部分树来降低过拟合风险goss侧重提高训练效率rf更接近随机森林思路。实际使用时可结合数据规模和模型稳定性比较选择。7.学习器数量● 用于设置模型中构建的树的数量默认值为100。● 数量越多模型通常越容易学到更复杂的信息但训练时间也会增加。8.学习率● 用于控制模型每一步更新的步长默认值为0.1。● 数值越小模型学习通常更平稳但往往需要更多迭代数值过大则可能影响训练稳定性。9.树最大深度● 用于控制单棵树的复杂程度代码说明中支持使用-1表示不限制。● 深度越大模型对数据的拟合能力通常越强但也更容易出现过拟合。10.树最大叶子数● 用于限制每棵树最多保留多少叶子节点默认值为31。● 该值越大单棵树通常越灵活但模型复杂度也会提高。11.子节点最小样本数● 用于限制一个叶子节点至少需要包含多少样本默认值为20。● 适当提高该值通常有助于减少模型过度细分样本。12.子节点最小权重● 用于限制叶子节点上样本权重和的最小值默认值为0.001。● 该值越大节点划分通常会更谨慎有助于提升模型稳定性。13.节点分裂最小增益● 用于控制节点继续分裂所需达到的最小改进幅度默认值为0.00。● 该值越小树越容易继续生长模型复杂度也越高若适当调高通常有助于降低过拟合风险。14.样本采样率● 用于控制训练每个学习器时使用多少比例的样本默认值为1.0。● 如果数据量较大适当降低该值通常有助于提高训练效率也能增加一定随机性。15.单树采样率● 用于控制每棵树实际采用的子样本比例默认值为1.0。● 适当降低该值有时有助于缓解过拟合并提升泛化表现。16.采样频率● 用于设置每隔多少次迭代进行一次采样默认值为1。● 采样更频繁时模型随机性通常更强但也需要结合结果稳定性综合判断。17.任务类型● 可选自动判断、分类任务和回归任务默认是自动判断。● 如果因变量类型很明确系统通常可以自动识别若希望强制按分类或回归方式运行也可手动指定。五、分析结果表格及其解读SPSSAU完成LightGBM分析后会根据任务类型和参数情况输出不同结果表常见包括lightgbm基本信息汇总、lightgbm分类基本信息汇总、特征权重值、模型评估结果、训练集模型评估结果、交叉验证模型评估结果、测试集模型评估结果、模型汇总表和数据集情况。1.表1lightgbm基本信息汇总或lightgbm分类基本信息汇总这张表用于展示样本总体情况。分类任务下会呈现各类别频数与占比回归任务下会呈现有效、缺失和总计情况。● 频数表示每个类别或状态对应的样本数量。样本过少的类别后续识别结果通常更不稳定。● 百分比表示对应样本在总体中的占比。若类别分布不均衡模型可能更偏向样本量较大的类别。● 有效样本表示真正参与建模的数据量。有效样本越充分结果通常越可靠。● 缺失样本表示未进入建模的数据量。若缺失占比较高需要更谨慎看待结果代表性。2.表2特征权重值该表格用于展示各分析项在模型中的相对重要性是识别关键变量的重要依据。● 项表示进入模型的特征名称。● 权重值表示该变量对模型结果的相对贡献。通常数值越大说明该变量越重要更适合做变量之间的相对比较。3.表3模型评估结果或训练集模型评估结果这部分表格用于判断模型在训练阶段的表现。回归任务下通常包含R方值、MAE、MSE、RMSE、MAD、MAPE、EVS、MSLE等指标分类任务下通常包含精确率、召回率、f1-score和样本数。● R方值用于衡量模型解释结果变化的能力通常越接近1越好若数值较低说明模型拟合能力有限。● MAE表示平均误差水平越接近0越好越小说明预测偏差越小。● MSE表示误差平方后的平均水平越接近0越好对较大的预测偏差更敏感。● RMSE表示整体误差水平越小越好便于直观理解预测偏差大小。● MAD表示中位数绝对误差对异常值不那么敏感越小越好。● MAPE表示平均百分误差越小越好适合观察相对误差水平。● EVS表示模型对数据波动的解释力度通常越接近1越好。● MSLE表示对数误差水平越小越好可作为辅助参考。● 精确率表示模型判定为某类时有多大概率判对越高越好。● 召回率表示某类别真实样本被识别出来的比例越高越好。● f1-score综合反映精确率与召回率的平衡情况越高越好。● 样本数表示对应类别参与评估的样本量样本量过少时该类指标波动可能更大。4.表4交叉验证模型评估结果或测试集模型评估结果交叉验证模型评估结果仅在开启交叉验证时输出用于观察模型在重复划分训练数据后的稳定表现测试集模型评估结果用于判断模型在未参与训练的数据上的实际表现。● 如果交叉验证结果与训练集结果接近通常说明模型稳定性较好。● 如果测试集表现明显弱于训练集通常说明模型在新样本上的泛化能力一般后续可考虑调整参数或优化数据。5.表5模型汇总表该表格用于集中展示模型参数设置及模型评估效果便于快速回顾本次分析方案。● 参数名表示本次分析采用的参数项目。● 参数值表示对应参数的实际设定作用是帮助复现实验过程。● 模型评估效果用于汇总关键效果指标。若准确率及综合平均指标较高通常说明模型整体表现较好。6.表6数据集情况该表格用于展示训练集、测试集、预测集和缺失数据的数量与占比。● 训练集用于模型学习比例过低时模型可能学得不充分。● 测试集用于检验模型实际效果过少时评估稳定性可能不足。● 预测集表示仅用于生成预测结果的数据。● 缺失数据表示未能进入分析的数据量若占比偏高需要关注数据完整性问题。六、分析结果图表及其解读SPSSAU完成LightGBM分析后会输出特征权重图分类任务下还会输出测试集结果混淆矩阵。1.图1特征权重图该图表本质上是条形图用于直观展示各特征在模型中的相对重要性。● 条形越长通常说明该特征对模型结果影响越大。● 如果少数变量明显高于其他变量说明模型更依赖这些关键特征。2.图2测试集结果混淆矩阵该图表在分类任务下输出用于查看真实类别与预测类别之间的对应关系是判断分类效果的直观图形。● 如果对角线位置数值更集中、更高通常说明模型分类更准确。● 如果非对角线位置数值较多说明某些类别更容易被混淆。以上就是SPSSAU LightGBM的相关内容更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。