机器学习实战：从Kaggle信用卡欺诈数据看样本不平衡的破局之道

张

张建站

2026/7/4 1:58:15

10分钟阅读

1. 信用卡欺诈检测的样本不平衡挑战信用卡欺诈检测是金融风控领域的经典问题但真实场景中欺诈交易占比通常不足0.2%。以Kaggle提供的欧洲信用卡交易数据为例284,807笔交易中仅有492笔欺诈案例正负样本比例达到惊人的1:578。这种极端不平衡的数据分布会给机器学习模型带来三个致命问题首先模型会陷入多数派陷阱。我曾在一个银行项目中见过准确率99.9%的模型细看发现只是把所有样本预测为正常交易。这种模型在实际业务中完全失效因为漏掉任何一个欺诈交易都可能造成巨额损失。其次传统评估指标失灵。准确率(Accuracy)在这里毫无意义我们需要更精细的指标召回率(Recall)捕获了多少真实欺诈避免漏网精确率(Precision)预测为欺诈的案例中有多少真实欺诈避免误杀F1-Score召回与精确的调和平均AUC-ROC模型区分正负样本的能力最后模型训练过程会天然偏向多数类。想象教孩子识别熊猫时如果给他看1000张狗和1张熊猫的照片他很可能把所有动物都认成狗。同样我们的模型也需要特殊处理才能看见那些稀有的欺诈模式。2. 数据探索中的关键发现2.1 正负样本分布可视化用Seaborn绘制样本分布时欺诈案例的柱状图几乎看不见。转用对数坐标后我们发现两个有趣现象plt.figure(figsize(12,6)) plt.subplot(121) sns.countplot(xClass, datadf) # 常规坐标 plt.subplot(122) plt.yscale(log) # 对数坐标 sns.countplot(xClass, datadf)2.2 交易金额的隐藏规律对比欺诈与非欺诈交易的金额分布欺诈交易集中在小额区间中位数9.25美元正常交易金额分布更广中位数22美元这符合犯罪心理学——小额交易不易触发风控警报。我曾处理过一个案例盗刷者通过200笔小于10美元的交易成功套现直到第3天才被发现。2.3 特征相关性差异通过热力图对比发现fraud_corr fraud_df.corr() nonfraud_corr nonfraud_df.corr() sns.heatmap(fraud_corr - nonfraud_corr, cmapcoolwarm)V10、V12、V14等特征在欺诈交易中呈现显著负相关而V2、V4、V11则显示正相关。这些PCA转换后的特征虽然业务含义不明但为模型提供了关键区分线索。3. 样本不平衡的解决方案3.1 过采样技术SMOTE详解SMOTE合成少数类过采样技术的工作原理就像数据插值对每个少数类样本找到其k近邻通常k5随机选择邻近样本在特征空间连线在线段上生成新样本实现代码示例from imblearn.over_sampling import SMOTE sm SMOTE(sampling_strategyminority, random_state42) X_res, y_res sm.fit_resample(X, y)但要注意两个坑数据泄露风险务必先拆分训练测试集再对训练集过采样边界模糊化过度SMOTE可能导致决策边界扭曲3.2 欠采样与组合策略对于特别大的数据集可以尝试NearMiss保留多数类中与少数类最相似的样本Tomek Links移除边界附近的多数类样本SMOTEENN先过采样再使用编辑最近邻清理噪声实际项目中我会先用SMOTE生成1:10的平衡比观察效果后再调整。4. 模型训练与评估实战4.1 逻辑回归的特别优势虽然xgboost等复杂模型效果更好但逻辑回归在欺诈检测中有独特优势可解释性强能分析特征系数概率输出稳定方便设置风险阈值训练速度快适合实时风控关键配置lr LogisticRegression( class_weightbalanced, # 自动类别加权 penaltyl1, # L1正则防止过拟合 solverliblinear, C0.1 # 正则强度 )4.2 阈值调优的艺术通过调整分类阈值可以在召回率和精确率之间找到业务平衡点from sklearn.metrics import precision_recall_curve precisions, recalls, thresholds precision_recall_curve(y_test, y_scores) plt.plot(thresholds, precisions[:-1], labelPrecision) plt.plot(thresholds, recalls[:-1], labelRecall)在银行项目中我们通常设置阈值使召回率达到95%以上同时控制误报率在可接受范围。4.3 模型评估矩阵完整的评估应该包括print(classification_report(y_test, y_pred)) plot_confusion_matrix(confusion_matrix(y_test, y_pred)) sklearn.metrics.plot_roc_curve(lr, X_test, y_test)特别要关注欺诈类的召回率避免漏检正常类的精确率减少误杀AUC值整体区分能力5. 进阶优化策略5.1 特征工程再思考虽然V1-V28是PCA结果但我们还能创建时间窗口特征如最近1小时交易次数金额分段离散化0-10, 10-50, 50美元交互特征如V14*Amount5.2 异常检测结合使用Isolation Forest捕捉极端异常from sklearn.ensemble import IsolationForest clf IsolationForest(contamination0.01) clf.fit(X_train) anomaly_scores clf.decision_function(X_test)5.3 在线学习机制对于流式数据可以设置时间衰减因子让模型关注近期模式定期增量训练适应新型欺诈手段建立异常案例人工复核闭环在实际业务中没有一劳永逸的解决方案。我们团队会每周分析误报案例持续优化特征和模型。记住好的风控系统是60%算法30%业务理解10%运气。

SpringBoot集成Redis：性能优化与实战应用

1. 为什么SpringBoot项目需要Redis在Web应用开发中，数据访问性能往往是系统瓶颈所在。传统关系型数据库在应对高并发请求时，磁盘I/O和复杂查询会成为性能杀手。我经历过一个电商项目，促销期间数据库QPS达到5000时，响应时间从平时的…...

2026/7/4 1:58:03 阅读更多 →

SpringBoot项目性能调优，这几个配置修改立竿见影

你的SpringBoot应用上线后响应越来越慢，CPU和内存报警频发，你怀疑是代码写得不够好，或者需要上微服务？实际上，绝大多数性能问题根源在于默认配置的保守。SpringBoot为了兼容性，大量参数采用“保底”设置&am…...

2026/7/4 1:56:56 阅读更多 →

Spring Boot请求参数处理与Postman测试指南

1. Spring Boot请求参数处理机制解析在Web开发中，请求参数的接收是基础但至关重要的环节。Spring Boot通过一系列注解简化了参数绑定过程，这些注解根据参数来源和格式的不同，分别对应着特定的数据处理逻辑。理解这些注解的差异和使用场景&…...

2026/7/4 1:55:19 阅读更多 →

四六级备考时间安排|2026年四六级资料|四六级考试材料

四六级备考时间安排|2026年四六级资料|四六级考试材料资料全科都有2026年四六级资料 PDFhttps://tool.nineya.com/s/1jpf2t49o【英语真题】1. "Arrangement" most probably means（ ） A. 安排，布置 B. 取消 C. 延迟 D. 忽略答案&…...

2026/7/3 17:43:35 阅读更多 →