KMeans聚类实战：用RFM模型给电商用户分群，制定精准营销策略（Python+sklearn）

张

张建站

2026/6/1 2:14:56

10分钟阅读

KMeans聚类实战用RFM模型给电商用户分群制定精准营销策略Pythonsklearn电商平台每天产生海量用户交易数据如何从这些数据中挖掘用户价值是每个运营团队的核心课题。RFM模型作为经典的客户价值分析框架结合KMeans聚类算法能够将看似杂乱无章的消费行为转化为清晰的用户分群画像。本文将手把手带您完成从数据清洗到策略落地的全流程实战。1. 理解RFM模型与KMeans的协同价值RFM模型通过三个核心维度评估用户价值Recency最近购买时间用户最后一次消费距今的天数Frequency购买频率特定时间段内的消费次数Monetary消费金额用户贡献的总交易额这三个维度恰好构成三维特征空间而KMeans算法正是处理此类空间聚类的利器。当我们将标准化后的RFM数据输入KMeans模型时算法会自动寻找数据中的自然分群边界避免了人工划分的主观性。实际业务中常见五种典型用户群体高价值用户高R/F/M需重点维护潜力用户高F/M但R较低需唤醒策略新用户高R但F/M低需培养消费习惯流失风险用户R/F/M均中等需预防流失休眠用户R/F/M均低可降低运营成本2. 数据准备与RFM指标计算假设我们有一份包含用户ID、订单日期和订单金额的交易数据首先需要构建RFM特征import pandas as pd from datetime import datetime # 示例数据加载 transactions pd.read_csv(user_transactions.csv) transactions[order_date] pd.to_datetime(transactions[order_date]) # 设置分析时间点通常为最近日期 snapshot_date transactions[order_date].max() pd.Timedelta(days1) # 计算RFM指标 rfm transactions.groupby(user_id).agg({ order_date: lambda x: (snapshot_date - x.max()).days, # Recency order_id: count, # Frequency amount: sum # Monetary }).rename(columns{ order_date: recency, order_id: frequency, amount: monetary })此时得到的RFM数据往往存在量纲差异需要进行标准化处理from sklearn.preprocessing import StandardScaler scaler StandardScaler() rfm_scaled pd.DataFrame( scaler.fit_transform(rfm), columnsrfm.columns, indexrfm.index )3. 确定最佳聚类数量KMeans需要预先指定聚类数量K两种常用方法帮助决策3.1 肘部法则Elbow Method通过观察不同K值对应的惯性inertia变化曲线from sklearn.cluster import KMeans import matplotlib.pyplot as plt inertias [] for k in range(1, 11): kmeans KMeans(n_clustersk, random_state42) kmeans.fit(rfm_scaled) inertias.append(kmeans.inertia_) plt.plot(range(1, 11), inertias, markero) plt.xlabel(Number of clusters) plt.ylabel(Inertia) plt.show()当曲线拐点肘部出现时对应的K值通常是最佳选择。3.2 轮廓系数分析轮廓系数衡量样本与自身簇和其他簇的相似度from sklearn.metrics import silhouette_score silhouette_scores [] for k in range(2, 11): kmeans KMeans(n_clustersk, random_state42) cluster_labels kmeans.fit_predict(rfm_scaled) silhouette_scores.append(silhouette_score(rfm_scaled, cluster_labels)) plt.plot(range(2, 11), silhouette_scores, markero) plt.xlabel(Number of clusters) plt.ylabel(Silhouette Score) plt.show()轮廓系数越接近1表示聚类效果越好。4. 构建KMeans模型与结果解读选定K值后训练最终模型# 假设通过上述方法确定K5 final_kmeans KMeans(n_clusters5, random_state42) rfm[cluster] final_kmeans.fit_predict(rfm_scaled)分析各簇特征时可计算簇中心的原始RFM值cluster_centers pd.DataFrame( scaler.inverse_transform(final_kmeans.cluster_centers_), columnsrfm.columns[:-1] ) cluster_centers[count] rfm[cluster].value_counts().sort_index()典型分群结果可能呈现如下特征聚类Recency均值Frequency均值Monetary均值用户数业务标签015天8次¥58001200高价值用户185天5次¥32002500潜力用户25天2次¥8001800新用户345天3次¥15003000一般用户4120天1次¥5001500休眠用户5. 制定精准营销策略基于聚类结果设计差异化运营方案高价值用户群体策略提供VIP专属优惠和优先购买权定期发送个性化推荐基于购买历史设置专属客服通道潜力用户唤醒方案发送限时优惠券针对历史购买品类开展老用户回归专项活动推送库存预警信息针对常购商品注意策略执行后需持续监控各群体转化率建议设置A/B测试评估不同策略效果通过完整的RFM-KMeans分析流程电商企业可以显著提升营销资源利用效率。实际项目中可进一步结合用户 demographics 数据或浏览行为数据构建更精细化的用户分群模型。

深入QueryPerformanceCounter：从TSC到硬件计数器，揭秘Windows高精度计时背后的原理与坑

深入QueryPerformanceCounter：从TSC到硬件计数器，揭秘Windows高精度计时背后的原理与坑在性能敏感型应用的开发中，时间测量的精度往往直接决定了分析结果的可靠性。当开发者从Linux环境转向Windows平台时，常会遇到一个核心问题&am…...

2026/6/1 2:14:00 阅读更多 →

手把手教你用HybridCLR（原Huatuo）实现Unity全平台C#热更新，告别Lua和ILRuntime

深度解析HybridCLR：Unity全平台C#热更新的终极解决方案在移动游戏开发领域，热更新技术早已成为项目标配。传统方案如Lua或ILRuntime虽然成熟，却始终存在性能损耗、开发体验割裂等问题。HybridCLR的出现彻底改变了这一局面——它让开发者能够使…...

2026/6/1 2:13:05 阅读更多 →

用Python和NumPy手把手教你计算多元高斯分布的概率密度（附代码示例）

用Python和NumPy手把手实现多元高斯分布概率密度计算在机器学习与数据分析领域，多元高斯分布（又称多元正态分布）是最基础也最重要的概率分布之一。无论是高斯混合模型、异常检测还是贝叶斯分类器，都建立在对多元高斯分布的深刻理解…...

2026/6/1 2:11:09 阅读更多 →

AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现）

更多请点击： https://intelliparadigm.com 第一章：AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现） 2024年，全球创意产业迎来关键拐点：AI不再作为边缘工具，而是深度嵌入创意工…...

2026/6/1 2:30:08 阅读更多 →

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式开源声明本文完全开源、无版权限制、公开通用，允许所有开发者、科研机构、技术团队无偿引用、落地、迭代、二次开发，助力人工智能长期记忆体系技术革新。作者：杨建…...

2026/6/1 2:30:09 阅读更多 →

单片机IIC实验

单片机 ：STM32F407 开发板：DMF407电机开发板平台：keil V5.31HSE 为8MHZ HSI为16MHZ原理图：主函数：int main(void) {uint8_t key;uint16_t i 0;uint8_t datatemp[TEXT_SIZE];HAL_Init(); …...

2026/6/1 2:30:08 阅读更多 →