R语言PCA可视化：用ggplot2给鸢尾花数据加置信椭圆（附完整代码）

张

张建站

2026/7/31 18:38:25

10分钟阅读

R语言PCA可视化实战用ggplot2为鸢尾花数据绘制精美置信椭圆鸢尾花数据集作为统计学和机器学习领域的经典案例常被用于演示分类算法和降维技术。主成分分析PCA能有效提取数据关键特征而置信椭圆则直观展示不同类别数据的分布范围。本文将手把手教你如何用R语言的ggplot2包为鸢尾花PCA结果添加专业级置信椭圆。1. 环境准备与数据加载在开始之前确保已安装必要的R包。如果尚未安装可以通过以下命令获取install.packages(c(ggplot2, dplyr))加载所需库并查看数据概览library(ggplot2) library(dplyr) head(iris)鸢尾花数据集包含150个样本每个样本有4个特征萼片长度、萼片宽度、花瓣长度、花瓣宽度和1个分类标签setosa、versicolor、virginica。我们将使用前4个数值型变量进行PCA分析。2. 主成分分析实现R语言提供了多个PCA函数最常用的是prcomp()和princomp()。两者计算原理相似但输出格式略有不同。这里我们使用prcomp()# 执行PCA分析 pca_result - prcomp(iris[, 1:4], scale. TRUE) # 查看PCA结果摘要 summary(pca_result)提示scale.TRUE参数会对数据进行标准化处理消除不同特征量纲的影响这在变量单位不一致时尤为重要。PCA结果中sdev表示各主成分的标准差rotation是特征向量载荷矩阵x则是转换后的主成分得分。我们可以提取前两个主成分用于可视化# 创建包含主成分得分和原始分类的数据框 pca_data - data.frame( PC1 pca_result$x[, 1], PC2 pca_result$x[, 2], Species iris$Species )3. 基础PCA可视化在添加置信椭圆前先绘制基本的PCA散点图# 计算各主成分的方差贡献率 var_exp - pca_result$sdev^2 / sum(pca_result$sdev^2) ggplot(pca_data, aes(x PC1, y PC2, color Species)) geom_point(size 3) labs( x paste0(PC1 (, round(var_exp[1] * 100, 1), %)), y paste0(PC2 (, round(var_exp[2] * 100, 1), %)), title 鸢尾花数据集PCA分析 ) theme_minimal()这段代码会生成一个彩色散点图不同颜色的点代表不同鸢尾花品种。x轴和y轴标签自动包含了各主成分解释的方差百分比。4. 置信椭圆绘制详解ggplot2的stat_ellipse()函数可以方便地添加置信椭圆。该函数有几个关键参数需要理解type指定椭圆计算的统计假设norm基于多元正态分布默认t基于多元t分布更保守level置信水平默认为0.95即95%置信区间geom指定椭圆的表现形式path仅绘制椭圆轮廓polygon填充椭圆区域4.1 基本置信椭圆实现为每个品种添加95%置信椭圆填充效果ggplot(pca_data, aes(x PC1, y PC2, color Species)) stat_ellipse( aes(fill Species), type norm, geom polygon, alpha 0.2, level 0.95 ) geom_point(size 3) labs( x paste0(PC1 (, round(var_exp[1] * 100, 1), %)), y paste0(PC2 (, round(var_exp[2] * 100, 1), %)) ) theme_minimal()4.2 椭圆样式自定义通过调整参数可以创建不同风格的置信椭圆ggplot(pca_data, aes(x PC1, y PC2, color Species)) stat_ellipse( aes(fill Species), type t, # 使用t分布假设 geom polygon, alpha 0.1, level 0.99, # 99%置信区间 linetype 2, # 虚线边框 size 0.5 # 边框线粗细 ) geom_point(size 3, alpha 0.8) scale_fill_brewer(palette Set1) scale_color_brewer(palette Set1) labs( x paste0(PC1 (, round(var_exp[1] * 100, 1), %)), y paste0(PC2 (, round(var_exp[2] * 100, 1), %)), title 鸢尾花PCA分析99%置信区间 ) theme_bw()5. 高级美化技巧5.1 分面显示当类别较多或重叠严重时可以使用分面(facet)功能ggplot(pca_data, aes(x PC1, y PC2, color Species)) stat_ellipse( aes(fill Species), type norm, geom polygon, alpha 0.2 ) geom_point(size 2) facet_wrap(~Species) labs( x paste0(PC1 (, round(var_exp[1] * 100, 1), %)), y paste0(PC2 (, round(var_exp[2] * 100, 1), %)) ) theme_minimal() theme(legend.position none) # 移除图例5.2 添加密度等高线结合geom_density_2d()可以进一步增强可视化效果ggplot(pca_data, aes(x PC1, y PC2, color Species)) stat_ellipse( aes(fill Species), type norm, geom polygon, alpha 0.1 ) geom_density_2d(alpha 0.5, size 0.5) geom_point(size 2, alpha 0.7) labs( x paste0(PC1 (, round(var_exp[1] * 100, 1), %)), y paste0(PC2 (, round(var_exp[2] * 100, 1), %)) ) theme_minimal()5.3 保存高质量图片使用ggsave()保存适合发表的图片final_plot - ggplot(pca_data, aes(x PC1, y PC2, color Species)) stat_ellipse( aes(fill Species), type norm, geom polygon, alpha 0.2 ) geom_point(size 3) labs( x paste0(PC1 (, round(var_exp[1] * 100, 1), %)), y paste0(PC2 (, round(var_exp[2] * 100, 1), %)) ) theme_minimal() ggsave(iris_pca_ellipse.png, final_plot, width 8, height 6, dpi 300)6. 实际应用中的注意事项数据标准化PCA对变量的尺度敏感确保使用scale.TRUE或提前标准化数据置信水平选择科研论文常用95%置信水平更严格的场景可使用99%探索性分析可降低至90%分布假设选择数据接近正态分布时使用typenorm存在离群值时考虑typet类别重叠解读椭圆重叠度高表明类别区分度低完全分离的椭圆表示类别特征差异明显高维数据扩展对于更高维数据可考虑绘制PC1-PC3等组合使用3D散点图展示多主成分关系# 示例3D PCA绘图需要rgl包 library(rgl) plot3d( x pca_data$PC1, y pca_data$PC2, z pca_result$x[, 3], col as.numeric(pca_data$Species), size 5, xlab paste0(PC1 (, round(var_exp[1] * 100, 1), %)), ylab paste0(PC2 (, round(var_exp[2] * 100, 1), %)), zlab paste0(PC3 (, round(var_exp[3] * 100, 1), %)) ) legend3d(topright, legend levels(pca_data$Species), pch 16, col 1:3, cex 1)

别再只画散点图了！用Statsmodels的Lowess为你的数据加上‘趋势线’（附美国犯罪率案例）

用Lowess趋势线解锁散点图的隐藏洞察力：从美国犯罪率案例到实战技巧当数据点像夜空中的星星一样散落在图表上时，我们常常会陷入一种困境——能看见每一个点，却看不清整体的故事。这正是传统散点图的局限性：它展示了数据&#xff0…...

2026/7/31 18:39:02 阅读更多 →

告别数据孤岛：手把手教你用Apache Druid同时搞定Kafka实时流与HDFS离线数据

告别数据孤岛：Apache Druid实现Kafka与HDFS数据统一分析实战指南数据工程师最头疼的莫过于面对分散在不同系统中的数据——实时流数据在Kafka里奔涌，历史数据沉睡在HDFS中，每次分析都需要在不同系统间来回切换。这种割裂不仅降低效率&#xf…...

2026/7/31 20:03:19 阅读更多 →

CVI调用Word 97/2000自动化办公的全套可运行代码包（含接口封装、报表生成与COM控制示例）

本文还有配套的精品资源，点击获取简介：一套专为CVI开发者准备的Microsoft Word自动化集成资源，完整支持Word 97和Word 2000两个版本。包含底层COM接口调用源码（word97.c / word2000.c）、统一抽象封装实现&#xff…...

2026/7/31 19:58:07 阅读更多 →

深度学习YOLO模型如何训练 PUBG 绝地求生目标检测数据集

pubg数据集精选原图1.42万数据 1.49万标签无任何重复、算法增强或冗余图像！ pubg绝地求生目标检测数据集 1分类：e_body，14905个标签，txt格式共计14244张图，99%为640*640尺寸图像适合yolo目标检测、AI训练关键词&am…...

2026/7/31 3:44:27 阅读更多 →

OpenCore黑苹果安装指南：5步打造完美的macOS系统

OpenCore黑苹果安装指南：5步打造完美的macOS系统【免费下载链接】OpenCore-Install-Guide Repo for the OpenCore Install Guide 项目地址: https://gitcode.com/gh_mirrors/op/OpenCore-Install-Guide OpenCore是目前最专业、最稳定的黑苹果引导工具&#…...

2026/7/31 6:39:04 阅读更多 →