最近收缩质心算法：高维小样本分类利器

张

张建站

2026/6/22 12:40:02

10分钟阅读

1. 最近收缩质心算法解析最近收缩质心Nearest Shrunken Centroids, NSC是一种经典的监督分类算法特别适用于高维小样本数据集。我第一次接触这个方法是在分析基因微阵列数据时当时就被它处理高维特征的独特方式所吸引。NSC本质上是对线性判别分析LDA的改进通过引入收缩阈值来减少噪声特征的影响。想象你有一堆杂乱无章的数据点NSC就像个聪明的园丁不仅能找到每类数据的中心位置质心还会把那些不重要的特征维度修剪掉。这种特性使得它在生物信息学、文本分类等领域表现尤为突出。算法核心在于三个关键操作质心计算、收缩处理和分类决策。与常见的KNN或SVM不同NSC在训练阶段就会对特征进行选择性过滤这带来两个显著优势一是模型可解释性强能直观看到哪些特征对分类起决定性作用二是计算效率高预测时只需简单比较测试样本与各质心的距离。2. 数学原理与收缩机制2.1 质心计算基础对于包含K个类别的数据集NSC首先计算每个类别的质心均值向量。设第k类的样本集合为Cₖ其质心μₖ的第j个特征分量为μₖⱼ (1/|Cₖ|) Σ xⱼ (x ∈ Cₖ)同时计算所有数据的全局质心μ的第j个特征μⱼ (1/N) Σ xⱼ (x ∈ 全体数据)这个全局质心将作为收缩的基准点相当于给算法一个原点参考。2.2 收缩公式解析NSC最精髓的部分在于特征收缩。定义差异统计量dₖⱼdₖⱼ (μₖⱼ - μⱼ) / (mₖ · sⱼ)其中mₖ √(1/|Cₖ| - 1/N)sⱼ是第j个特征的类内标准差估计。这个标准化过程使得不同尺度的特征具有可比性。收缩操作通过阈值Δ控制dₖⱼ sign(dₖⱼ)(|dₖⱼ| - Δ)₊这里的(·)₊表示取正值部分。当|dₖⱼ| ≤ Δ时该特征差异将被置零相当于移除了该维度对分类的影响。经过反变换得到收缩后的质心μₖⱼ μⱼ mₖ · sⱼ · dₖⱼ提示Δ的选择至关重要太大导致特征过度收缩太小则降噪不充分。实践中常用交叉验证确定最优值。3. Python实现详解3.1 基于scikit-learn的实现虽然scikit-learn没有直接提供NSC实现但我们可以组合现有模块构建from sklearn.base import BaseEstimator, ClassifierMixin from sklearn.utils.validation import check_X_y, check_is_fitted import numpy as np class NearestShrunkenCentroid(BaseEstimator, ClassifierMixin): def __init__(self, delta0.5): self.delta delta def fit(self, X, y): X, y check_X_y(X, y) self.classes_ np.unique(y) self.centroids_ {} self.global_centroid_ X.mean(axis0) for cls in self.classes_: X_cls X[y cls] m_k np.sqrt(1/X_cls.shape[0] - 1/X.shape[0]) s X.std(axis0, ddof1) d_kj (X_cls.mean(axis0) - self.global_centroid_) / (m_k * s) d_kj_shrunk np.sign(d_kj) * np.maximum(np.abs(d_kj) - self.delta, 0) self.centroids_[cls] self.global_centroid_ m_k * s * d_kj_shrunk return self def predict(self, X): check_is_fitted(self) distances np.zeros((X.shape[0], len(self.classes_))) for i, cls in enumerate(self.classes_): distances[:,i] np.sum((X - self.centroids_[cls])**2, axis1) return self.classes_[np.argmin(distances, axis1)]3.2 关键参数调优delta参数控制收缩强度建议采用网格搜索确定from sklearn.model_selection import GridSearchCV param_grid {delta: np.linspace(0, 2, 20)} grid GridSearchCV(NearestShrunkenCentroid(), param_grid, cv5) grid.fit(X_train, y_train) print(f最佳delta值: {grid.best_params_[delta]})3.3 特征重要性分析NSC的一个优势是可直接观察各特征的重要性def plot_feature_importance(model, feature_names, top_n20): # 计算各类别特征差异的L2范数 importance np.zeros(len(feature_names)) for cls in model.classes_: diff model.centroids_[cls] - model.global_centroid_ importance diff**2 indices np.argsort(importance)[-top_n:] plt.barh(range(top_n), importance[indices], aligncenter) plt.yticks(range(top_n), [feature_names[i] for i in indices]) plt.xlabel(Feature Importance) plt.show()4. 实战案例文本分类应用4.1 数据准备与预处理使用20 Newsgroups数据集演示from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import TfidfVectorizer categories [sci.med, sci.space, rec.sport.baseball] newsgroups fetch_20newsgroups(subsettrain, categoriescategories) vectorizer TfidfVectorizer(max_features1000) X vectorizer.fit_transform(newsgroups.data) y newsgroups.target4.2 模型训练与评估from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2) model NearestShrunkenCentroid(delta0.8).fit(X_train.toarray(), y_train) y_pred model.predict(X_test.toarray()) print(classification_report(y_test, y_pred, target_namesnewsgroups.target_names))典型输出结果precision recall f1-score support sci.med 0.91 0.85 0.88 102 sci.space 0.89 0.92 0.90 118 rec.sport.baseball 0.95 0.96 0.95 1064.3 关键特征解析查看对分类最重要的词汇特征plot_feature_importance(model, vectorizer.get_feature_names_out())通常会看到各类别最具区分性的术语如医学类中的patient、disease航天类的orbit、nasa棒球类的pitch、inning等。5. 性能优化与扩展5.1 稀疏矩阵支持原始实现需要稠密矩阵对于文本数据可优化为支持稀疏矩阵from scipy.sparse import issparse def predict(self, X): check_is_fitted(self) if issparse(X): X X.toarray() # 其余代码不变...5.2 多阈值策略不同特征可采用不同收缩阈值def fit(self, X, y, feature_deltasNone): # ... if feature_deltas is None: feature_deltas np.full(X.shape[1], self.delta) d_kj_shrunk np.sign(d_kj) * np.maximum(np.abs(d_kj) - feature_deltas, 0) # ...5.3 与PCA结合对于极高维数据可先进行降维from sklearn.decomposition import TruncatedSVD from sklearn.pipeline import make_pipeline pipeline make_pipeline( TruncatedSVD(n_components100), NearestShrunkenCentroid() )6. 常见问题与解决方案6.1 特征尺度不一致问题当特征量纲差异大时收缩效果不理想解决务必先进行标准化处理from sklearn.preprocessing import StandardScaler scaler StandardScaler() X_scaled scaler.fit_transform(X)6.2 类别不平衡处理问题少数类样本的质心估计不准解决在质心计算时引入类别权重from sklearn.utils.class_weight import compute_class_weight weights compute_class_weight(balanced, classesnp.unique(y), yy) for i, cls in enumerate(self.classes_): X_cls X[y cls] weighted_mean np.average(X_cls, axis0, weightsweights[i])6.3 高维小样本过拟合问题当特征数样本数时容易过拟合解决增加收缩强度或先进行特征筛选from sklearn.feature_selection import SelectKBest, chi2 selector SelectKBest(chi2, k500) X_selected selector.fit_transform(X, y)7. 算法对比与选型建议7.1 与相关算法比较算法适用场景计算复杂度可解释性高维处理NSC小样本高维数据O(pn)优秀优秀逻辑回归中低维数据O(p²n)良好需正则化SVM各类数据O(n²~n³)较差核技巧随机森林大样本数据O(m√pnlogn)中等一般7.2 何时选择NSC特征数在100-10,000之间样本量小于特征数量级需要解释哪些特征驱动分类追求快速预测速度7.3 性能优化技巧对于p10,000的情况先进行特征初筛使用稀疏矩阵存储节省内存并行化质心计算过程采用渐进式收缩策略

BusKill USB安全线缆：硬件级数据保护方案解析

1. 硬件级数据保护方案：BusKill USB安全线缆深度解析在咖啡馆处理敏感文件时突然需要离开座位，或是边境检查时设备被强制扣留——这些场景下如何确保数据安全？BusKill给出了一种物理隔离触发式的解决方案。这套开源自毁系统通过磁吸式USB线缆…...

2026/5/8 13:43:29 阅读更多 →

深入理解Java垃圾回收机制原理

深入理解Java垃圾回收机制原理在Java的世界里，垃圾回收（Garbage Collection, GC）是自动内存管理的核心机制，它让开发者从繁琐的手动内存管理中解放出来。理解GC的工作原理对于优化程序性能、避免内存泄漏至关重要。本文将深入探…...

2026/5/8 13:43:31 阅读更多 →

Sakura编辑器宏的基本使用

参考资料初めてのサクラエディタマクロ（JScript版導入編）すぐに使えるJScript関数集マクロ専用関数/変数目录一. 宏的基本使用 1.1 指定宏脚本执行 1.2 登录宏脚本 1.3 宏脚本执行效果展示二. 宏案例一. 宏的基本使用 ⏹此处写一个简单的demo脚本 Sakura编辑器中还有…...

2026/5/8 9:57:32 阅读更多 →

PyGAD实战指南：5大工业级遗传算法应用与避坑手册

1. 为什么是PyGAD而不是自己手写遗传算法？在Python生态里，提到遗传算法（Genetic Algorithm），很多人第一反应是“得从零开始搭轮子”：初始化种群、定义适应度函数、写选择/交叉/变异逻辑、控制迭代终止条件……...

2026/6/21 0:06:51 阅读更多 →

emWin三大核心控件实战：进度条、单选按钮与滚动条开发指南

1. 项目概述：深入emWin三大核心控件的实战应用在嵌入式图形界面开发领域，SEGGER的emWin以其高效、稳定和丰富的控件库而著称。对于许多从单片机裸机开发转向带屏交互的工程师来说，如何高效、正确地使用这些控件，往往是项目从“能跑…...

2026/6/22 3:00:39 阅读更多 →

英雄联盟终极效率工具：League Akari 完全指南

英雄联盟终极效率工具：League Akari 完全指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款基于官方LCU API开…...

2026/6/22 5:43:39 阅读更多 →

Transformer 中的高效推理：推理时注意力压缩

Transformer 中的高效推理：推理时注意力压缩作者: Hao Sun, Yuxuan Li, Wei Lu 来源: https://arxiv.org/html/2606.20529v1摘要大型语言模型（LLMs）的部署成本高昂，主要受限于推理阶段的内存与计算开销。本文提出了一种推理时注…...

2026/6/21 0:09:56 阅读更多 →