K-Means聚类及sklearn实现
本文章将从数学及代码角度阐述K-Means聚类方法的原理及应用。
聚类分析允许我们找到相似样本或者feature的组,这些对象之间的相关性更强。 常见的用途有包括按照不同的基因表达情况对样本进行分组,或者根据不同样本的分类对基因进行分组等。 本文将会介绍聚类算法中的k-means:
- k-means聚类的基本概念
- k-means 算法背后的数学原理
- k-means的优缺点
- 使用scikit-learn 包实现
- 可视化分类
- 选择最优的k
k-means聚类的基本概念
k-means是一种高效的无监督的聚类方法,最初用于信号处理,旨在将n个观测值划分为k个簇,其中每个观测值都属于具有最近均值的簇(簇中心或簇质心),作为群。很容易混淆的另一种聚类方法是监督学习算法k-nearest neighbors (KNN),需要注意。
……