聚类分析之K-means算法

聚类分析是根据数据之间的自相似自动分类的。

分类的结果是,类内大相似,类间不相似或小相似。

聚类的分类方法有:

1.划分
2.层次
3.基于密度
4.基于网络
5.基于模型

划分聚类:

K-Means算法

将数据集划分为K个簇,每隔簇内部的样本都相似。主要步骤:
1.确定K个簇。
2.计算距离并进行归类
3.重新定K。
当出现单一条件不同、标准不同时,需要对数据进行归一化处理。

常见的有:
(x-min)/(max-min)
但是K-means由于其本身选取的是均值作为?

有一定的局限性:
1.不适用于非数值型数据,如分类数据,序列数据,且容易受极值的影响
2.K-means算法是对初始值敏感的,如果起初随意定初始值很可能无法迭代到本该的最优点。
3.K-means算法倾向于聚类后的半径相近,倾向于密度均匀的聚类
4.无法聚类出有型的点(一般只能用于球形)

鉴于K-means算法的缺点,可以使用,K-mediods,K-modes,K-prototype,二分 K-means算法进行替代

层次聚类

分为凝聚法和分裂法。