聚类学习是一种无监督学习,是可以根据数据集中的自相似进行自动分类。
聚类的结果希望达成类内大相似,类间不相似的分类效果。
聚类分析的方法有很多,列举下:基于划分的聚类、基于层次的聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类等几种。
其中,基于层次聚类的聚类方法有:凝聚法和分裂法。
凝聚法是自底向上,逐步聚类,一开始将每个样本作为一个单独的组,然后相继地合并相近的对象或组,直到所有的组合并成一个,或者达到一个终止条件。
分裂法是自顶向下,逐步递归。一开始将所有样本置于一个簇中,在迭代的每一步中,一个簇被分裂为更小的簇,直到最终每个样本在单独的一个簇中。(这个不是分类算法)
基于密度的方法,代表算法是DBSCAN和OPTICS算法。
其中,DBSCAN是根据一个密度阈值来控制簇的增长。而 OPTICS算法是另一种基于密度的方法,它为自动的和交互的聚类分析计算一个聚类顺序。
基于划分的方法有:K-均值、K-众数、CLARA、CLARANS、FCM等。
基于网格的方法把样本空间量化为有限数目的单元,形成了一个网格结构,所有的聚类操作都在这个网格结构上进行。这种方法的主要优点是它的处理速度很快,其处理时间独立与数据样本的数目,只与量化空间中的每一位的单元数目有关。典型的方法有:STING和WaveCluster。
基于模型的方法,为每一个簇假定了一个模型,寻找数据对给定模型的最佳组合。一个基于模型的算法可能通过构建反映数据点空间分布的密度函数来定位聚类。它也基于标准的统计数字自动决定聚类的数目,考虑“噪声”数据或孤立点,从而产生健壮的聚类方法,典型的方法有:COBWEB和CLASSIT。