选择聚类分析方法

本主题提供的统计和机器学习工具箱™可用聚类方法的简要概述。

聚类方法

聚类分析, 也叫细分分析要么分类分析,是一种常见的无监督学习方法。无监督学习用于绘制选自输入数据,而不标记响应的数据集的推论。例如,你可以使用聚类分析探索性数据分析找出隐藏的图案或分组中未标记的数据。

聚类分析创建组,或集群, 数据的。属于同一群集对象是彼此相似的和不同的来自属于不同簇的对象。为了量化“类似”和“不同,”你可以用一个相异性度量(或距离度量)特定于应用程序的域和数据集。另外,根据您的应用程序,你可能会考虑缩放(或规范)的数据变量给他们聚集在同等的重要性。

统计和机器学习工具箱这些聚类方法提供的功能:

分层聚类

分层聚类群体在各种规模的数据通过创建一个集群树,或树状图。树是不是一个单一集群集合,而是一个多层次结构,其中在一个水平集群结合起来,形成以一个新的水平集群。这种多层次的等级可以让你选择的级别,或规模化,集群化是最适合你的应用程序。分层聚类分配在你的数据群集中的每个点。

采用Cluster数据对输入数据执行分级聚类。Cluster数据采用了pdist连锁功能,您可以更详细的分析分开使用。该树状图功能绘制集群树。欲了解更多信息,请参阅简介分层聚类

ķ-Means和ķ-Medoids聚类

ķ-means集群和ķ-medoids聚类分区数据到ķ互斥集群。这些聚类方法需要您指定集群的数量ķ。都ķ-means和ķ-medoids群集分配在你的数据群集中的每个点;然而,不同于分层聚类,这些方法在实际观测(而不是相异措施)进行操作,并创建群集的一个级别。因此,ķ-means或ķ-medoids聚类通常比用于大量数据的分级聚类更合适。

采用k均值kmedoids实施ķ-means集群和ķ-medoids聚类,分别。欲了解更多信息,请参阅简介ķ-Means聚类ķ-Medoids聚类

算法与噪声的基于密度空间聚类(DBSCAN)

DBSCAN是基于密度的算法,该算法识别任意形状的簇和在数据异常值(噪声)。在聚类,DBSCAN识别点不属于任何簇,这使得离群基于密度的检测这种方法是有用的。不像ķ-means和ķ-medoids聚类,DBSCAN不需要集群的数量的先验知识。

采用DBSCAN对输入数据矩阵或上观测之间的成对距离进行聚类。欲了解更多信息,请参阅介绍DBSCAN

高斯混合模型

高斯混合模型(GMM)形成簇多元正态密度的组分的混合物。对于给定的观察,GMM受让人后验概率给每个部件密度(或群集)。后验概率表明观测具有属于每个集群的一些可能性。一个GMM可以执行通过选择最大化后验概率作为用于观察所分配的集群组件聚类。你也可以使用一个GMM执行柔软的, 要么模糊,通过分配观察基于得分或观察的簇后验概率多个集群聚类。甲GMM可以比一个更合适的方法ķ-means聚类当簇具有不同的尺寸和在其中不同的相关结构。

采用fitgmdist以适应gmdistribution反对您的数据。您还可以使用gmdistribution通过指定分配参数创建一个GMM对象。当你有一个装GMM,您可以通过使用集群查询数据功能。欲了解更多信息,请参阅集群中使用高斯混合模型

ķ-Nearest邻搜索和搜索半径

ķ-nearest邻居搜索找到ķ最近点在你的数据的查询点查询点或集。相比之下,半径搜索查找所有点的数据来自查询点的指定距离内或设置的查询点这一点。这些方法的结果取决于距离度量您指定。

使用knnsearch功能查找ķ-nearest邻居或rangesearch功能找到你的输入数据的指定距离内的所有邻居。您也可以使用训练数据集创建一个搜索对象,并传入对象和查询数据集对象功能(knnsearchrangesearch)。欲了解更多信息,请参阅分类使用近邻

谱聚类

谱聚类是发现基于图的算法ķ任意形状的数据簇。该技术涉及表示一个低维的数据。在低维,在数据簇被更广泛地分开,以便只使用算法如ķ-means或ķ-medoids集群。该低维度基于拉普拉斯矩阵的特征向量。拉普拉斯矩阵是表示相似性图的一个方式,模型数据点之间的局部邻域的关系为无向图。

采用spectralcluster对输入数据矩阵或上的相似曲线图的相似性矩阵执行谱聚类。spectralcluster要求您指定集群的数量。然而,该算法谱聚类还提供估算数据簇的数量的方法。欲了解更多信息,请参阅分区数据使用谱聚类

聚类方法的比较

下表比较在统计和机器学习工具箱中可用聚类方法的特点。

方法 算法的基础 输入算法 集群需要指定数量的 集群形状鉴定 有用的异常检测
分层聚类 对象之间的距离 观测值之间成对距离 没有 任意形状的集群,根据指定的'连锁'算法 没有
K-均值聚类K-中心点划分聚类 对象和质心之间的距离 实际观察 球状集群,等于对角协方差 没有
算法基于密度空间聚类与噪声(DBSCAN 在数据区的密度 实际观察或观测之间成对距离 没有 任意形状的集群
高斯混合模型 高斯分布的混合 实际观察 球状簇具有不同协方差结构
最近邻 对象之间的距离 实际观察 没有 任意形状的集群 是的,这取决于邻居指定数量
谱聚类(分区数据使用谱聚类 图表表示的数据点之间的连接 实际观测或相似性矩阵 是的,但该算法还提供了估计簇的数量的方式 任意形状的集群 没有

相关话题