本主题简要介绍了统计和机器学习工具箱™中的可用聚类方法。
聚类分析, 也叫分割分析或者分类分析,是一种常见的无监督学习方法。无监督的学习用于从包含输入数据组成的数据集的推论,而无需标记响应。例如,您可以使用群集分析进行探索性数据分析,以查找未标记数据中的隐藏模式或分组。
群集分析创建组,或簇生, 数据的。属于同一群集的对象与彼此相似,并与属于不同群集的对象不同。量化“相似”和“独特”,您可以使用不相似度量(或距离度量)特定于应用程序和数据集的域。此外,根据您的应用程序,您可能会考虑缩放(或标准化)数据中的变量,以便在群集期间给出它们的相同程度。
统计和机器学习工具箱为这些群集方法提供功能:
通过创建群集树或通过创建群集树,或树枝图。树不是单一的群集,而是一个多级层次结构,其中一个级别的群集组合以在下一个级别形成群集。此多级层次结构允许您选择最适合您应用程序的级别或比例的级别或比例。分层群集将数据中的每个点分配给群集。
用clusterdata.
在输入数据上执行分层群集。clusterdata.
包含这一件Pdist.
那连锁
, 和簇
功能,您可以单独使用以进行更详细的分析。这树枝图
函数绘制群集树。有关更多信息,请参阅分层群集介绍。
K.- 梅尔斯聚类和K.-MEDOIDS将分区数据集聚到K.相互独家集群。这些群集方法要求您指定群集的数量K.。两个都K.- 梅斯和K.-Medoids群集将数据中的每个点分配给群集;但是,与分层聚类不同,这些方法对实际观察(而不是不同的措施)运行,并创建单个级别的群集。所以,K.- 梅斯或者K.-Medoids聚类通常比大量数据的分层聚类更合适。
用威彻斯
和kыinoids.
实施K.- 梅尔斯聚类和K.-MEDOIDS聚类。有关更多信息,请参阅介绍K.- 梅尔集群和K.-meptoids聚类。
DBSCAN是一种基于密度的算法,其识别数据中的任意形状的群集和异常值(噪声)。在群集期间,DBSCAN标识不属于任何群集的点,这使得该方法可用于基于密度的异常检测。不像K.- 梅斯和K.-MEDOIDS聚类,DBSCAN不需要先验知识的群集。
高斯混合模型(GMM)形成簇作为多元正常密度组分的混合物。对于给定的观察,GMM为每个分量密度(或群集)分配后验概率。后验概率表明观察结果对每个群集具有一些概率。GMM可以执行难的通过选择最大化后概率作为分配的集群的组件来聚类。您还可以使用GMM执行柔软的, 或者模糊,通过将观察分配到多个集群基于簇的观察的分数或后验概率来分配观察。GMM可以是更合适的方法K.- 当群集具有不同大小和它们内部的不同相关结构时,群集群集。
用Fitgmdist.
适合A.GMDistribution.
对象到您的数据。你也可以使用GMDistribution.
通过指定分发参数来创建GMM对象。当您有一个装配的GMM时,可以使用群集查询数据簇
功能。有关更多信息,请参阅使用高斯混合模型的集群。
K.- 最终搜索找到了K.数据中最近的点到查询点或查询点集。相比之下,RADIUS搜索查找数据中的所有点在距查询点或查询点集中的指定距离内。这些方法的结果取决于距离度量你指定的。
使用knnsearch.
找到的功能K.- 最邻居或者rangesearch.
在输入数据的指定距离内找到所有邻居的功能。您还可以使用培训数据集创建搜索器对象,并将对象和查询数据集传递给对象功能(knnsearch.
和rangesearch.
)。有关更多信息,请参阅使用最近邻居分类。
光谱簇是一种基于图形的查找算法K.数据中的任意形状簇。该技术涉及表示低维中的数据。在低维度中,数据中的集群更广泛分开,使您能够使用算法,如K.- 梅斯或者K.-meptoids聚类。这种低尺寸基于拉普拉斯基质的特征向量。拉普拉斯矩阵是表示在数据点之间的本地邻域关系模拟作为无向图形的一种方式。
用光谱CLUSTER.
在输入数据矩阵上或在相似图的相似性矩阵上执行光谱群集。光谱CLUSTER.
要求您指定群集的数量。然而,频谱群集的算法还提供了一种方法来估计数据中的群集数。有关更多信息,请参阅使用光谱群集分区数据。
此表比较了统计信息和机器学习工具箱中可用群集方法的功能。
方法 | 算法的基础 | 输入到算法 | 需要指定数量的群集 | 确定的簇形状 | 对异常值检测有用 |
---|---|---|---|---|---|
分层群集 | 物体之间的距离 | 观察之间的成对距离 | 不 | 任意形状的群集,取决于指定的'连锁' 算法 |
不 |
k-means聚类和K-medoids聚类 | 物体与质心之间的距离 | 实际观察 | 是的 | 具有相同对角线协方差的球簇 | 不 |
基于密度的噪声算法的空间聚类(DBSCAN.) | 数据中的区域密度 | 观察之间的实际观察或成对距离 | 不 | 任意形状的簇 | 是的 |
高斯混合模型 | 高斯分布的混合 | 实际观察 | 是的 | 具有不同协方差结构的球簇簇 | 是的 |
最近的邻居 | 物体之间的距离 | 实际观察 | 不 | 任意形状的簇 | 是的,取决于指定数量的邻居 |
光谱聚类(使用光谱群集分区数据) | 表示数据点之间的连接的图表 | 实际观察或相似性矩阵 | 是的,但算法还提供了一种估计群集数量的方法 | 任意形状的簇 | 不 |