选择聚类分析方法
这个主题提供了一个简短的概述可用的聚类方法在统计和机器学习的工具箱™。
聚类方法
聚类分析,也叫市场细分分析或分类分析,是一种常见的非监督学习方法。无监督学习是用来推断数据集组成的输入数据没有标记反应。例如,您可以使用聚类分析进行探索性数据分析发现隐藏的模式或在无标号数据分组。
聚类分析创建组,或集群的数据。属于同一个簇的对象是相似的,不同于对象属于不同的集群。量化“相同”和“不同”,您可以使用不同测量(或距离度量),是特定于应用程序的域和数据集。同时,根据您的应用程序中,您可能会考虑扩展(或规范)中的变量数据在集群给他们同等重要。
统计和机器学习工具箱提供了这些功能聚类方法:
分层聚类
层次聚类组数据各种尺度的树,通过创建一个集群系统树图。树不是一个单一的组群,而是一个多级层次结构,集群在一个级别相结合,形成集群。该多级层次结构允许您选择水平,或规模,最适合于您的应用程序的集群。层次聚类分配每一个点在你的数据到一个集群。
使用clusterdata
对输入数据进行层次聚类。clusterdata
包含了pdist
,链接
,集群
功能,您可以使用单独进行更详细的分析。的系统树图
功能块集群树。有关更多信息,请参见介绍层次聚类。
k则和k-Medoids集群
k——集群和k-medoids集群分区的数据k相互排斥的集群。这些聚类方法要求您指定集群的数量k。这两个k则和k-medoids集群分配您的数据到一个集群中的每一个点;但是,与层次聚类,这些方法操作实际观测(而不是不同措施),并创建一个集群。因此,k——或k-medoids集群往往比层次聚类更适合大量数据。
使用kmeans
和kmedoids
来实现k——集群和k分别-medoids集群。有关更多信息,请参见介绍k聚类则和k-Medoids集群。
Density-Based空间聚类的应用程序与噪声(DBSCAN)
DBSCAN是density-based算法识别任意形状的簇和离群值(噪声)的数据。在集群,DBSCAN标识点,不属于任何集群,这使得该方法用于density-based异常值检测。不像k则和k-medoids集群,DBSCAN不需要先验知识集群的数量。
高斯混合模型
高斯混合模型(GMM)形成集群作为多元正态密度的混合组件。对于一个给定的观察,每个组件的GMM分配后验概率密度(或集群)。后验概率表明观察有一些属于每个集群的概率。GMM可以执行硬集群通过选择组件最大化后验概率作为指定集群的观察。您还可以使用GMM执行软,或模糊通过指定观察到多个集群,集群基于观察的成绩或后验概率的集群。GMM可以比一个更合适的方法k集群,集群则有不同的大小和不同的相关结构。
使用fitgmdist
适合一个gmdistribution
反对你的数据。您还可以使用gmdistribution
创建一个GMM对象通过指定分布的参数。当你有一个合身的GMM,您可以通过使用集群查询数据集群
函数。有关更多信息,请参见集群使用高斯混合模型。
k最近的邻居搜索和搜索半径
k最近的邻居搜索找到的k查询点最近的数据点或一组查询点。相比之下,半径搜索找到的所有点在你的数据在指定距离查询点或一组查询点。这些方法依赖的结果距离度量你指定。
使用knnsearch
函数来找到k最近的邻居或rangesearch
函数在指定距离内找到所有邻居的输入数据。您还可以创建一个搜索器对象使用一个训练数据集,并通过对象和查询数据集对象函数(knnsearch
和rangesearch
)。有关更多信息,请参见分类使用最近的邻居。
谱聚类
谱聚类是一个图论算法寻找k数据中的任意形状的簇。该技术涉及数据在低维表示。在低维度,集群的数据更广泛分离,使您能够使用算法等k——或k-medoids集群。这较低的维度是基于拉普拉斯算子矩阵的特征向量。拉普拉斯算子矩阵是一种代表相似图模型的当地社区作为一个无向图数据点之间的关系。
使用spectralcluster
进行谱聚类在一个输入数据矩阵或相似的相似矩阵图。spectralcluster
要求您指定集群的数量。然而,谱聚类算法也提供了一种方法来估计集群的数量在你的数据。有关更多信息,请参见利用谱聚类分区数据。
比较聚类方法
这表比较的特点可用聚类方法在统计和机器学习工具。
方法 | 基础算法 | 算法的输入 | 需要指定数量的集群 | 集群的形状识别 | 对于异常值检测 |
---|---|---|---|---|---|
分层聚类 | 对象之间的距离 | 两两之间的距离观察 | 没有 | 任意形状的簇,这取决于指定的“链接” 算法 |
没有 |
k - means聚类和k-Medoids集群 | 对象和质心之间的距离 | 实际观察 | 是的 | 球状星团与对角协方差相等 | 没有 |
Density-Based空间聚类的应用程序与噪声(DBSCAN) | 密度区域的数据 | 实际观测或两两之间的距离观察 | 没有 | 任意形状的簇 | 是的 |
高斯混合模型 | 混合高斯分布的 | 实际观察 | 是的 | 球状星团与不同的协方差结构 | 是的 |
最近的邻居 | 对象之间的距离 | 实际观察 | 没有 | 任意形状的簇 | 是的,根据指定数量的邻居 |
谱聚类(利用谱聚类分区数据) | 图表示数据点之间的连接 | 实际观测或相似矩阵 | 是的,但是该算法还提供了一种方法来估计集群的数量 | 任意形状的簇 | 没有 |