聚类分析包括将一个或发现数据集中隐藏的模式或集团的目标更聚类算法。聚类算法形成这样一种方式,一个簇内的数据具有相似比在任何其他簇的数据的更高量度的分组或集群。在其上的簇被建模相似性度量可以通过欧几里德距离,概率距离,或另一种度量来定义。
聚类分析是无监督学习方法和探索性数据分析的一项重要任务。受欢迎的聚类算法包括:
- 分层聚类:通过创建一个集群树构建集群的多级分层
- K-均值聚类:将数据分成k个不同簇基于距离到群集的质心
- 高斯混合模型:模型集群为多元正态密度的组分的混合物
- 自组织映射:用途神经网络该学会的数据的拓扑结构和分布
每个这些算法的显着特点是度量测量相似性。
聚类分析生物信息学中用于序列分析和遗传聚类使用;在数据挖掘中的序列和模式挖掘;在用于图像分割医学成像;在对物体识别计算机视觉。
有关聚类分析算法的更多详细信息,请参阅统计和机器学习工具箱™和深度学习工具箱™。