聚类分析涉及应用一种或多种聚类算法,其目标是在数据集中找到隐藏的模式或分组。集群算法形成分组或集群的方式是,集群内的数据具有比任何其他集群中的数据更高的相似性度量。集群建模时的相似性度量可以用欧几里得距离、概率距离或其他度量来定义。
聚类分析是无监督学习方法和探索性数据分析的一项重要任务。常用的聚类算法有:
- 分层聚类:通过创建集群树构建集群的多级层次结构
- k - means聚类:根据到集群质心的距离将数据划分为k个不同的集群
- 高斯混合模型:将聚类建模为多元正态密度成分的混合物
- 自组织映射:使用神经网络了解数据的拓扑结构和分布
这些算法的显著特征是度量相似度的度量。
聚类分析用于生物信息学中的序列分析和遗传聚类;在序列和数据挖掘中模式挖掘;医学影像学中的图像分割;以及计算机视觉中的物体识别。
有关聚类分析算法的详细信息,请参阅统计和机器学习工具箱™和深度学习工具箱™。