聚类分析涉及到应用一个或多个聚类算法,其目标是在数据集中找到隐藏的模式或分组。集群算法形成分组或集群的方式是,集群中的数据具有比任何其他集群中的数据更高的相似性度量。对集群进行建模的相似性度量可以由欧氏距离、概率距离或其他度量来定义。
聚类分析是无监督学习方法和探索性数据分析的重要任务。常用的聚类算法有:
- 分层聚类:通过创建集群树构建集群的多级层次结构
- k - means聚类:根据到集群质心的距离将数据划分为k个不同的集群
- 高斯混合模型:模型聚类为多元正态密度成分的混合物
- 自组织映射:使用神经网络了解数据的拓扑结构和分布
这些算法的特点是度量相似度。
聚类分析用于生物信息学中序列分析和遗传聚类;在序列和数据挖掘中模式挖掘;医学成像中用于图像分割的方法;以及用于物体识别的计算机视觉。
有关聚类分析算法的详细信息,请参阅统计和机器学习工具箱™和深度学习工具箱™。