无监督学习

发现数据中隐藏的模式或内在结构

无监督学习是一种机器学习算法,用于在不需要人工干预的情况下从数据集得出推论,而监督学习则是在数据中提供标签。

最常见的无监督学习方法是聚类分析,它应用聚类方法来探索数据,并发现数据中的隐藏模式或分组。

有了MATLAB,你可以应用许多流行的聚类算法:

  • 分层聚类:通过创建集群树来构建集群的多级层次结构
  • k - meansk-medoids集群:分区数据k基于距离的不同簇。
  • 高斯混合模型:模型集群作为多元正态密度成分的混合物
  • 基于密度的空间聚类:对高密度区域中彼此接近的点进行分组,跟踪低密度区域中的异常值
  • 自组织映射:使用神经网络来学习数据的拓扑结构和分布
  • 谱聚类:基于图的聚类,可以处理任意非凸形状

其他应用无监督学习的方法包括半监督学习和无监督特征排序。半监督学习减少了监督学习中对标记数据的需求。将聚类应用于整个数据集,在标记数据和未标记数据之间建立相似性,并将标签传播到之前未标记和相似的聚类成员。

无监督特征排名在没有给定预测目标或响应的情况下给特征打分。MATLAB®统计和机器学习工具箱™万博1manbetx支持使用拉普拉斯分数进行无监督排名。

要点

  • 无监督学习通常在监督学习之前应用,用于探索性数据分析中识别特征,并基于分组建立类。
  • k均值和层次聚类仍然很流行。只有一些聚类方法可以处理任意非凸形状,包括MATLAB中支持的DBSCAN、层次聚类和谱聚类。万博1manbetx
  • 无监督学习(聚类)也可以用来压缩数据。
  • 无监督特征排序可以更有效地将基于距离的聚类应用于大数据集。

参见:统计和机器学习工具箱基于MATLAB的机器学习图像处理工具箱