机器学习简介，第2部分:无监督机器学习

Seth Deland，Mathworks

概述无监督机器学习，它在没有标记响应的数据集中寻找模式。当您想要研究数据但还没有明确的目标，或者不确定数据包含什么信息时，您可以使用这种技术。这也是一种降低数据维度的好方法。

大多数无监督的学习技术是一种集群分析的形式。聚类算法分为两大类:

本视频使用例子来说明硬聚类和软聚类算法，并说明为什么你想使用无监督机器学习来减少数据集中的特征数量。

无监督的机器学习在数据集中寻找没有标记响应的模式。

当您想要研究数据但还没有明确的目标，或者不确定数据包含什么信息时，您可以使用这种技术。

这也是一种减少数据维度的好方法。

正如我们之前讨论过的那样，大多数无监督的学习技术都是一种群集分析形式，其基于共享特征将数据分成组。

聚类算法分为两大类:

对于上下文，这是一个硬群体示例：

假设你是一个建造手机信号塔的工程师。你需要决定在哪里建造多少座塔。为了确保你能提供最好的信号接收，你需要在人群中确定发射塔的位置。

首先，您需要对集群的数量进行初步猜测。要做到这一点，可以将三个塔和四个塔的情况进行比较，看看每个塔提供服务的能力如何。

因为一个电话一次只能与一个信号塔通话，这是一个很难的集群问题。

为此，您可以使用K-Means群集，因为K-Means算法将数据中的每个观察视为具有空间中位置的对象。它找到集群中心或手段，从而将数据点与集群中心的总距离减少。

所以，这是很难聚类的。让我们看看如何在现实世界中使用软聚类算法。

假装您是一种分析涉及正常和异常细胞分裂的基因的生物学家。您有来自两个组织样本的数据，您希望将它们进行比较以确定某些基因特征模式是否与癌症相关。

由于相同的基因可能参与多个生物过程，因此没有一个单一的基因可能只属于一个集群。

将模糊C-MEASE算法应用于数据，然后可视化群集以查看哪些基因组在类似的方式。

然后，您可以使用这个模型来帮助查看哪些特征与正常或异常的细胞分裂相关。

本文介绍了两种主要的技术(硬集群和软集群)，用于研究带有未标记响应的数据。

但请记住，您也可以使用无监督的机器学习来减少数据的功能或维度的数量。

这样做是为了使您的数据不那么复杂——特别是当您处理的数据有数百或数千个变量时。通过减少数据的复杂性，您可以专注于重要的特性并获得更好的见解。

让我们看看3种常见的降维算法:

当模型项必须表示非负量(如物理量)时，使用非负矩阵分解。如果你需要比较网页或文档中的大量文本，这将是一个很好的开始方法，因为文本要么不存在，要么出现的次数为正。

在此视频中，我们仔细研究了硬群和软群集算法，我们还显示为什么您想要使用无监督的机器学习来减少数据集中的功能数量。

至于下一步：

无监督的学习可能是您最终目标。如果您只是在寻找段数据，则群集算法是一个适当的选择。

另一方面，您可能希望使用无监督的学习作为监督学习的维度减少步骤。在我们的下一个视频中，我们将仔细看看监督学习。

这个视频到此结束。不要忘记查看下面的描述获取更多资源和链接。