机器学习导论，第2部分:无监督机器学习

了解一下无监督机器学习，它在没有标记响应的数据集中寻找模式。当您想要探索数据，但还没有一个特定的目标，或者您不确定数据包含什么信息时，可以使用这种技术。这也是一种降低数据维数的好方法。

大多数无监督学习技术都是聚类分析的一种形式。聚类算法分为两大类:

本视频用例子来说明硬聚类算法和软聚类算法，并展示了为什么要使用无监督机器学习来减少数据集中的特征数量。

无监督机器学习在没有标记响应的数据集中寻找模式。

当您想要探索数据，但还没有一个特定的目标，或者您不确定数据包含什么信息时，可以使用这种技术。

这也是降低数据维数的好方法。

正如我们之前讨论过的，大多数无监督学习技术都是聚类分析的一种形式，它根据共享的特征将数据分成组。

聚类算法分为两大类:

下面是一个很难聚类的例子:

假设你是一个建造手机信号塔的工程师。你需要决定建造塔的位置和数量。为了确保你能提供最好的信号接收，你需要在人群中定位信号塔。

首先，需要对集群的数量进行初步猜测。要做到这一点，可以比较三个塔和四个塔的场景，看看各自提供服务的效果如何。

因为一个电话一次只能与一个信号塔通话，这是一个困难的聚类问题。

为此，您可以使用k-均值聚类，因为k-均值算法将数据中的每个观察结果视为空间中具有位置的对象。它找到聚类中心，或者说是减少数据点到它们的聚类中心的总距离的方法。

这是很难聚类的。让我们看看如何在现实世界中使用软聚类算法。

假设你是一个生物学家，正在分析与正常和异常细胞分裂有关的基因。你有来自两个组织样本的数据，你想要比较它们，以确定某些基因特征模式是否与癌症相关。

因为相同的基因可以参与多个生物过程，没有一个基因可能只属于一个集群。

对数据应用模糊c均值算法，然后可视化聚类，看看哪些基因组的行为类似。

然后，你可以使用这个模型来帮助了解哪些特征与正常或异常的细胞分裂相关。

这涵盖了两种主要技术(硬聚类和软聚类)，用于探索具有未标记响应的数据。

记住，你也可以使用无监督机器学习来减少数据的特征数量或维数。

这样做是为了使数据不那么复杂——特别是在处理具有数百或数千个变量的数据时。通过减少数据的复杂性，您可以专注于重要的特性并获得更好的见解。

让我们来看看3种常见的降维算法:

当模型项必须表示非负的量，如物理量时，使用非负矩阵分解。如果你需要比较网页或文档上的大量文本，这将是一个很好的开始方法，因为文本要么不存在，要么出现了正的次数。

在这个视频中，我们仔细研究了硬聚类算法和软聚类算法，我们还展示了为什么要使用无监督机器学习来减少数据集中的特征数量。

至于你的下一步:

无监督学习可能是你的最终目标。如果您只是想要分割数据，那么聚类算法是一个合适的选择。

另一方面，你可能想使用无监督学习作为监督学习的降维步骤。在下一集视频中，我们将更深入地研究监督学习。

本期视频到此结束。不要忘记查看下面的描述以获取更多资源和链接。