机器学习简介，第2部分：无监督机器学习

来自系列：机器学习简介

赛斯迪兰,MathWorks

概述无监督的机器学习，它在数据集中寻找没有标记响应的数据集模式。当您想要探索您的数据但尚未拥有特定目标时，您会使用此技术，或者您不确定数据包含的信息。这也是减少数据的维度的好方法。

大多数无监督学习技术都是聚类分析的一种形式。聚类算法落入两组广泛的组：

硬聚类，即每个数据点只属于一个聚类
软聚类，其中每个数据点可以属于多个聚类

此视频使用示例来说明硬群和软群算法，它显示为什么要使用无监督的机器学习，以减少数据集中的功能数量。

无监督机器学习在没有标记响应的数据集中寻找模式。

当您想要探索您的数据但尚未拥有特定目标时，您会使用此技术，或者您不确定数据包含的信息。

这也是减少数据维度的好方法。

正如我们之前讨论过的，大多数无监督学习技术都是聚类分析的一种形式，它根据共享的特征将数据分成组。

聚类算法落入两组广泛的组：

硬聚类，即每个数据点只属于一个聚类
软聚类，其中每个数据点可以属于多个聚类

下面是一个硬集群示例:

说你是一名工程师建设手机塔。您需要决定在哪里以及塔楼的位置。为了确保您提供最佳的信号接收，您需要在人群中找到塔。

要启动，您需要在群集数量的次数中初次猜测。为此，比较有三个塔楼和四座塔的场景，看看每个都能提供服务。

因为手机一次只能与一座塔通话，这是一个硬的聚类问题。

为此，您可以使用k-means聚类，因为k-means算法将数据中的每个观测都视为在空间中具有位置的对象。它找到群集中心，或方法，减少数据点到它们的群集中心的总距离。

所以，这是艰苦的聚类。让我们看看如何在现实世界中使用软聚类算法。

假设你是一个生物学家，分析正常和异常细胞分裂的基因。你有来自两个组织样本的数据，你想要比较它们以确定特定的基因特征模式是否与癌症相关。

因为相同的基因可以参与若干生物学过程，所以没有单个基因仅可能属于一种簇。

对数据应用模糊c均值算法，然后将聚类可视化，看看哪些基因组的行为方式相似。

然后，您可以使用此模型来帮助了解与正常或异常单元分区相关的功能。

这涵盖了两个主要技术（硬群和软群），用于探索具有未标记响应的数据。

记住，你也可以使用无监督机器学习来减少特征的数量，或数据的维度。

您可以执行此操作，使您的数据更加复杂 - 特别是如果您正在使用具有数百或数千个变量的数据。通过降低数据的复杂性，您可以专注于重要的功能并获得更好的见解。

让我们来看看3个常见的维度减少算法：

主成分分析(PCA)对数据执行线性转换，以便您的数据集中的大多数方差由最初的几个主成分捕获。这对于开发用于机器运行状况监视的状态指示器可能很有用。
因子分析识别数据集中变量之间的相关性相关性。它提供了不观察到的潜在或普通因素的代表。因子分析有时用于解释股票价格变化。

当模型术语必须代表非负数量，例如物理量时，使用非负矩阵分解。如果您需要在网页或文档上比较大量文本，这将是一个很好的方法，以便文本不存在，或者发生正常的次数。

在这个视频中，我们更深入地了解了硬聚类和软聚类算法，我们还展示了为什么要使用无监督机器学习来减少数据集中的特征数量。

至于你的下一步:

无监督学习可能是你的最终目标。如果您只是想要分割数据，那么群集算法是一个合适的选择。

另一方面，你可能想使用非监督学习作为监督学习的降维步骤。在下个视频中，我们将深入探讨指导学习。

现在，它包装了这个视频。不要忘记查看以下描述以获取更多资源和链接。

统计和机器学习工具箱

下一个：

三十五分

第3部分：监督机器学习

查看全系列（4个视频）

有关的影片：

机器学习很容易

用于预测建模的机器学习(重点)

用于预测建模的机器学习

基于MATLAB的机器学习

用Matlab机器学习：入门......

机器学习简介，第2部分：无监督机器学习

相关产品s manbetx 845

统计和机器学习工具箱

下一个：

有关的影片：