从系列:机器学习概论
赛斯迪兰MathWorks公司
获取无监督的机器学习,它看起来的模式在没有标记的响应数据集的概述。当你想探索您的数据,但还没有具体的目标,或者你不知道数据中包含哪些信息你会使用这种技术。这也是一个很好的方式,以减少数据的维度。
大多数无监督学习方法是聚类分析的一种形式。聚类算法分为两大类:
本视频使用示例来说明硬聚类算法和软聚类算法,并说明为什么要使用无监督机器学习来减少数据集中的特性数量。
无监督机器学习查找各种模式,在没有标记的响应数据集。
当你想探索您的数据,但还没有具体的目标,或者你不知道数据中包含哪些信息你会使用这种技术。
这也是一个很好的方式,以减少数据的维度。
正如我们前面所讨论的,大多数无监督学习技术都是一种聚类分析的形式,它根据共享的特征将数据分组。
聚类算法分为两大类:
对于上下文,这里是一个困难的集群例子:
假设你是一名工程师建设手机信号塔。你需要决定在哪里,有多少,塔施工。为了确保你提供最佳的信号接收,你需要的人群内找到塔。
首先,您需要对集群的数量进行初步猜测。要做到这一点,比较三个塔和四个塔的场景,看看每个塔能够提供的服务有多好。
因为一个电话就可以每次只跟一个塔,这是一个硬聚类问题。
对于这一点,可以使用k均值聚类,因为K-means算法对待数据中的每个观测为具有在空间中的位置的对象。它发现聚类中心,或装置,减少其聚类中心从数据点的总距离。
所以,这是很难集群。让我们来看看你怎么可能在现实世界中使用的软聚类算法。
假设你是一位生物学家,正在分析正常细胞分裂和异常细胞分裂所涉及的基因。你有来自两个组织样本的数据,你想通过比较它们来确定特定的基因特征模式是否与癌症相关。
由于相同的基因可在多种生物学过程参与,没有一个单一的基因很可能只属于一个集群。
应用模糊C均值算法的数据,然后可视化的簇以查看哪些基因的组中类似的方式运行。
然后,您可以使用此模型来帮助其了解哪些功能关联在一起正常或不正常的细胞分裂。
这包括两种主要的技术(硬聚类和软聚类),用于探索带有未标记响应的数据。
但请记住,你也可以使用无监督的机器学习,以减少你的数据的功能数量,或维度。
你应该这样做,以使您的数据不那么复杂 - 特别是如果你使用具有变量数百或数千数据的工作。通过减少数据的复杂性,你能专注于重要的功能和获得更好的洞察力。
让我们看看3种常见的降维算法:
在这段视频中,我们仔细研究了硬聚类算法和软聚类算法,并展示了为什么要使用无监督机器学习来减少数据集中的特性数量。
至于你的下一步:
无监督学习可能是你的最终目标。如果您只想分割数据,那么集群算法是一个合适的选择。
另一方面,你可能想使用无监督学习作为监督学习的降维步骤。在下一集视频中,我们将更深入地学习引导性学习。
现在,它包装了这个视频。不要忘了看看下面的描述更多的资源和链接。
你也可以从以下列表中选择一个网站:
选择最佳的网站性能的中国网站(在中国或英文)。其他MathWorks的国家网站都没有从您的位置访问进行了优化。