监督学习工作流程和算法

什么是监督学习?

监督,机器学习的目的是建立一个模型基础上的不确定性的存在证据,使预测。作为自适应算法识别数据模式中,从观测的计算机“学习”。当暴露在更多的观测,计算机提高了其预测性能。

具体而言,一个监督学习算法以已知的输入数据的组和已知响应的数据(输出),并火车一个模型来生成用于应对新的数据合理预测。

例如,假设你想预测某人是否会在一年内心脏病发作。你有一组以前病人的数据,包括年龄、体重、身高、血压等。你知道以前的病人在他们测量的一年内是否有心脏病发作。所以,问题是将所有现有数据组合成一个模型,来预测一个新人是否会在一年内患上心脏病。

您可以将整个输入数据集看作一个异构矩阵。矩阵的行称为观察例子, 要么实例,每个都包含一组受试者(示例中的患者)的测量值。矩阵的列称为预测属性, 要么特征,并且每个是表示在每一个受试者(年龄,体重,身高等在该示例中)所取的测量变量。你能想到的响应数据,其中每一行包含的相应观察输入数据的输出(患者是否有心脏发作)的列向量的。至适合培养一个有监督的学习模型,选择合适的算法,然后将输入和响应数据传递给它。

监督学习分裂成两大类:分类和回归。

  • 分类,目标是分配一个类(或标签)从有限组类到观察。也就是说,反应是分类变量。应用包括垃圾邮件过滤器,广告推荐系统,以及图像和语音识别。预测患者是否会在一年内心脏攻击是一种分类问题,以及可能的类是的。分类算法通常适用于标称响应值。然而,一些算法可以容纳序类(参见菲茨克)。

  • 回归中,目标是预测一个连续测量用于观察。也就是说,响应变量是实数。应用包括预测股票价格,能耗,或发病率。

统计和机器学习工具箱™监督学习功能包括流线型,目标框架。可以有效地培养了多种算法,结合模型成一个整体,评估模型表演,交叉验证和预测新数据的反应。

在监督学习步骤

虽然有许多统计和机器学习算法工具箱的监督学习,大部分使用相同的基本工作流程,获得的预测模型。(详细指令上的步骤为集成学习是在框架集成学习)为监督学习的步骤如下:

准备数据

所有监督的学习方法,开始输入数据矩阵,通常称为X这里。每行X代表一个观察。的每一列X代表一个变量,或预测。代表与缺少的项为NaN价值观X。统计和机器学习工具箱监督学习算法可以处理为NaN值,或者通过忽略它们或通过忽略与任何行为NaN值。

您可以使用响应数据的各种数据类型ÿ. 中的每个元素ÿ表示到相应行的响应X。缺少观察ÿ数据被忽略。

  • 对于回归,ÿ必须是与的行数相同的元素数的数值向量X

  • 对于分类,ÿ可以是任何这些数据类型的。该表还包含包括缺少项的方法。

    数据类型 缺少条目
    数字矢量 为NaN
    分类矢量 <未定义>
    字符数组 一行空格
    String数组 <缺失>“”
    字符向量单元数组 “”
    逻辑向量 (不能代表)

选择一个算法

有算法几个特点,诸如之间的折衷:

  • 训练速度

  • 内存使用情况

  • 新的数据预测准确性

  • 透明或解释性,这意味着你可以如何轻松了解原因的算法使得它的预测

的算法细节出现在分类算法的特点。约合奏算法的更多细节是在选择一个适用合奏聚合方法

拟合模型

您使用的拟合函数取决于您选择的算法。

算法 拟合函数
分类树 fitctree
回归树 fitrtree
判别分析(分类) fitcdiscr公司
ķ-Nearest邻居(分类) fitcknn
朴素贝叶斯(分类) fitcnb公司
万博1manbetx支持向量机分类方法 fitcsvm公司
SVM回归 fitrsvm公司
多类模型SVM或其他分类 菲茨克
分类合奏 fitcensemble
回归合奏 装配
分类或回归树套装(例如,随机森林[1])并行 TreeBagger

对于这些算法进行比较,看分类算法的特点

选择验证方法

三个主要的方法来检查生成的拟合模型的准确性:

检查飞度和更新,直到满意为止

验证模型后,您可能想改变它具有更高的精度,更好的速度,或者使用较少的内存。

当使用某些类型的模型不满意,您可以使用适当的修剪紧凑功能(紧凑对于分类树,紧凑对于回归树,紧凑为判别分析,紧凑对于天真的贝斯,紧凑对于支持向量机,紧凑对于ECOC车型,紧凑分类集合,以及紧凑回归合奏)。紧凑移除训练数据和不需要用于预测其他性质,例如,用于决策树修剪信息,从模型以减少内存消耗。因为ķNN分类模型要求所有的训练数据来预测标签,你不能减小的尺寸ClassificationKNN模型。

使用拟合模型的预测

要预测最拟合模型分类或回归响应,使用预测方法:

Ypredicted =预测(OBJ,Xnew)
  • OBJ是拟合模型或装有小巧的机型。

  • Xnew是新的输入数据。

  • 预测是预测的反应,分类或回归。

分类算法的特点

此表显示的各种监督学习算法的典型特征。在任何特定的情况下的特性可以从所列出的那些变化。使用表作为算法你最初的选择指南。决定你的速度,内存使用率,灵活性和可解释性想要的权衡。

小费

尝试决策树或判别第一,因为这些分类是快速和容易理解。如果模型是不够的预测准确的反应,试试其他的分类具有更高的灵活性。

为了控制灵活性,看到每个分类型的细节。为了避免过拟合,寻找的自由度较低的模型,它提供足够的精度。

分类 多类别支持万博1manbetx 分类预测支持万博1manbetx 预测速度 内存使用 可解释性
决策树-fitctree 快速 简单
判别分析-fitcdiscr公司 快速 小线性,大的二次 简单
SVM-fitcsvm公司 没有。
结合使用多个二进制SVM分类菲茨克
介质为线性的。
慢他人。
介质为线性的。
所有其它:对多类中型,大型二进制。
简单线性SVM。
硬的所有其他内核的类型。
朴素贝叶斯-fitcnb公司 中简单的分布。
对于内核分布或高维数据来说速度慢
小的简单分布。
用于内核分布或高维数据的媒体
简单
最近的邻居-fitcknn 慢立方。
培养基等。
合奏-fitcensemble装配 快速到中等取决于算法的选择 从低到高依赖于算法的选择。

在这个表中的结果是基于对许多数据集进行分析。该研究中的数据集有多达7000个观察,预测80和50班。这个列表定义表中的条款。

速度:

  • 快速 - 0.01秒

  • 介质 - 1秒

  • 慢 - 100秒

记忆

  • 小 - 1MB

  • 中 - 4MB

  • 大 - 100MB

注意

该表提供了一般的指导。您的结果取决于您的数据和机器的速度。

分类预测支持万博1manbetx

下表描述了数据型支撑预测为每个分类的。万博1manbetx

分类 所有的预测数字 所有的预测分类 有些绝对,一些数字
决策树
判别分析
SVM
朴素贝叶斯
最近的邻居 只有欧氏距离 只有海明距离
合奏 是的,除了判别分析分类的子空间合奏 是的,除了子空间合奏

工具书类

[1] Breiman,L.随机森林。机器学习45,2001年,第5-32。