利用机器学习技术从已知的输入和响应数据建立预测模型

监督学习是最常见的一种机器学习算法。它使用一个已知的数据集(称为训练数据集),用一组已知的输入数据(称为特征)和已知的响应来训练算法,从而做出预测。训练数据集包括带有标签的输入数据,这些输入数据与期望的输出或响应值配对。在此基础上,监督学习算法通过发现特征与输出数据之间的关系来创建模型,然后对新数据集的响应值进行预测。

在实施监督学习之前,无监督学习通常用于在输入数据中发现建议候选特征的模式,并将其转换为更适合于监督学习的模式。除了识别特征之外,还需要为训练集中的所有观察结果识别出正确的类别或响应,这是一个非常劳动密集型的步骤。半监督学习允许您使用非常有限的标记数据训练模型,从而减少标记工作。

一旦算法被训练,一个没有被用于训练的测试数据集通常被用来预测算法的性能并验证它。为了获得准确的性能结果,训练和测试集都是“现实”的良好表示(即,来自生产环境和模型的数据都得到了正确验证)是至关重要的。

关于模型验证的问答

您可以对预测性监督学习模型进行训练、验证和调优MATLAB®深度学习工具箱™,统计和机器学习工具箱™。

监督学习算法

分类:用于分类响应值,可以将数据分成具体的类。二元分类模型有两个类,多类分类模型有更多。你可以用MATLAB的classification Learner应用程序训练分类模型。

常用的分类算法包括:

回归:用于连续响应数值。您可以使用MATLAB的回归学习应用程序训练回归模型。

常用的回归算法包括:

监督学习应用

监督学习用于金融应用信用评分在图像和视频应用中的目标分类和跟踪,在工业应用中的离群点检测,在预测维护设备寿命估算在肿瘤检测和药物发现方面的生物应用,以及在能源应用方面的价格和价格负荷预测

例子

假设您希望预测房价,并拥有关于房屋销售的历史数据,包括房屋大小、位置和销售年份,以及作为已知响应的实际销售价格。这是监督回归的一个极好的用例,您可以自己在这个例子中试试这个方法.下面所示的线性模型的权重是有意义的:房屋的类型和大小,建造年份,以及邻近地区确实决定了房屋的价值。残差图表明线性模型很好地捕捉了变量和价格之间的关系

参见:统计和机器学习工具箱深度学习工具箱机器学习无监督学习演算法线性回归非线性回归数据拟合数据分析数学建模预测建模人工智能AutoML正则化

掌握机器学习:一步一步的指导与MATLAB

你对机器学习了解多少?