主要内容

对回归学习者的模型表现进行可视化和评估

在regression Learner中训练回归模型之后,您可以基于模型统计数据比较模型,在响应图中可视化结果,或通过绘制实际与预测响应的对比,并使用残差图评估模型。

  • 如果你使用k-fold交叉验证,然后应用程序使用k验证折叠并报告平均值。它对验证褶皱中的观察结果进行预测,并在图中显示这些预测。它还计算了验证褶皱中观测结果的残差。

    请注意

    当您将数据导入应用程序时,如果您接受默认值,应用程序将自动使用交叉验证。要了解更多,请参见选择验证方案

  • 如果使用拒绝验证,应用程序将使用验证折叠中的观察结果计算模型统计信息,并对这些观察结果进行预测。该应用程序在图中使用这些预测,并根据预测计算残差。

  • 如果使用再替代验证,则分数是基于所有训练数据的再替代模型统计数据,预测是再替代预测。

在模型窗格中检查性能

在Regression Learner中训练一个模型之后,检查模型窗格,以查看哪个模型有最好的综合得分。最好的RMSE(验证)在方框中突出显示。这个分数是验证集上的均方根误差(RMSE)。该分数估计训练过的模型在新数据上的表现。用这个分数来帮助你选择最好的模型。

模型及其在模型窗格中显示的验证RMSE值

  • 对于交叉验证,得分是所有未被预留用于测试的观测值的均方根误差(RMSE),当每个观测值处于抵制(验证)折叠中时计算它。

  • 对于顽固性验证,得分为顽固性观测值的RMSE。

  • 对于再替换验证,得分是所有训练数据的再替换RMSE。

最好的总分可能不是你的目标的最佳模型。有时候,一个整体得分略低的模型对您的目标来说是更好的模型。您希望避免过拟合,并且可能希望排除一些数据收集昂贵或困难的预测器。

在“摘要”选项卡和“模型”窗格中查看模型统计信息

您可以在模型中查看模型统计信息总结TAB和模型窗格,并使用这些统计信息来评估和比较模型。或者,您也可以使用结果表TAB来比较模型。有关更多信息,请参见在表视图中比较模型信息和结果

培训结果在验证集上计算统计信息。的测试结果如果显示统计信息,则是在导入的测试集上计算的。有关更多信息,请参见评估测试集模型性能

示例模型Summary选项卡

模型数据

统计 描述 提示
RMSE 均方根误差。RMSE总是正的,它的单位与你的响应的单位相匹配。 寻找较小的RMSE值。
平方 决定系数。r²总是小于1,通常大于0。它将经过训练的模型与响应恒定且等于训练响应平均值的模型进行比较。如果你的模型比常数模型差,那么r方是负的。 寻找接近于1的r平方。
均方误差 均方误差。MSE是RMSE的平方。 寻找较小的MSE值。
平均绝对误差。MAE总是正的,与RMSE相似,但对异常值不太敏感。 寻找MAE的较小值。

您可以根据不同的模型统计信息对模型进行排序。要选择用于模型排序的统计信息,请使用排序列表的顶部模型窗格。

中列出的不需要的型号也可以删除模型窗格。选择要删除的模型并单击删除所选模型单击窗格右上角的按钮删除模型部份回归的学习者选项卡,或者右键单击模型并选择删除.控件中最后剩下的模型不能删除模型窗格。

在表视图中比较模型信息和结果

而不是使用总结TAB或模型窗格来比较模型统计信息,您可以使用结果表。在回归的学习者选项卡,在模型部分中,点击结果表.在结果表选项卡,您可以根据模型的训练和测试结果以及它们的选项(例如模型类型、所选特征、PCA等)对模型进行排序。例如,要按均方根误差对模型排序,请单击中的排序箭头RMSE(验证)列标题。向上箭头表示模型从最低的RMSE到最高的RMSE排序。

要查看更多表列选项,请单击“选择要显示的列”按钮在桌子的右上方。在“选择要显示的列”对话框中,选中要在结果表中显示的列的复选框。新选择的列被添加到右边的表中。

选择要显示的列对话框

在结果表中,您可以手动拖放表列,以便它们按您的首选顺序出现。

控件可以将一些模型标记为收藏最喜欢的列。该应用程序保持最喜欢的型号的选择在结果表和模型窗格。与其他列不同,最喜欢的而且型号不能从表中删除列。

若要从表中删除一行,请右键单击该行中的任何条目并单击隐藏的行(或隐藏所选行如果该行被高亮显示)。若要删除连续的行,请单击要删除的第一行中的任何条目,按转变,然后单击要删除的最后一行中的任何条目。然后,右键单击其中一个高亮显示的条目并单击隐藏所选行.若要恢复所有已删除的行,请右键单击表中的任何条目并单击显示所有行.恢复的行被追加到表的底部。

要导出表中的信息,请使用其中一个导出按钮在桌子的右上方。选择将表导出到工作区还是导出到文件。导出的表只包含显示的行和列。

在响应图中探索数据和结果

通过使用响应图查看回归模型结果,响应图显示了预测响应与记录数量的对比。训练一个回归模型后,应用程序自动打开该模型的响应图。如果你训练一个“所有”模型,应用程序只打开第一个模型的响应图。中选择模型以查看另一个模型的响应图模型窗格。在回归的学习者选项卡,在情节与解读部分,单击箭头打开图库,然后单击响应验证结果组。如果使用抵制或交叉验证,则预测响应值是对抵制(验证)观察结果的预测。换句话说,该软件通过使用一个没有相应观察的训练模型来获得每个预测。

要调查结果,请使用右边的控件。您可以:

  • 绘制预测和/或真实的反应。使用下面的复选框情节做出你的选择。

  • 显示预测误差,用预测和真实响应之间的竖线表示错误复选框。

  • 选择要绘制的变量x设在下.您可以选择记录号或其中一个预测变量。

    响应图显示真实值为蓝色点,预测值为黄色点,误差为红色垂直线

  • 把回答画出来作为标记,或者在下面画一个框状图风格.您可以选择箱线图只有当变量上x-axis几乎没有惟一值。

    框图显示响应的典型值和任何可能的异常值。中心标记表示中位数,盒子的底部和顶部边缘分别是第25百分位和第75百分位。垂直线,称为须,从方框延伸到最极端的数据点,这些数据点不被认为是异常值。异常值分别用“+”的象征。有关盒状图的更多信息,请参见箱线图

    响应图显示每个原产国的箱形图。蓝色箱线图为真实响应值的分布,黄色箱线图为预测响应值的分布。

要将您在应用程序中创建的响应图导出为图形,请参见导出回归学习者应用程序中的情节

剧情预测vs.实际反应

使用预测与实际图来检查模型性能。使用此图可以了解回归模型对不同响应值的预测效果。在训练模型之后,要查看预测与实际的图,请单击中的箭头情节与解读部分打开图库,然后单击预测与实际(验证)验证结果组。

当您打开图时,您的模型的预测响应与实际的、真实的响应进行了对比。一个完美的回归模型的预测响应等于真实响应,所以所有的点都在一条对角线上。直线到任意点的垂直距离是对该点的预测误差。一个好的模型误差很小,这意味着预测是分散在直线附近的。

回归模型的预测反应与真实反应的关系图

通常一个好的模型的点大致对称地分布在对角线周围。如果您能在图中看到任何清晰的模式,那么很可能可以改进您的模型。方法来训练不同的模型类型,或者使您当前的模型类型更加灵活模型Hyperparameters模型中的选项总结选项卡。如果你不能改进你的模型,很可能你需要更多的数据,或者你错过了一个重要的预测因素。

要导出您在应用程序中创建的预测和实际的图,请参见导出回归学习者应用程序中的情节

利用残差图评价模型

利用残差图来检验模型的性能。要查看训练模型后的残差图,请单击情节与解读部分打开图库,然后单击残差(验证)验证结果组。残差图显示了预测和真实反应之间的差异。选择要绘制的变量x设在下.选择真实响应、预测响应、记录数或其中一个预测因子。

回归模型残差图

通常一个好的模型有残差大致对称地分布在0附近。如果你能在残差中看到任何清晰的模式,你就有可能改进你的模型。寻找这些模式:

  • 残差在0附近不是对称分布的。

  • 残差在图中从左到右的大小变化显著。

  • 异常值出现了,也就是说,残差比其他残差大得多。

  • 在残差中出现了一个清晰的非线性模式。

尝试训练不同的模型类型,或者通过复制模型并使用模型Hyperparameters模型中的选项总结选项卡。如果你不能改进你的模型,很可能你需要更多的数据,或者你错过了一个重要的预测因素。

要将您在应用程序中创建的残差图导出为数字,请参见导出回归学习者应用程序中的情节

用偏相关图解释模型

部分依赖图(pdp)允许您可视化每个预测器对训练回归模型的预测响应的边际效应。在Regression Learner中训练模型之后,可以查看模型的偏依赖图。在回归的学习者选项卡,在情节与解读部分,单击箭头打开图库。在解释结果部分中,点击部分依赖.在计算部分依赖值时,应用程序使用最终模型,在完整数据集(包括训练和验证数据,但不包括测试数据)上进行训练。

要调查结果,请使用右边的控件。

  • 数据,选择是否绘制结果使用训练集数据或测试集数据。训练集是指用于训练最终模型的数据,包括所有不保留用于测试的观察数据。

  • 功能,选择要绘制的特征X列表。所绘制的线对应于预测值之间的平均预测响应。图中的x轴标记对应于所选数据集中的唯一预测器值。

    如果你用PCA来训练一个模型,你可以选择主成分从X列表。

  • 放大和缩小,或者在整个情节中平移。要启用缩放或平移,请将鼠标放在PDP上,并单击出现在图右上方的工具栏上的相应按钮。

使用训练数据集比较模型预测和权重值的偏依赖图

示例请参见解释回归学习者应用程序中训练的回归模型.有关部分依赖图的更多信息,请参见plotPartialDependence

要将您在应用程序中创建的pdp导出为数字,请参见导出回归学习者应用程序中的情节

通过改变布局比较模型地块

中的绘图选项将在回归学习者中训练的模型的结果可视化情节与解读部份回归的学习者选项卡。中的选项可以重新排列图的布局,以便跨多个模型比较结果布局按钮,拖放图,或者选择位于模型图选项卡右侧的Document Actions箭头提供的选项。

例如,在Regression Learner中训练两个模型后,为每个模型显示一个图,并通过使用以下程序之一更改图的布局来比较图:

  • 情节与解读部分中,点击布局并选择比较模型

  • 单击第二个模型选项卡名称,然后将第二个模型选项卡拖放到右边。

  • 单击位于模型图选项卡最右边的Document Actions箭头。选择瓷砖都选项并指定1 × 2的布局。

    使用Document Actions箭头进行并排模型比较的选择

注意,您可以单击Hide plot选项按钮在地块的右上方,为地块腾出更多空间。

评估测试集模型性能

在Regression Learner中训练一个模型之后,您可以在应用程序中的测试集上评估模型的性能。这个过程允许您检查验证指标是否为新数据上的模型性能提供了良好的估计。

  1. 导入一个测试数据集到Regression Learner中。或者,在将数据导入应用程序时,保留一些数据用于测试(可选)为测试保留数据).

    • 如果测试数据集在MATLAB中®工作区,则在测试第一部分回归的学习者选项卡上,单击测试数据并选择从工作空间

    • 如果测试数据集在文件中,则在测试部分中,点击测试数据并选择从文件.在列表中选择文件类型,例如电子表格、文本文件或逗号分隔的值(. csv)文件,或选择所有文件浏览其他文件类型,例如.dat

    在“导入测试数据”对话框中,选择测试数据集测试数据集变量列表。测试集必须具有与为训练和验证而导入的预测器相同的变量。

  2. 计算测试集度量。

    • 要计算单个模型的测试度量,请在模型窗格。在回归的学习者选项卡,在测试部分中,点击测试所有并选择测试选择

    • 要计算所有训练过的模型的测试指标,请单击测试所有并选择测试所有测试部分。

    该应用程序计算在完整数据集上训练的每个模型的测试集性能,包括训练和验证数据(但不包括测试数据)。

  3. 比较验证指标和测试指标。

    在模型中总结选项卡中,应用程序显示验证指标和测试指标培训结果节和测试结果部分,分别。您可以检查验证度量是否为测试度量提供了良好的估计。

    您还可以使用图来可视化测试结果。

    • 显示预测和实际的图表。在情节与解读第一部分回归的学习者选项卡,单击箭头打开图库,然后单击预测与实际(测试)测试结果组。

    • 显示残差图。在情节与解读部分,单击箭头打开图库,然后单击残差(测试)测试结果组。

示例请参见在回归学习者应用程序中使用测试集检查模型性能.有关在超参数优化工作流中使用测试集度量的示例,请参见在回归学习软件中使用超参数优化训练回归模型

相关的话题