模型建立与评估
特征选择、特征工程、模型选择、超参数优化、交叉验证、残差诊断和绘图
当您构建一个高质量的回归模型时,重要的是选择正确的特征(或预测器),调优超参数(模型参数不适合数据),并通过残余诊断评估模型假设。
您可以通过在为超参数选择值和使用您的选择交叉验证模型之间迭代来优化超参数。这个过程产生多个模型,其中最好的模型可能是最小化估计泛化误差的模型。例如,要调优SVM模型,选择一组框约束和内核尺度,对每对值交叉验证模型,然后比较它们的10倍、交叉验证的均方误差估计。
要在训练回归模型之前设计新特性,请使用genrfeatures
.
要交互式地构建和评估回归模型,请使用回归的学习者应用程序。
若要自动选择具有调优超参数的模型,请使用fitrauto
.该函数尝试选择具有不同超参数值的回归模型类型,并返回预期性能良好的最终模型。使用fitrauto
当您不确定哪种回归模型类型最适合您的数据时。
统计和机器学习工具箱™中的某些非参数回归函数通过贝叶斯优化、网格搜索或随机搜索提供自动超参数调优。bayesopt
,实现贝叶斯优化的主要函数,对于许多其他应用也足够灵活。有关更多细节,请参见贝叶斯优化工作流程.
要解释回归模型,您可以使用石灰
,沙普利
,plotPartialDependence
.
应用程序
回归的学习者 | 训练回归模型,使用监督机器学习预测数据 |
功能
对象
主题
回归学习者App工作流程
- 在回归学习者应用程序中训练回归模型
用于训练、比较和改进回归模型的工作流程,包括自动、手动和并行训练。 - 选择回归模型选项
在回归学习器中,自动训练选择的模型,或比较和调整线性回归模型、回归树、支持向量机、高斯过程回归模型、核近似模型、回归树的集合和回归神经网络的选项。万博1manbetx - 利用回归学习者App进行特征选择和特征转换
使用图或特征排序算法识别有用的预测器,选择要包含的特征,并使用回归学习者中的PCA转换特征。 - 对回归学习者的模型表现进行可视化和评估
比较模型统计数据并可视化结果。
特征选择
- 特征选择介绍
了解特征选择算法,并探索用于特征选择的函数。 - 连续的特征选择
本主题介绍顺序特征选择,并提供一个使用自定义标准和顺序选择特征的示例sequentialfs
函数。 - 邻域成分分析(NCA)特征选择
邻域分量分析(NCA)是一种非参数特征选择方法,其目标是使回归和分类算法的预测精度最大化。 - 基于NCA的回归鲁棒特征选择
使用NCA中的自定义鲁棒损失函数执行对异常值鲁棒的特征选择。 - 选择随机森林的预测器
利用交互测试算法选择随机森林的分裂预测器。
工程特性
- 回归自动化特征工程
使用genrfeatures
在训练回归模型之前设计新特性。在对新数据进行预测之前,对新数据集应用相同的特征转换。
自动模型选择
- 基于贝叶斯和ASHA优化的自动回归模型选择
使用fitrauto
自动尝试选择具有不同超参数值的回归模型类型,给定训练预测器和响应数据。
Hyperparameter优化
- 贝叶斯优化工作流程
使用拟合函数或调用贝叶斯优化bayesopt
直接。 - 变量的贝叶斯优化
为贝叶斯优化创建变量。 - 贝叶斯优化目标函数
为贝叶斯优化创建目标函数。 - 贝叶斯优化中的约束条件
为贝叶斯优化设置不同类型的约束。 - 优化一个增强回归集合
最小化回归集合的交叉验证损失。 - 贝叶斯优化图函数
直观地监视贝叶斯优化。 - 贝叶斯优化输出函数
监视贝叶斯优化。 - 贝叶斯优化算法
理解贝叶斯优化的基本算法。 - 平行的贝叶斯优化
贝叶斯优化是如何并行工作的。
模型的解释
- 解释机器学习模型
解释模型预测石灰
而且沙普利
对象和plotPartialDependence
函数。 - 机器学习模型的Shapley值
使用两个算法计算机器学习模型的Shapley值:kernelSHAP和对kernelSHAP的扩展。
交叉验证
- 使用并行计算实现交叉验证
使用并行计算加速交叉验证。 - 基于增强回归树集合的时间序列预测
使用增强回归树集合执行单步和多步时间序列预测。
线性模型诊断
- 解释线性回归结果
显示和解释线性回归输出统计数据。 - 线性回归
拟合线性回归模型并检验结果。 - 具有交互效应的线性回归
建立并分析具有交互效应的线性回归模型,并解释结果。 - 输出和诊断统计摘要
利用模型属性和目标函数对拟合模型进行评估。 - f统计量和t统计量
在线性回归中,F-statistic是方差分析(ANOVA)方法检验模型或模型中各成分显著性的检验统计量。的t-statistic用于对回归系数进行推断。 - 决定系数(r平方)
决定系数(r平方)表示响应变量的变异量的比例y由自变量解释X在线性回归模型中。 - 系数、标准误差和置信区间
估计的系数方差和协方差捕获回归系数估计的精度。 - 残差
残差对探测外围很有用y值和检查线性回归假设相对于回归模型中的误差项。 - Durbin-Watson测试
Durbin-Watson检验评估时间序列数据残差之间是否存在自相关。 - 库克的距离
库克距离对于识别异常值很有用X值(对预测变量的观察)。 - 帽子矩阵与杠杆
帽子矩阵提供了一种衡量杠杆的方法。 - Delete-1统计
减去1个协方差(CovRatio
)确定对回归拟合有影响的观察结果。
广义线性模型诊断
- 广义线性模型
广义线性模型使用线性方法来描述预测项和响应变量之间潜在的非线性关系。
非线性模型诊断
- 非线性回归
参数非线性模型表示一个连续响应变量和一个或多个连续预测变量之间的关系。