模型建立与评估

特征选择、特征工程、模型选择、超参数优化、交叉验证、残差诊断和绘图

当您构建一个高质量的回归模型时，重要的是选择正确的特征(或预测器)，调优超参数(模型参数不适合数据)，并通过残余诊断评估模型假设。

您可以通过在为超参数选择值和使用您的选择交叉验证模型之间迭代来优化超参数。这个过程产生多个模型，其中最好的模型可能是最小化估计泛化误差的模型。例如，要调优SVM模型，选择一组框约束和内核尺度，对每对值交叉验证模型，然后比较它们的10倍、交叉验证的均方误差估计。

要在训练回归模型之前设计新特性，请使用genrfeatures．

要交互式地构建和评估回归模型，请使用回归的学习者应用程序。

若要自动选择具有调优超参数的模型，请使用fitrauto．该函数尝试选择具有不同超参数值的回归模型类型，并返回预期性能良好的最终模型。使用fitrauto当您不确定哪种回归模型类型最适合您的数据时。

统计和机器学习工具箱™中的某些非参数回归函数通过贝叶斯优化、网格搜索或随机搜索提供自动超参数调优。bayesopt，实现贝叶斯优化的主要函数，对于许多其他应用也足够灵活。有关更多细节，请参见贝叶斯优化工作流程．

要解释回归模型，您可以使用石灰，沙普利,plotPartialDependence．

应用程序

回归的学习者

训练回归模型，使用监督机器学习预测数据

功能

全部展开

特征选择

`fsrftest`	用于回归的单变量特征排序F测试
`fsrmrmr`	利用最小冗余最大相关性(MRMR)算法对回归特征进行排序
`fsrnca`	利用邻域分量分析进行回归的特征选择
`oobPermutedPredictorImportance`	通过对随机森林的回归树的袋外预测器观测的排列估计预测器重要性
`partialDependence`	计算部分依赖
`plotPartialDependence`	创建偏依赖图(PDP)和个体条件期望图(ICE)
`predictorImportance`	预测因子对回归树重要性的估计
`predictorImportance`	预测因子对回归集合重要性的估计
`relieff`	使用ReliefF或RReliefF算法对预测因子的重要性进行排序
`sequentialfs`	使用自定义准则进行序列特征选择
`stepwiselm`	进行逐步回归
`stepwiseglm`	通过逐步回归建立广义线性回归模型

工程特性

`genrfeatures`	为回归执行自动化的特征工程
`描述`	描述生成特性
`变换`	使用生成的特征转换新数据

自动模型选择

fitrauto 自动选择超参数优化的回归模型

Hyperparameter优化

`bayesopt`	使用贝叶斯优化选择最优的机器学习超参数
`hyperparameters`	优化适合函数的变量描述
`optimizableVariable`	变量描述`bayesopt`或其他优化

交叉验证

长期有效的数据

`crossval`	使用交叉验证估计损失
`cvpartition`	分区数据进行交叉验证
`重新分区`	重新分区数据进行交叉验证
`测验`	测试交叉验证的指标
`培训`	交叉验证的训练指标

对于时间序列数据

`tspartition`	划分时间序列数据进行交叉验证
`测验`	时间序列交叉验证的测试指标
`培训`	时间序列交叉验证训练指标

模型的解释

局部可解释模型不可知论解释(LIME)

`石灰`	局部可解释模型不可知解释(LIME)
`适合`	拟合局部可解释模型不可知论解释(LIME)的简单模型
`情节`	局部可解释模型不可知论解释(LIME)的绘图结果

沙普利值

`沙普利`	沙普利值
`适合`	计算查询点的Shapley值
`情节`	情节夏普利值

部分依赖

`partialDependence`	计算部分依赖
`plotPartialDependence`	创建偏依赖图(PDP)和个体条件期望图(ICE)

线性模型诊断

`coefCI`	线性回归模型系数估计的置信区间
`coefTest`	线性回归模型系数的线性假设检验
`dwt`	Durbin-Watson检验用线性回归模型对象
`情节`	线性回归模型的散点图或加变量图
`plotAdded`	增加了线性回归模型的变量图
`plotAdjustedResponse`	线性回归模型调整响应图
`plotDiagnostics`	线性回归模型的图观测诊断
`plotEffects`	在线性回归模型中绘制预测因子的主要效应
`plotInteraction`	在线性回归模型中绘制两个预测因子的交互效应
`plotResiduals`	绘制线性回归模型残差图
`plotSlice`	通过拟合线性回归曲面的切片图

广义线性模型诊断

`coefCI`	广义线性回归模型系数估计的置信区间
`coefTest`	广义线性回归模型系数的线性假设检验
`devianceTest`	广义线性回归模型的偏差分析
`plotDiagnostics`	广义线性回归模型的Plot观测诊断
`plotResiduals`	绘制广义线性回归模型的残差
`plotSlice`	通过拟合广义线性回归曲面的切片图

非线性模型诊断

`coefCI`	非线性回归模型系数估计的置信区间
`coefTest`	非线性回归模型系数的线性假设检验
`plotDiagnostics`	非线性回归模型的图诊断
`plotResiduals`	绘制非线性回归模型的残差
`plotSlice`	拟合非线性回归曲面的切片图

线性假设测试

linhyptest 线性假设检验

对象

全部展开

特征选择

FeatureSelectionNCARegression 基于邻域分量分析(NCA)的回归特征选择

工程特性

FeatureTransformer 生成功能转换

Hyperparameter优化

BayesianOptimization 贝叶斯优化结果

主题

回归学习者App工作流程

在回归学习者应用程序中训练回归模型
用于训练、比较和改进回归模型的工作流程，包括自动、手动和并行训练。
选择回归模型选项
在回归学习器中，自动训练选择的模型，或比较和调整线性回归模型、回归树、支持向量机、高斯过程回归模型、核近似模型、回归树的集合和回归神经网络的选项。万博1manbetx
利用回归学习者App进行特征选择和特征转换
使用图或特征排序算法识别有用的预测器，选择要包含的特征，并使用回归学习者中的PCA转换特征。
对回归学习者的模型表现进行可视化和评估
比较模型统计数据并可视化结果。

特征选择

特征选择介绍
了解特征选择算法，并探索用于特征选择的函数。
连续的特征选择
本主题介绍顺序特征选择，并提供一个使用自定义标准和顺序选择特征的示例sequentialfs函数。
邻域成分分析(NCA)特征选择
邻域分量分析(NCA)是一种非参数特征选择方法，其目标是使回归和分类算法的预测精度最大化。
基于NCA的回归鲁棒特征选择
使用NCA中的自定义鲁棒损失函数执行对异常值鲁棒的特征选择。
选择随机森林的预测器
利用交互测试算法选择随机森林的分裂预测器。

工程特性

回归自动化特征工程
使用genrfeatures在训练回归模型之前设计新特性。在对新数据进行预测之前，对新数据集应用相同的特征转换。

自动模型选择

基于贝叶斯和ASHA优化的自动回归模型选择
使用fitrauto自动尝试选择具有不同超参数值的回归模型类型，给定训练预测器和响应数据。

Hyperparameter优化

贝叶斯优化工作流程
使用拟合函数或调用贝叶斯优化bayesopt直接。
变量的贝叶斯优化
为贝叶斯优化创建变量。
贝叶斯优化目标函数
为贝叶斯优化创建目标函数。
贝叶斯优化中的约束条件
为贝叶斯优化设置不同类型的约束。
优化一个增强回归集合
最小化回归集合的交叉验证损失。
贝叶斯优化图函数
直观地监视贝叶斯优化。
贝叶斯优化输出函数
监视贝叶斯优化。
贝叶斯优化算法
理解贝叶斯优化的基本算法。
平行的贝叶斯优化
贝叶斯优化是如何并行工作的。

模型的解释

解释机器学习模型
解释模型预测石灰而且沙普利对象和plotPartialDependence函数。
机器学习模型的Shapley值
使用两个算法计算机器学习模型的Shapley值:kernelSHAP和对kernelSHAP的扩展。

交叉验证

使用并行计算实现交叉验证
使用并行计算加速交叉验证。
基于增强回归树集合的时间序列预测
使用增强回归树集合执行单步和多步时间序列预测。

线性模型诊断

解释线性回归结果
显示和解释线性回归输出统计数据。
线性回归
拟合线性回归模型并检验结果。
具有交互效应的线性回归
建立并分析具有交互效应的线性回归模型，并解释结果。
输出和诊断统计摘要
利用模型属性和目标函数对拟合模型进行评估。
f统计量和t统计量
在线性回归中，F-statistic是方差分析(ANOVA)方法检验模型或模型中各成分显著性的检验统计量。的t-statistic用于对回归系数进行推断。
决定系数(r平方)
决定系数(r平方)表示响应变量的变异量的比例y由自变量解释X在线性回归模型中。
系数、标准误差和置信区间
估计的系数方差和协方差捕获回归系数估计的精度。
残差
残差对探测外围很有用y值和检查线性回归假设相对于回归模型中的误差项。
Durbin-Watson测试
Durbin-Watson检验评估时间序列数据残差之间是否存在自相关。
库克的距离
库克距离对于识别异常值很有用X值(对预测变量的观察)。
帽子矩阵与杠杆
帽子矩阵提供了一种衡量杠杆的方法。
Delete-1统计
减去1个协方差(CovRatio)确定对回归拟合有影响的观察结果。

广义线性模型诊断

广义线性模型
广义线性模型使用线性方法来描述预测项和响应变量之间潜在的非线性关系。

非线性模型诊断

非线性回归
参数非线性模型表示一个连续响应变量和一个或多个连续预测变量之间的关系。