线性回归模型
linearmodel.
是拟合的线性回归模型对象。回归模型描述了反应和预测器之间的关系。线性回归模型中的线性是指预测系数的线性。
使用linearmodel.
对象研究了一个拟合的线性回归模型。对象属性包括有关系数估计,摘要统计,拟合方法和输入数据的信息。使用对象函数来预测响应并修改,评估和可视化线性回归模型。
创建一个linearmodel.
对象的使用fitlm
或者stepwiselm
.
fitlm
使用固定模型规范为数据拟合线性回归模型。使用addTerms
,移除
或步
从模型中添加或删除术语。或者,使用stepwiselm
用逐步线性回归拟合模型。
系数协方差
- - - - - -系数估计的协方差矩阵系数
- - - - - -系数的名字此属性是只读的。
系数名称,指定为字符向量的单元数组,每个单元包含相应项的名称。
数据类型:细胞
系数
- - - - - -系数值此属性是只读的。
系数值,指定为表。系数
包含每行系数和这些列:
估计
-估计系数值
SE
-估计的标准误差
塔特
- - - - - -t-系数为零的测试的统计量
pvalue.
- - - - - -p-价值观t-统计数字
使用Anova.
(仅用于线性回归模型)或同等
在系数上执行其他测试。使用coefCI
找出系数估计的置信区间。
要获取这些列中的任何一列作为向量,请使用点表示法在属性中建立索引。例如,得到模型中估计的系数向量MDL.
:
beta = mdl.cofficients.Estimate
数据类型:桌子
NumCoefficients
- - - - - -模型系数数量此属性是只读的。
模型系数的数量,指定为正整数。NumCoefficients
包括当模型项缺乏等级时设置为零的系数。
数据类型:双倍的
NumEstimatedCoefficients
- - - - - -估计系数的数量此属性是只读的。
模型中的估计系数数,指定为正整数。NumEstimatedCoefficients
不包括当模型项缺乏等级时被设为零的系数。NumEstimatedCoefficients
是回归的自由度。
数据类型:双倍的
教育部
- - - - - -误差的自由度此属性是只读的。
误差(残差)的自由度,等于观测数减去估计系数数,指定为正整数。
数据类型:双倍的
诊断学
- - - - - -观察诊断此属性是只读的。
观察诊断,指定为一个表,其中包含每个观察的一行和该表中描述的列。
列 | 意义 | 描述 |
---|---|---|
利用 |
对角元素的哈特矩阵 |
利用 对于每个观察指示,通过观察到的预测值值确定拟合程度。靠近的值1 表明拟合在很大程度上取决于该观察结果,而其他观察结果的贡献很小。接近于0 表明拟合在很大程度上是由其他观察结果决定的。对于具有P 系数和N 的平均值利用 是P / N .一个利用 值大于2 * P / N 表示高杠杆率。 |
CooksDistance |
库克距离 | CooksDistance 是对拟合值按比例变化的度量。一个观察CooksDistance 库克距离可能是一个异常值。 |
Dffits |
删除-1比例差异的拟合值 | Dffits 是由于从拟合中排除该观测而导致的每个观测的拟合值的比例变化。值大于2*sqrt(P/N) 在绝对值上可以认为是有影响力的。 |
S2_i |
删除-1方差 | S2_i 是通过依次删除每个观测值而获得的一组剩余方差估计。这些估计值可与存储在数据库中的均方误差(MSE)值进行比较MSE 财产。 |
科罗拉蒂奥 |
Compariance的决定因素删除-1 | 科罗拉蒂奥 是系数协方差矩阵的决定因素的比率,每个观察依次删除,对整个模型的协方差矩阵的决定率。价值大于1 + 3 * P / N 或少于1-3*P/N 表明有影响力的点。 |
dfbetas. |
在系数估计中删除-1缩放差异 | dfbetas. 是一个N -经过-P 由依次排除每个观测结果得出的系数估计中的比例变化矩阵。价值大于3/平方米(北) 绝对值表明观察对相应系数具有显着影响。 |
哈特矩阵 |
要计算的投影矩阵拟合 来自观察到的回应 |
哈特矩阵 是一个N -经过-N 矩阵,it pited = hatmatrix * y , 在哪里Y 是响应向量和吗安装 为拟合响应值的向量。 |
诊断学
包含有助于寻找异常值和有影响力的观察的信息。删除-1诊断捕获从拟合转动时排除每个观察结果的更改。有关更多详细信息,请参阅帽子矩阵和杠杆,库克的距离, 和删除-1统计信息.
使用绘图诊断
绘制观察诊断。
由于缺失值而在契合中使用的行(在ObservationInfo。失踪
)或排除值(在观察invio.excluded.
)包含南
中的值CooksDistance
,Dffits
,S2_i
, 和科罗拉蒂奥
列和零利用
,dfbetas.
, 和哈特矩阵
列。
要获取这些列中的任何一列作为数组,请使用点表示法在属性中建立索引。例如,获取模型中delete-1方差向量MDL.
:
S2i=mdl.Diagnostics.S2i;
数据类型:桌子
安装
- - - - - -根据输入数据拟合响应值LogLikelihood
- - - - - -Loglikelihood此属性是只读的。
基于每个响应值遵循正常分布的假设,指定为数值的响应值的loglikihie。正态分布的平均值是拟合(预测)的响应值,方差是MSE
.
数据类型:单一的
|双倍的
ModelCriterion.
- - - - - -模型比较标准此属性是只读的。
模型比较标准,指定为具有以下字段的结构:
AIC.
- akaike信息标准。AIC = -2 * logl + 2 * m
, 在哪里logl.
loglikelihood和米
是估计参数的数量。
AICc
-赤池信息标准修正的样本量。AIC = AIC + (2*m*(m + 1))/(n - m - 1)
, 在哪里n
为观察次数。
BIC
-贝叶斯信息准则。BIC = -2 * logl + m * log(n)
.
中安集团经贸
-一致的赤池信息准则。CAIC=–2*logL+m*(对数(n)+1)
.
信息标准是模型选择工具,可用于比较适合同一数据的多个模型。这些标准是基于可能性的模型拟合度量,包括对复杂性(特别是参数数量)的惩罚。不同的信息标准因处罚的形式而不同。
当比较多个模型时,信息准则值最低的模型是拟合最好的模型。最佳拟合模型可以根据模型比较所用的标准而变化。
要获取标量形式的任何标准值,请使用点表示法在属性中建立索引。例如,获取AIC值另类投资会议
在模型中MDL.
:
aic=mdl.modelCriteria.aic
数据类型:结构体
MSE
- - - - - -平均方形错误此属性是只读的。
指定为数值的均方误差(残差)。
MSE=上交所/教育部,
在哪里MSE为均方误差,上交所是平方误差的总和,和教育部是自由度。
数据类型:单一的
|双倍的
残差
- - - - - -适合拟合模型的残差此属性是只读的。
拟合模型的残差,指定为一个表,其中包含每个观测的一行和表中描述的列。
列 | 描述 |
---|---|
生 |
观察到的减去拟合值 |
皮尔逊 |
原始残差除以均方根误差(RMSE) |
标准化 |
原始残差除以其估计标准偏差 |
Studentized |
原始残差除以残差标准差的独立估计。观测残差我除以基于除观测外的所有观测的误差标准差的估计值我. |
使用plotResiduals
创建残差的情节。有关详细信息,请参见残差.
由于缺失值而在契合中使用的行(在ObservationInfo。失踪
)或排除值(在观察invio.excluded.
)包含南
值。
要获取这些列中的任何一列作为向量,请使用点表示法在属性中建立索引。例如,获取原始残差向量r
在模型中MDL.
:
r = mdl.residuals.raw.
数据类型:桌子
RMSE
- - - - - -均方根误差此属性是只读的。
均方根误差(残差),指定为一个数值。
RMSE=√MSE),
在哪里RMSE是均方根误差和MSE为均方误差。
数据类型:单一的
|双倍的
rsquared.
- - - - - -模型的R平方值此属性是只读的。
模型的r平方值,指定为具有两个字段的结构:
普通的
-普通(未调整)r平方
调整
- r平方调整系数的数量
r平方值是模型所解释的总平方和的比例。一般的r平方值与苏维埃社会主义共和国
和风场
属性:
Rsquared = SSR /风场
,
在哪里风场
是总平方和,和苏维埃社会主义共和国
为回归平方和。
有关详细信息,请参见确定系数(R平方).
要获取这些值中的任何一个作为标量,请使用点表示法在属性中建立索引。例如,获取模型中调整后的r平方值MDL.
:
r2 = mdl.Rsquared.Adjusted
数据类型:结构体
上交所
- - - - - -平方误差的总和此属性是只读的。
被指定为数值的平方误差(残差)之和。
勾股定理意味着
SST=SSE+SSR
,
在哪里风场
是平方总和,上交所
是平方误差的总和,和苏维埃社会主义共和国
为回归平方和。
数据类型:单一的
|双倍的
苏维埃社会主义共和国
- - - - - -回归平方和此属性是只读的。
回归平方和,指定为一个数值。回归平方和等于拟合值离均值的方差平方和。
勾股定理意味着
SST=SSE+SSR
,
在哪里风场
是平方总和,上交所
是平方误差的总和,和苏维埃社会主义共和国
为回归平方和。
数据类型:单一的
|双倍的
风场
- - - - - -总平方和此属性是只读的。
用数值指定的平方和的总和。总平方和等于响应向量的偏差平方和y
来自意思是(y)
.
勾股定理意味着
SST=SSE+SSR
,
在哪里风场
是平方总和,上交所
是平方误差的总和,和苏维埃社会主义共和国
为回归平方和。
数据类型:单一的
|双倍的
健壮的
- - - - - -稳健拟合信息此属性是只读的。
强大的拟合信息,指定为具有此表中描述的字段的结构。
场 | 描述 |
---|---|
WgtFun |
鲁棒加权函数,如“bisquare” (看“RobustOpts” ) |
调优 |
调优常数。此字段为空([] )如果WgtFun 是“ols” 或者如果WgtFun 是带有默认调优常数1的自定义权重函数的函数句柄。 |
权重 |
在坚强的适合的最终迭代的重量传染媒介。这个字段为空为空紧凑线性模型 对象。 |
这个结构是空的,除非您使用稳健回归拟合模型。
数据类型:结构体
步骤
- - - - - -逐步拟合信息此属性是只读的。
逐步拟合信息,指定为具有此表中描述的字段的结构。
场 | 描述 |
---|---|
开始 |
表示起始模型的公式 |
降低 |
表示下界模型的公式。的条款降低 必须留在模型中。 |
上 |
表示上限模型的公式。模型包含的术语不能超过个上 . |
标准 |
准则用于逐步算法,如“上世纪” |
p |
阈值标准 添加一个术语 |
PRemove |
阈值标准 删除一个术语 |
历史 |
表格代表拟合所采取的步骤 |
的历史
表包含每个步骤的一行,包括初始合适,以及此表中描述的列。
列 | 描述 |
---|---|
行动 |
步骤中采取的行动:
|
TermName |
|
术语 |
模型规范术语矩阵 |
DF |
步后的回归自由度 |
delDF |
与上一步相比,回归自由度的变化(对于删除一项的步骤为负) |
异常 |
步长偏差(残差平方和)(仅适用于广义线性回归模型) |
函数 |
F-导致步骤的统计数据 |
PValue |
p价值的F-统计数字 |
结构是空的,除非您使用逐步回归拟合模型。
数据类型:结构体
公式
- - - - - -模型信息linearformula
对象此属性是只读的。
模型信息,指定为linearformula
对象。
显示拟合模型的公式MDL.
使用点符号:
mdl.公式
NumObservations
- - - - - -观察次数此属性是只读的。
用于拟合的拟合函数的观测数,指定为正整数。NumObservations
原始表、数据集或矩阵中提供的观察数是否减去任何排除的行(用“排除”
名称-值对参数)或缺少值的行。
数据类型:双倍的
NumPredictors
- - - - - -预测变量数此属性是只读的。
用于拟合模型的预测变量数,指定为正整数。
数据类型:双倍的
数变量
- - - - - -数量的变量此属性是只读的。
输入数据中的变量数,指定为正整数。数变量
为原始表或数据集中变量的数量,或预测器矩阵和响应向量中列的总数。
数变量
也包括任何变量,不是用来适合模型作为预测或作为响应。
数据类型:双倍的
ObservationInfo
- - - - - -观测信息此属性是只读的。
观察信息,指定为一个n-by-4表,在哪里n等于输入数据的行数。ObservationInfo
包含该表中描述的列。
列 | 描述 |
---|---|
权重 |
观察权值,指定为数值。默认值为1 . |
被排除在外 |
排除观察的指标,指定为逻辑值。价值是真的 如果你用“排除” 名称-值对的论点。 |
失踪 |
缺失观测值的指示符,指定为逻辑值。这个值是真的 如果观察缺失。 |
子集 |
拟合函数是否使用观测值的指标,指定为逻辑值。这个值是真的 如果未排除或缺失观察,这意味着拟合功能使用观察。 |
要获取这些列中的任何一列作为向量,请使用点表示法在属性中建立索引。例如,获取权值向量w
模型的MDL.
:
w = mdl.ObservationInfo.Weights
数据类型:桌子
观察名称
- - - - - -观察名称此属性是只读的。
观察名称,指定为字符向量的单元格数组,其中包含拟合中使用的观察名称。
如果匹配是基于包含观测名称的表或数据集,观察名称
使用这些名称。
除此以外,观察名称
是一个空单元格数组。
数据类型:细胞
PredictorNames
- - - - - -用于拟合模型的预测器名称此属性是只读的。
用于拟合模型的预测器名称,指定为字符向量的单元数组。
数据类型:细胞
ResponseName
- - - - - -响应变量名此属性是只读的。
响应变量名称,指定为字符向量。
数据类型:char
变量税收
- - - - - -关于变量的信息此属性是只读的。
有关中包含的变量的信息变量
,指定为一个表,每个变量和表中描述的列对应一行。
列 | 描述 |
---|---|
班级 |
变量类,指定为字符向量的单元格数组,例如'双倍的' 和'分类' |
范围 |
可变范围,指定为传感器的单元格数组
|
InModel |
在拟合模型中的变量的指示符,指定为逻辑向量。这个值是真的 如果模型包括变量。 |
分类的 |
分类变量的指示符,指定为逻辑向量。这个值是真的 如果变量是分类的。 |
变量税收
也包括任何变量,不是用来适合模型作为预测或作为响应。
数据类型:桌子
VariableNames
- - - - - -变量的名字此属性是只读的。
变量名,指定为字符向量的单元格数组。
如果适合基于表或数据集,则此属性提供表或数据集中变量的名称。
如果拟合是基于预测矩阵和响应向量,VariableNames
属性指定的值'varnames'
拟合方法的名称值对参数。默认值'varnames'
是{'x1','x2',...,'xn','y'}
.
VariableNames
也包括任何变量,不是用来适合模型作为预测或作为响应。
数据类型:细胞
变量
- - - - - -输入数据此属性是只读的。
输入数据,指定为表。变量
包含预测器和响应值。如果适合是基于表或数据集数组,变量
包含来自表或数据集数组的所有数据。除此以外,变量
是否从输入数据矩阵创建了一个表X
响应向量y
.
变量
也包括任何变量,不是用来适合模型作为预测或作为响应。
数据类型:桌子
紧凑线性模型
袖珍的 |
紧凑线性回归模型 |
Anova. |
线性回归模型的差异分析 |
coefCI |
线性回归模型系数估计的置信区间 |
同等 |
线性回归模型系数的线性假设检验 |
dwtest |
线性回归模型对象的德宾-沃森检验 |
partialDependence |
计算部分相关性 |
情节 |
线性回归模型的散点图或附加变量图 |
plotadded. |
线性回归模型的添加变量图 |
plotAdjustedResponse |
线性回归模型调整后的响应图 |
绘图诊断 |
绘制线性回归模型的观察诊断图 |
plotEffects |
在线性回归模型中绘制预测因子的主要作用 |
plotInteraction |
在线性回归模型中绘制两个预测因子的交互作用 |
绘图竞争依赖性 |
创建部分依赖图(PDP)和个人有条件期望(ICE)情节 |
plotResiduals |
线性回归模型的残差图 |
绘图切片 |
通过拟合线性回归表面切片图 |
收集 |
从GPU中收集机器学习模型的属性 |
使用矩阵输入数据集拟合线性回归模型。
加载carsmall
数据集,一个矩阵输入数据集。
负载carsmallX =(重量、马力、加速度);
利用拟合线性回归模型fitlm
.
mdl = fitlm (X,英里/加仑)
mdl = Linear regression model: y ~ 1 + x1 + x2 + x3 Estimated Coefficients: Estimate SE tStat pValue __________ _________ _________ __________ (Intercept) 47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236观测数:93、误差自由度:89均方根误差:4.09 r平方:0.752,校正r平方:0.744 f统计量与常数模型:90,p-value = 7.38e-27
模型显示包括模型公式、估计系数和模型汇总统计。
显示的模型公式,Y〜1 + x1 + x2 + x3
,对应于
.
模型显示还显示了估计的系数信息,这些信息存储在系数
财产。显示系数
财产。
mdl。系数
ans =.4×4表估算率SE TSTAT PVALUE __________ _________ ____________________________________________0.0065416 0.023 0.0.080330.024313 0.01933 -1.0.01133 -20.024313 0.0233330.03958/03023 0.0.04313 0.023 0.0.04313 0.023 0.0.042943
的系数
属性包含这些列:
估计
-模型中每个对应项的系数估计。例如,对常数项的估计(截距
)是47.977。
SE
-系数的标准误差。
塔特
- - - - - -t对于每个系数来测试NULL假设的间距,即,在模型中的其他预测器中,相应的系数与其不同的替代是零的零。注意tStat =估计/ SE
. 例如t-statistic for the intercept is 47.977/3.8785 = 12.37。
pvalue.
- - - - - -p-价值观t对相应系数等于零的假设测试。例如,p价值的t-统计x2
大于0.05,因此该术语在5%的意义水平上没有显着鉴于模型中的其他术语。
模型的摘要统计数据是:
观察次数
- 没有任何行的行数南
值。例如,观察次数
是93因为MPG.
数据向量有六个属性南
价值和马力
数据向量有一个南
值,其中行数X
和MPG.
是100。
误差自由度
- - - - - -n- - - - - -p, 在哪里n是观察人数,和p是模型中的系数数量,包括截距。例如,该模型有四个预测因子,所以误差自由度
是93 - 4 = 89。
均方根误差
- 平均方形误差的平方根,估计错误分布的标准偏差。
R平方
和调整的R角
-分别为确定系数和调整确定系数。例如,R平方
值表明,该模型解释了响应变量中大约75%的变化MPG.
.
F统计与常量模型
-测试统计F-对回归模型的检验,检验模型是否明显优于仅包含常数项的退化模型。
假定值
- - - - - -p-价值观F-测试模型。例如,模型是有意义的p-数值为7.3816e-27。
您可以在模型属性中找到这些统计信息(NumObservations
,教育部
,RMSE
, 和rsquared.
)通过使用Anova.
函数。
方差分析(mdl'概括')
ans =.3×5表SUMSQ DF均衡Q _____________________________________总共6004.8 92 65.269型号4516 3 1505.3 89.987 7.3816E-27剩余1488.8 89 16.728
适合包含分类预测器的线性回归模型。重新排序分类预测器的类别以控制模型中的参考级别。然后,使用Anova.
测试分类变量的重要性。
分类预测器模型
加载carsmall
数据集并建立线性回归模型MPG.
作为一个函数Model_Year
.处理数值向量Model_Year
作为一个分类变量,确定预测器使用“CategoricalVars”
名称-值对的论点。
负载carsmallmdl=fitlm(车型年款,MPG,“CategoricalVars”,1,'varnames',{“Model_Year”,“英里”})
mdl =线性回归模型:MPG ~ 1 + Model_Year Estimated Coefficients: Estimate SE tStat pValue ________ ______ ______ __________ (Intercept) 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 3.8839 1.4059 2.7625 0.0069402 Model_Year_82 14.02 1.4369 9.7571 8.2164e-16观测数:94,误差自由度:91均方根误差:5.56 R-squared: 0.531, Adjusted R-squared: 0.521 F-statistic vs. constant model: 51.6, p-value = 1.07e-15
显示的模型公式,MPG ~ 1 + Model_Year
,对应于
,
在哪里
和
是指示变量,如果值为值Model_Year
分别为76和82。的Model_Year
变量包括三个不同的值,您可以使用独特的
函数。
唯一(model_year)
ans =3×170 76 82.
fitlm
选择最小的价值Model_Year
作为参考水平('70'
)并创建两个指示器变量
和
.该模型仅包括两个指示器变量,因为如果模型包括三个指示器变量(每个级别)和截距项,则设计矩阵变为级别缺乏。
具有完整指示器变量的模型
你可以解释的模型公式MDL.
作为一个没有截距术语的三个指示变量的模型:
.
或者,您可以通过手动创建指示器变量并指定型号公式,创建一个没有截距项的指示变量的模型。
temp_year = dummyvar(分类(model_year));model_year_70 = temp_year(:,1);model_year_76 = temp_year(:,2);model_year_82 = temp_year(:,3);TBL =表(Model_year_70,model_year_76,model_year_82,mpg);mdl = fitlm(tbl,'mpg〜model_year_70 + model_year_76 + model_year_82 - 1')
MDL =线性回归模型:MPG〜Model_Year_70 + Model_Year_76 + Model_Year_82估计系数:估计SE TSTAT p值________ _______ ______ __________ Model_Year_70 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 21.574 0.95387 22.617 4.0156e-39 Model_Year_82 31.71 0.99896 31.743 5.2234e-51的数观察:94,误差自由度:91根均方误差:5.56
在模型中选择参考级别
可以通过修改类别变量中类别的顺序来选择参考级别。首先,创建一个分类变量一年
.
年=分类(model_year);
属性检查类别的顺序类别
函数。
类别(年)
ans =3x1细胞””{70}{76}{82 '}
如果你使用一年
作为一个预测变量fitlm
选择第一类'70'
作为参考水平。重新订购一年
通过使用reordercats
函数。
Year_reordered = reordercats(一年,{“76”,'70','82'}); 类别(重新排序的年份)
ans =3x1细胞{'76'} {'70'} {'82'}
第一类Year_reordered
是“76”
.创建的线性回归模型MPG.
作为一个函数Year_reordered
.
mdl2 = fitlm (Year_reordered MPG,'varnames',{“Model_Year”,“英里”})
mdl2=线性回归模型:MPG~1+模型年估计系数:估计统计价值(截距)21.574 0.95387 22.617 4.0156e-39模型年70-3.8839 1.4059-2.7625 0.0062模型年10.388-12.36E观测值数量:,误差自由度:91均方根误差:5.56 R平方:0.531,调整R平方:0.521 F统计与常数模型:51.6,p值=1.07e-15
mdl2
使用“76”
作为参考水平,包括两个指标变量
和
.
评估分类预测
的模型展示mdl2
包括一个p-每一项的值,以检验对应的系数是否等于零。每一个p-Value检查每个指示器变量。检查分类变量Model_Year
作为一组指示器变量,使用Anova.
. 使用“组件”
(默认)选项返回组件方差分析表,其中包括模型中除常数项外的每个变量的方差分析统计数据。
方差分析(mdl2,“组件”)
ans =.2×5表SumSq DF MeanSq F pValue ________ ______ _____ __________ Model_Year 3190.1 2 1595.1 51.56 1.0694e-15错误2815.2 91 30.936
成分方差分析表包括p价值的Model_Year
变量,它小于p-指标变量的值。
加载哈尔德
数据集,测量水泥成分对其硬化热的影响。
负载哈尔德
此数据集包括变量成分
和热
.矩阵成分
含有水泥中存在的四种化学品的百分比组成。矢量热
包含每个水泥样品在180天后的热硬化值。
适用于数据的强大线性回归模型。
MDL = FITLM(成分,热,“RobustOpts”,“上”)
mdl =线性回归模型(稳健拟合):y ~ 1 + x1 + x2 + x3 + x4Estimate SE tStat pValue ________ _______ ________ ________ (Intercept) 60.09 75.818 0.79256 0.4509 x1 1.5753 0.80585 1.9548 0.086346 x2 0.5322 0.78315 0.67957 0.51596 x3 0.13346 0.8166 0.16343 0.87424 x4 -0.12052 0.7672 -0.15709 0.87906观测数:13,误差自由度:8均方根误差:2.65 r平方:0.979,调整后的R-Squared: 0.969 F-statistic vs. constant model: 94.6, p-value = 9.03 -07
有关更多细节,请参阅主题使用强大的回归减少异常效果,将稳健拟合的结果与标准最小二乘法进行比较。
加载哈尔德
数据集,测量水泥成分对其硬化热的影响。
负载哈尔德
此数据集包括变量成分
和热
.矩阵成分
含有水泥中存在的四种化学品的百分比组成。矢量热
包含每个水泥样品在180天后的热硬化值。
对数据拟合一个逐步线性回归模型。指定0.06作为向模型添加术语的条件的阈值。
mdl =步骤(成分,热,'penter',0.06)
1.添加x4, FStat = 22.7985, pValue = 0.000576232添加x1, FStat = 108.2239, pValue = 1.105281e-063 .添加x2, FStat = 5.0259, pValue = 0.051687移除x4, FStat = 1.8633, pValue = 0.2054
mdl =线性回归模型:y ~ 1 + x1 + x2估计系数:估计SE tStat pValue ________ ________ ______ __________ ( 拦截)52.577 2.2862 22.998 5.4566平台以及x1 e-07 x2 0.66225 0.045855 14.442 2.6922 1.4683 0.1213 12.105 5.029 e-08数量的观察:13日误差自由度:10根均方误差:2.41平方:0.979,调整后的R-Squared: 0.974 F-statistic vs. constant model: 230, p-value = 4.41e-09
默认情况下,起始模型是常量模型。stepwiselm
执行前向选择并添加x4
,x1
, 和x2
项(按那个顺序),因为相应的p-值小于p
值为0.06。stepwiselm
然后使用反向消除和删除x4
从模型中,因为,一次x2
是在模型中p-的价值x4
大于默认值PRemove
,0.1。
术语矩阵T
是一个t-经过-(p+ 1)指定模型中的项的矩阵,其中t是项的个数,p是预测变量的数量,+1帐户响应变量。的价值T (i, j)
是变量的指数吗j
长期我
.
例如,假设一个输入包含三个预测变量x1
,x2
, 和x3
以及响应变量y
的顺序x1
,x2
,x3
, 和y
.每一排T
代表一个术语:
[0 0 0]
-常数项或截距
[0 1 0 0]
- - - - - -x2
;同等,x1^0*x2^1*x3^0
[1 0 1 0]
- - - - - -x1 * x3
[2 0 0]
- - - - - -x1 ^ 2
[0 1 2 0]
- - - - - -x2 *(x3 ^ 2)
的0
在每一项的末尾表示响应变量。通常,项矩阵中的零列向量表示响应变量的位置。如果在矩阵和列向量中有预测器和响应变量,则必须包括0
对于每行最后一列中的响应变量。
为减少在高维数据集上的计算时间,拟合线性回归模型使用fitrlinear
函数。
要使回归规则化,请使用fitrlinear
,套索
,脊
或plsregress.
.
fitrlinear
使用套索或岭回归对高维数据集的回归进行正则化。
套索
使用套索或弹性网删除线性回归中的冗余预测值。
脊
使用RIDGE回归将回归与相关项进行正常化。
plsregress.
使用部分最小二乘来规则地用相关项进行回归。
使用说明和限制:
以下对象函数完全支持GPU阵列:万博1manbetx
下面的对象函数支持带有GPU阵列输入参数的模型对象:万博1manbetx
有关更多信息,请参阅在GPU上运行MATLAB函数(并行计算工具箱).
你点击一个链接对应于这个MATLAB命令:
在MATLAB命令窗口中输入它来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。