绘制线性回归模型的观察诊断图
plotDiagnostics
创建一个观察诊断图,如杠杆、库克距离,并删除-1统计数据,以确定异常值和有影响的观察结果。
绘制杠杆值和库克的观察距离,并找出异常值。
加载carsmall
数据集和拟合的线性回归模型的里程作为一个函数的模型年,重量,和重量的平方。
负载carsmall台=表(MPG、重量);资源描述。年=分类(Model_Year);mdl = fitlm(资源描述,'MPG ~年+重量^2');
绘制杠杆值。
plotDiagnostics (mdl)传说(“显示”)%显示图例
虚线表示建议阈值2*p/n,在那里p是系数的个数,和n为观察次数。方法查找阈值NumCoefficients
和NumObservations
属性。
t_leverage = 2 * mdl.NumCoefficients / mdl.NumObservations
t_leverage = 0.1064
查找杠杆值超过阈值的观察值。
找到(mdl.Diagnostics。利用> t_leverage)
ans =3×126日32 35
您还可以使用数据提示找到一个观察数字。选择阈值线以上的数据点以显示它们的数据提示。数据提示包括x设在和y所选点的-axis值,以及观测数。
绘制库克的距离值。
plotDiagnostics (mdl“cookd”)
虚线表示建议阈值。计算阈值t_cookd
.
t_cookd = 3 *意味着(mdl.Diagnostics.CooksDistance,“omitnan”)
t_cookd = 0.0320
找出库克距离值超过阈值的观察值。
找到(mdl.Diagnostics。CooksDistance > t_cookd)
ans =6×126 35 80 90 92 97
两个观察值(26和35)在两种测量方法中都是异常值,但一些点(32、80、90、92和97)仅在一种测量方法中是异常值。
mdl
- - - - - -线性回归模型LinearModel
对象线性回归模型,指定为LinearModel
对象创建使用fitlm
或stepwiselm
.
plottype
- - - - - -类型的情节“杠杆”
(默认)|“轮廓”
|“cookd”
|“covratio”
|“dfbetas”
|“dffits”
|“s2_i”
plot的类型,指定为该表中的一个值。
价值 | 情节类型 | 图中的虚线参考线 | 目的 |
---|---|---|---|
“轮廓” |
剩余vs. Cook距离重叠轮廓的杠杆 | 库克距离的轮廓 | 识别具有大剩余值、高杠杆和大库克距离值的观察结果。 |
“cookd” |
库克的距离 | 建议阈值,由3 *意味着(mdl.Diagnostics.CooksDistance) |
用较大的库克距离值识别观察结果。 |
“covratio” |
减去-1协方差行列式之比 | 建议阈值,由1±3 * p / n ,在那里p 为系数个数(mdl。NumCoefficients ),n 为观测次数(mdl。NumObservations ) |
当delete-1统计值不在建议阈值范围内时,识别观察值。 |
“dfbetas” |
在系数估计中删除-1缩放差异 | 建议阈值,由3 /√(n) |
识别具有大删除-1统计值的观测值。 |
“dffits” |
删除-1比例差异的拟合值 | 建议阈值,由2 *倍根号(p / n) 用绝对值表示 |
在绝对值中识别具有大删除-1统计值的观测值。 |
“杠杆” |
利用 | 建议阈值,由2 * p / n |
确定高杠杆观察。 |
“s2_i” |
Delete-1方差 | 均方误差(mdl。均方误差 ) |
将删除-1方差与均方误差进行比较。 |
对于所有情节类型,除了“轮廓”
,x-axis是观察值的行号(大小写顺序)。
的诊断
的属性mdl
包含所使用的诊断值plotDiagnostics
创建块。
有关观察诊断的详细信息,请参见库克的距离,Delete-1统计,利用.
指定可选的逗号分隔的对名称,值
参数。的名字
参数名和价值
为对应值。的名字
必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家
.
“颜色”、“蓝”、“标记”,“o”
请注意
这里列出的图形属性只是一个子集。有关完整列表,请参见行属性.指定的属性决定诊断数据点的外观。
颜色
- - - - - -线颜色行颜色,指定为逗号分隔对,由“颜色”
和RGB三元组、十六进制颜色代码、颜色名称或下表中列出的颜色选项的简短名称。
的“颜色”
名称-值对参数还确定标记轮廓颜色和标记填充颜色“MarkerEdgeColor”
是“汽车”
(默认),“MarkerFaceColor”
是“汽车”
.
对于自定义颜色,指定RGB三元组或十六进制颜色代码。
RGB三元组是一个由三个元素组成的行向量,其元素指定颜色的红色、绿色和蓝色组件的强度。强度必须在这个范围内[0, 1]
;例如,(0.4 0.6 0.7)
.
十六进制颜色代码是以哈希符号开头的字符向量或字符串标量(#
),然后是3个或6个十六进制数字,其范围可以是0
来F
.这些值不区分大小写。因此,颜色是代码“# FF8800”
,“# ff8800”
,“# F80”
,“# f80”
是等价的。
或者,您可以通过名称指定一些常见的颜色。该表列出了已命名的颜色选项、等价的RGB三联体和十六进制颜色代码。
颜色名称 | 短名称 | RGB值 | 十六进制颜色代码 | 外观 |
---|---|---|---|---|
“红色” |
“r” |
(1 0 0) |
“# FF0000” |
|
“绿色” |
‘g’ |
(0 1 0) |
“# 00 ff00” |
|
“蓝” |
“b” |
(0 0 1) |
“# 0000 ff” |
|
“青色” |
“c” |
(0 1 1) |
“# 00飞行符” |
|
“红色” |
“米” |
(1 0 1) |
“#就” |
|
“黄色” |
“y” |
(1 1 0) |
“# FFFF00” |
|
“黑” |
“k” |
(0 0 0) |
# 000000的 |
|
“白色” |
' w ' |
(1 1 1) |
“# FFFFFF” |
|
“没有” |
不适用 | 不适用 | 不适用 | 没有颜色 |
这里是RGB三联体和十六进制颜色代码的默认颜色MATLAB®用于许多类型的情节。
RGB值 | 十六进制颜色代码 | 外观 |
---|---|---|
[0 0.4470 - 0.7410) |
“# 0072 bd” |
|
(0.8500 0.3250 0.0980) |
“# D95319” |
|
(0.9290 0.6940 0.1250) |
“# EDB120” |
|
(0.4940 0.1840 0.5560) |
“# 7 e2f8e” |
|
(0.4660 0.6740 0.1880) |
“# 77 ac30” |
|
(0.3010 0.7450 0.9330) |
“# 4 dbeee” |
|
(0.6350 0.0780 0.1840) |
“# A2142F” |
|
例子:“颜色”、“蓝”
线宽
- - - - - -线宽行宽,指定为逗号分隔对,由“线宽”
分数是正的。如果线有标记,那么线的宽度也会影响标记的边缘。
例子:“线宽”,0.75
标记
- - - - - -标记符号“o”
|“+”
|‘*’
|“。”
|“x”
|……标记符号,指定为逗号分隔对,由“标记”
和这个表中的一个值。
标记 | 描述 | 产生的标志 |
---|---|---|
“o” |
圆 |
|
“+” |
加号 |
|
‘*’ |
星号 |
|
“。” |
点 |
|
“x” |
交叉 |
|
“_” |
水平线 |
|
“|” |
垂直的线 |
|
“年代” |
广场 |
|
' d ' |
钻石 |
|
“^” |
Upward-pointing三角形 |
|
“v” |
向下的三角形 |
|
“>” |
三点三角形 |
|
“<” |
只左向三角形 |
|
“p” |
五角星形 |
|
“h” |
六角星形 |
|
“没有” |
没有标记 | 不适用 |
例子:“标记”,“+”
MarkerEdgeColor
- - - - - -大纲标志颜色“汽车”
(默认)|“没有”
|RGB值|十六进制颜色代码|颜色名称|短名称标记轮廓颜色,指定为逗号分隔对组成“MarkerEdgeColor”
和RGB三元组、十六进制颜色代码、颜色名称或其中一种颜色选项的简短名称颜色
名称-值对的论点。
的默认值“汽车”
使用由using指定的相同颜色“颜色”
.
例子:“MarkerEdgeColor”、“蓝”
MarkerFaceColor
- - - - - -标记填充颜色“没有”
(默认)|“汽车”
|RGB值|十六进制颜色代码|颜色名称|短名称标记填充颜色,指定为逗号分隔对组成“MarkerFaceColor”
和RGB三元组、十六进制颜色代码、颜色名称或其中一种颜色选项的简短名称颜色
名称-值对的论点。
的“汽车”
值使用由using指定的相同颜色“颜色”
.
例子:“MarkerFaceColor”、“蓝”
MarkerSize
- - - - - -标志尺寸6
(默认)|积极的价值标记大小,指定为逗号分隔对,由“MarkerSize”
分数是正的。
例子:“MarkerSize”,2
库克距离是拟合值的比例变化,这对识别异常值很有用X值(预测变量的观察值)。库克距离显示了每次观测对拟合响应值的影响。如果库克距离大于平均库克距离的三倍,则可能为异常值。
库克距离中的每一个元素D为由于删除观测值而拟合响应值的归一化变化。库克的观察距离我是
在哪里
是j拟合响应值。
是j拟合响应值,其中拟合不包括观测值我.
均方误差为均方误差。
p为回归模型中系数的个数。
库克距离在代数上等价于:
在哪里r我是我th残余,h2是我利用价值。
有关详细信息,请参见库克的距离.
删除-1统计数据对于发现每个观察的影响是有用的。这些统计数据捕捉了将每个观测结果依次排除在适合范围之外所导致的变化。如果delete-1统计数据与使用所有观测值的模型显著不同,则该观测值是有影响的。
看到Delete-1统计关于delete-1统计的定义和用法。
杠杆是对特定观察结果对回归预测的影响的度量,该影响是由该观察结果在输入空间中的位置决定的。
观察的作用我价值是多少我th对角线项h2帽子矩阵的H.这顶帽子矩阵H是用数据矩阵来定义的X:
H=X(XTX)1XT.
帽子矩阵也被称为投影矩阵因为它将观测向量投射到预测向量上 ,这样就给y戴上了“帽子”。
因为杠杆价值的总和是p(回归模型中系数的数目),一个观察我如果其杠杆率大幅超过,能否被视为异常值p/n,在那里n为观察次数。
有关详细信息,请参见帽子矩阵和杠杆.
数据游标在数据提示(位于数据点旁边的小文本框)中显示所选绘图点的值。数据提示包括x设在和y所选点的-axis值,以及观测名称或数字。
使用传奇(显示)
来显示预填充的图例。
一个LinearModel
对象提供多个绘图函数。
在创建模型时,使用plotAdded
了解添加或删除预测变量的影响。
当验证模型时,使用plotDiagnostics
找到有问题的数据,并理解每个观察的效果。此外,使用plotResiduals
分析模型的残差。
拟合模型后使用plotAdjustedResponse
,plotPartialDependence
,plotEffects
来了解一个特定预测器的影响。使用plotInteraction
了解两个预测因子之间的相互作用。此外,使用plotSlice
通过预测面绘制切片。
Neter, J., M. H. Kutner, C. J. Nachtsheim, W. Wasserman。应用线性统计模型,第四版。芝加哥:麦格劳-希尔·欧文,1996。
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。万博1manbetx
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。