主要内容

plotPartialDependence

创建部分依赖图(PDP)和个人条件期望图(ICE)

描述

例子

plotPartialDependence (Regersionmdl.var计算和绘制中列出的预测变量之间的部分依赖关系var并且使用回归模型预测的响应Regersionmdl.,其中包含预测数据。

  • 如果你指定一个变量var,函数创建一个与变量部分相关的线图。

  • 如果你指定两个变量var,函数创建一个与这两个变量部分相关的曲面图。

例子

plotPartialDependence (ClassificationMdlvar标签计算和绘制中列出的预测变量之间的部分依赖关系var以及在标签通过使用分类模型ClassificationMdl,其中包含预测数据。

  • 如果你指定一个变量var还有一节课标签,函数创建指定类对变量的部分依赖关系的线图。

  • 如果你指定一个变量var和多个课程标签,函数在一个图形上为每个类创建一个线图。

  • 如果你指定两个变量var还有一节课标签,函数创建一个与这两个变量部分相关的曲面图。

例子

plotPartialDependence (___数据使用新的预测数据数据.您可以指定数据除了以前的语法中的任何输入参数组合。

例子

plotPartialDependence (___名称,值使用由一个或多个名称-值对参数指定的附加选项。例如,如果指定'条件','绝对', 这plotPartialDependence功能创建一个图,包括PDP,所选预测变量的散点图和预测的响应或分数,以及每个观察的冰图。

例子

斧头= plotPartialDependence(___返回绘图的轴。

例子

全部折叠

使用的方法训练回归树carsmall数据集,并创建一个显示特征与训练回归树中的预测响应之间关系的PDP。

加载carsmall数据集。

负载carsmall

指定重量气缸,马力为预测变量(X),英里/加仑作为响应变量(Y).

X =(重量、气缸、马力);Y = MPG;

使用回归树使用XY

Mdl = fitrtree (X, Y);

查看经过训练的回归树的图形显示。

视图(Mdl,'模式'“图”

Figure回归树查看器包含UIMEnu,UIControl类型的轴和其他对象。轴包含60个类型的类型线,文本。

创建第一个预测变量的PDP,重量

plotPartialDependence (Mdl, 1)

图中包含一个坐标轴。标题为“部分依赖关系图”的轴包含一个类型为line的对象。

绘制的线表示平均部分关系重量(标记为X1),英里/加仑(标记为Y)在训练的回归树中Mdl.这x-axis次要刻度表示唯一的值X1

回归树查看器显示第一个决定是吗?X1小于3085.5。PDP在附近也显示出了很大的变化X1= 3085.5。树查看器根据预测变量可视化每个节点上的每个决策。可以根据的值找到多个节点X1,但确定的依赖YX1是不容易的。然而,plotPartialDependence图平均预测的反应X1,所以你可以清楚地看到部分依赖YX1

标签X1Y是预测器名称和响应名称的默认值。您可以通过指定名称-值对参数来修改这些名称“PredictorNames”“ResponseName”当你训练Mdl使用fitrtree.属性也可以修改轴标签XLabel.ylabel.职能。

培训一个天真的贝母分类模型fisheriris数据集,并创建一个PDP,该PDP显示了用于多个类的预测变量和预测分数(后验概率)之间的关系。

加载fisheriris数据集,包括物种(物种)及尺寸(测定)的萼片长度,萼片宽度,花瓣长度和花瓣宽度为150个鸢尾标本。该数据集包含了来自三个物种的50个样本:梭子蟹、花斑蟹和弗吉尼亚蟹。

负载fisheriris

用。训练朴素贝叶斯分类模型物种作为响应测定为预测因子。

Mdl = fitcnb(量、种类);

创建一个预期的分数的PDPMdl所有的三个类物种对第三个预测变量X3.属性指定类标签一会的属性Mdl

plotPartialDependence(MDL,3,MDL.Classnames);

图中包含一个坐标轴。具有标题部分依赖图的轴包含3个类型的线。这些对象代表Setosa,Versicolor,Virginica。

根据这个模型,发生的概率弗吉纳斯增加而X3.概率setosa大约0.33,从哪里来X3是0到约2.5,然后概率下降到几乎0。

使用生成的样本数据列出高斯过程回归模型,其中响应变量包括预测器变量之间的交互。然后,创建冰块,显示特征与每个观察的预测响应之间的关系。

生成样本预测数据X1X2

RNG(“默认”重复性的%n = 200;x1 = rand(n,1)* 2-1;x2 = rand(n,1)* 2-1;

生成包含与之间的交互的响应值X1X2

Y = x1-2 * x1。* (x2 > 0) + 0.1 *兰德(n, 1);

创建一个高斯过程回归模型使用(x1, x2))Y

Mdl = fitrgp([x1 x2],Y);

为第一个预测器创建一个包括PDP(红线)的图X1,一个散点图(圆标记)的X1和预测响应,并通过指定一组ICE图(灰色线)'条件'作为“中心”

plotPartialDependence (Mdl 1'条件'“中心”

图中包含一个坐标轴。标题为“个体条件期望图”的坐标轴包含202个类型为线、散点的对象。

什么时候'条件'“中心”plotPartialDependence偏移绘图,使所有绘图从零开始,这有助于检查所选功能的累积效果。

PDP发现平均关系,因此它不会揭示隐藏的依赖关系,特别是当响应包括特性之间的交互时。然而,ICE图清楚地显示了两种不同的响应依赖关系X1

培训分类模型的集合并创建两个PDP,使用培训数据集,另一个使用新的数据集。

加载census1994数据集,其中包含美国年薪数据,分类为< = 50 k或者> 50K.,以及几个人口统计变量。

负载census1994

提取一个变量子集以分析表adultdata成年人

x = AdultData(:,{“年龄”'工作组'“education_num”“marital_status”'种族'...'性别'“capital_gain”“capital_loss”'每周几小时'“工资”});Xnew =成人(:,{“年龄”'工作组'“education_num”“marital_status”'种族'...'性别'“capital_gain”“capital_loss”'每周几小时'“工资”});

用。训练分类器集合工资作为响应,其余变量使用函数作为预测器fitcensemble..对于二进制分类,fitcensemble.使用汇集100个分类树LogitBoost方法。

Mdl = fitcensemble (X,“工资”);

检查类名Mdl

Mdl。ClassNames
ans =2x1分类< = 50 k > 50 k

创建一个部分依赖图的分数预测Mdl对于第二阶级工资> 50K.)与预测者相反年龄使用训练数据。

plotPartialDependence (Mdl“年龄”,mdl.classnames(2))

图中包含一个坐标轴。标题为“部分依赖关系图”的轴包含一个类型为line的对象。

创建一个班级成绩的PDP> 50K.年龄使用表中新的预测器数据Xnew

plotPartialDependence (Mdl“年龄”Xnew Mdl.ClassNames (2))

图中包含一个坐标轴。标题为“部分依赖关系图”的轴包含一个类型为line的对象。

这两张图显示了预测高分的部分依赖性的相似形状工资> 50K.)年龄.这两个地块表明,预测的高薪得分速度速度快到30岁,然后保持几乎扁平,直到60岁,然后快速下降。然而,基于新数据的曲线产生超过65岁的比分略高。

训练一个回归集合使用carsmall数据集,并使用新数据集为每个预测变量创建一个PDP图和ICE图,carbig.然后,比较数字来分析预测器变量的重要性。此外,将结果与预测因素重要性的估计进行比较predictorImportance函数。

加载carsmall数据集。

负载carsmall

指定重量气缸马力,model_year.为预测变量(X),英里/加仑作为响应变量(Y).

X =[重量、气缸、马力,Model_Year];Y = MPG;

使用训练回归集成XY

Mdl = fitrensemble (X, Y,...“PredictorNames”,{“重量”'气瓶''马力'“年”},...“ResponseName”“英里”);

通过使用使用来创建预测变量的重要性plotPartialDependencepredictorImportance职能。这plotPartialDependence函数可视化所选预测器和预测响应之间的关系。predictorImportance总结了单值预测器的重要性。

为每个预测器创建一个包括PDP图(红线)和ICE图(灰线)的图plotPartialDependence并指定'条件','绝对'.每个图还包括所选预测器的散点图(圆标记)和预测的响应。另外,加载carbig并将其作为新的预测数据,Xnew.当你提供Xnew, 这plotPartialDependence函数使用Xnew而不是预测的数据Mdl

负载carbigXnew =[重量、气缸、马力,Model_Year];图t = tiledlayout(2,2,'tileespacing'“紧凑”);标题(t)“个人有条件期望地块”i = 1: 4 nexttile plotpartialdependency (Mdl,i,Xnew,'条件'“绝对”)标题(结束

图包含4个轴。轴1包含408型型线,分散。轴2包含408个类型的线,散射。轴3包含408型型线,散射。轴4包含408型型线,散射。

通过使用计算预测器重要性的估计predictorImportance.该函数对每个预测器的分裂导致的均方误差(MSE)的变化进行求和,然后除以分支节点的数量。

小鬼= predictorImportance (Mdl);图酒吧(imp)标题('预测重点估计')ylabel(“估计”)xlabel(“预测”斧头= GCA;ax.xticklabel = mdl.predictornames;

图中包含一个坐标轴。具有标题预测值重要性估计的轴包含类型栏的对象。

的变量重量影响最大的是英里/加仑根据预测的重要性。PDP的重量也显示出来英里/加仑有很大的部分依赖重量.的变量气缸影响最小英里/加仑根据预测的重要性。PDP的气缸也显示出来英里/加仑是不是变化很大取决于气缸

用线性和相互作用术语训练推广添加剂模型(GAM)以获得预测器。然后,使用线性和交互术语和仅具有线性术语的PDP创建PDP。指定是否在创建PDP时包含交互术语。

加载电离层数据集。该数据集有34个预测器和351个雷达返回的二进制响应,或坏('B')或好('G').

负载电离层

使用预测器训练GAMX和类标签Y.推荐的做法是指定类名。指定包含10个最重要的交互项。

Mdl = fitcgam (X, Y,“类名”,{'B''G'},“互动”10);

Mdl是A.Classificationgam.模型对象。

列出中的交互项Mdl

Mdl。的相互作用
ans =10×21 5 7 8 6 7 5 6 5 7 5 8 3 5 4 7 1 7 4 5

每一行的的相互作用表示一个交互项,并包含该交互项的预测变量的列索引。

在交互术语中找到最常见的预测器。

模式(Mdl。相互作用,“所有”
ans = 5

交互术语中最常见的预测器是第五预测器(X5).为第五个预测者创建pdp。要从计算中排除交互项,请指定“IncludeInteractions”,假的第二个PDP。

PlotPartialDependence(MDL,5,MDL.Classnames(1))保持plotPartialDependence (Mdl 5 Mdl.ClassNames (1),“IncludeInteractions”,假)网格传奇(“线性和互动术语”'仅线性条款')标题(“第5个预测者的后验概率pdp”)举行

图中包含一个坐标轴。第5 Predictor的后验概率pdp轴包含2个类型为line的对象。这些对象表示线性和交互项,仅表示线性项。

该图显示了分数(后验概率)的部分依赖性X5根据模型是否包括交互术语而变化,尤其是在哪里X5介于0.2和0.45之间。

使用培训支持向量万博1manbetx机(SVM)回归模型carsmall数据集,并创建两个预测变量的PDP。然后,从的输出中提取部分相关估计plotPartialDependence.或者,您可以通过使用partialDependence函数。

加载carsmall数据集。

负载carsmall

指定重量气缸移位,马力为预测变量(TBL.).

台=表(重量、汽缸、排量、马力);

使用SVM回归模型使用TBL.以及响应变量英里/加仑.使用带有自动核尺度的高斯核函数。

Mdl = fitrsvm (MPG(资源,“ResponseName”“英里”...“CategoricalPredictors”'气瓶''标准化',真的,...“KernelFunction”'高斯'“KernelScale”“汽车”);

创建一个PDP,可视化预测响应的部分依赖(英里/加仑)的预测变量重量气缸.指定查询点以计算部分依赖重量通过使用“QueryPoints”名称-值对的论点。您不能指定“QueryPoints”价值气缸因为它是一个分类变量。plotPartialDependence使用所有的分类值。

pt = linspace (min(重量),max(重量),50)';ax = plotPartialDependence (Mdl, {“重量”'气瓶'},“QueryPoints”, {pt, []});视图(140,30)%修改查看角度

图中包含一个坐标轴。标题为“部分依赖关系图”的轴包含一个类型为surface的对象。

PDP显示了相互作用效果重量气缸.部分相关英里/加仑重量值的变化气缸

提取的估计偏相关英里/加仑重量气缸.这XDataYData,ZData的值AX.Children.是X轴值(第一选择的预测值值),y轴值(第二选定的预测值值)和z轴值(相应的部分依赖值)。

xval = ax.chillren.xdata;yval = ax.children.ydata;zval = ax.children.zdata;

或者,您可以通过使用partialDependence函数。

(pd, x, y) = partialDependence (Mdl, {“重量”'气瓶'},“QueryPoints”, {pt, []});

PD.包含查询点的部分依赖项值xy

如果您指定'条件'作为“绝对”plotPartialDependence创建一个包括PDP、散点图和一组ICE图的图形。AX.CHILDREN(1)AX.CHILDREN(2)分别对应于PDP和散点图。其余的元素AX.Children.对应于冰块。这XDataYData的值AX.CHILDREN(I)是X轴值(所选预测值值)和Y轴值(相应的部分依赖值)。

输入参数

全部折叠

回归模型,指定为完整或紧凑的回归模型对象,如下表所示。万博1manbetx

模型 完整或紧凑模型对象
广义线性模型 GeneralizedLinearModelCompact一项式标Model.
广义线性混合效应模型 GeneralizedLinearMixedModel
线性回归 linearmodel.CompactLinearModel.
线性混合效应模型 LinearMixedModel
非线性回归 非线性模型
回归模型的集合 回归RegressionBaggedEnsemblecompactregressionensemble.
广义添加剂模型(GAM) RegressionGAMcompactregressiongam.
高斯过程回归 regressiongp.CompactRegressionGP
高斯内核回归模型使用随机特征扩展 RegressionKernel
高维数据的线性回归 RegressionLinear
神经网络回归模型 回归翁网络网络CompactRegressionNeuralNetwork
万博1manbetx支持向量机回归 回归vm.compactregressionsvm.
回归树 回归植物CompactRegressionTree
决策树集合的引导集合 TreeBaggerCompactTreeBagger

如果Regersionmdl.如果模型对象不包含预测器数据(例如,紧凑模型),您必须提供输入参数吗数据

plotPartialDependence不支持使用稀疏矩阵万博1manbetx训练的模型对象。当您训练一个模型时,使用一个完整的数字矩阵或表格来预测数据,其中行对应于单个的观察结果。

分类模型,指定为完整或紧凑型分类模型对象,如下表所支持的模型中给出。万博1manbetx

模型 完整或紧凑模型对象
判别分析分类器 ClassificationDiscriminantCompactClassificationDiscriminant
支持向量机或其他分类器的多款模型万博1manbetx ClassificationECOCCompactClassificationECOC
用于分类的学习者集合 分类素..CompactClassificationseMbleClassificationBaggedensemble.
广义添加剂模型(GAM) Classificationgam.CompactClassificationGAM
高斯核分类模型使用随机特征展开 ClassificationKernel.
k最近的邻居分类器 ClassificationKNN
线性分类模型 ClassificationLinear
Multiclass Naive Bayes模型 ClassificationniveBayes.CompactClassificationNaiveBayes
神经网络分类器 ClassificationNeuralNetworkCompactClassificationneAuralKetwork.
万博1manbetx支持向量机(SVM)分类器,用于单级和二进制分类 分类VM.CompactClassificationsVM.
多包分类的二进制决策树 ClassificationTree.CompactClassificationTree
袋装决策树集合 TreeBaggerCompactTreeBagger

如果ClassificationMdl如果模型对象不包含预测器数据(例如,紧凑模型),您必须提供输入参数吗数据

plotPartialDependence不支持使用稀疏矩阵万博1manbetx训练的模型对象。当您训练一个模型时,使用一个完整的数字矩阵或表格来预测数据,其中行对应于单个的观察结果。

预测器变量,指定为正整数向量、字符向量、字符串标量、字符串数组或字符向量的单元数组。您可以指定一个或两个预测变量,如下表所示。

一个预测变量

价值 描述
正整数 对应于预测器数据列的指标值。
字符向量或字符串标量

预测变量的名称。名称必须与输入的条目匹配RegentionMDL.PRedictorNames.或者classificationmdl.predictornames.

两个预测变量

价值 描述
两个正整数矢量 对应于预测器数据列的索引值。
字符向量的字符串数组或单元格数组

预测变量的名称。数组中的每个元素是预测器变量的名称。名称必须与条目匹配RegentionMDL.PRedictorNames.或者classificationmdl.predictornames.

例子:{x1, x3的}

数据类型:单身的||字符|字符串|细胞

类标签,指定为分类或字符阵列,逻辑或数字矢量或字符向量的单元格数组。值和数据类型标签的类名必须匹配一会的属性ClassificationMdlclassificationmdl.classnames.).

  • 中指定一个变量时,才能指定多个类标签var并指定'条件'作为“没有”(默认)。

  • 使用partialDependence如果您想在一个函数调用中计算多个变量和多个类标签的部分依赖关系。

此参数仅在指定分类模型对象时有效ClassificationMdl

例子:{'红蓝'}

例子:classificationmdl.classnames([1 3])指定标签作为第一个和第三级ClassificationMdl

数据类型:单身的||逻辑|字符|细胞|分类

预测器数据,指定为数字矩阵或表。每一行的数据对应一个观察值,每一列对应一个变量。

数据必须与训练模型的预测数据一致(Regersionmdl.或者ClassificationMdl),存储在其中X或者变量财产。

  • 如果你用数值矩阵训练模型,那么数据必须是数字矩阵。构成列的变量数据必须具有与培训模型的预测变量相同。

  • 如果您使用表训练模型(例如,TBL.),然后数据一定是一张桌子。所有的预测变量数据必须具有与中的名称和类型相同的变量名称和数据类型TBL..但是,列顺序数据不需要对应的列顺序TBL.

  • plotPartialDependence不支持稀疏矩阵。万博1manbetx

如果Regersionmdl.或者ClassificationMdl是一个不包含预测器数据的模型对象,您必须提供数据.如果模型是包含预测器数据的完整模型对象,并指定此参数,则plotPartialDependence不使用模型中的预测器数据并使用数据只有。

数据类型:单身的||表格

名称-值对的观点

指定可选的逗号分隔的对名称,值论点。姓名参数名和价值是相应的价值。姓名必须出现在引号内。可以以任意顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:plotPartialDependence(MDL,Var,数据,'numobservationstosample',100,'使用指惯',true)中使用100个抽样观察创建一个PDP数据和执行并行循环迭代。

绘图类型,指定为“没有”“绝对”, 或者“中心”

价值 描述
“没有”

plotPartialDependence创建一个PDP。绘图类型取决于指定的预测变量的数量var中指定的类标签的数量标签(用于分类模型)。

  • 一个预测变量和一个类标签-plotPartialDependence计算在查询点处的部分依赖性,并创建部分依赖的2-D线图。

  • 一个预测变量和多级标签 -plotPartialDependence创建一个数字,其中包含多个2-D线绘图的选定类。

  • 两个预测变量和一个类标签 -plotPartialDependence创建对两个变量的部分依赖的表面曲线。

“绝对”

plotPartialDependence创建一个图形,包括以下三种类型的图:

  • 有红线的PDP

  • 将所选预测器变量的散点图和预测的响应或分数与圆标记

  • 用灰线为每个观察的冰块

当您只选择一个预测器变量时,此值有效var和一个类标签标签(用于分类模型)。

“中心”

plotPartialDependence创建一个图形,包括相同的三种类型的情节“绝对”.函数对绘图进行偏移,使所有绘图都从零开始。

当您只选择一个预测器变量时,此值有效var和一个类标签标签(用于分类模型)。

例子:'条件','绝对'

标志包括在部分依赖计算中的广义添加剂模型(GAM)的交互条款,指定为真正的或者.此参数仅适用于GAM。也就是说,只有在何时指定此参数Regersionmdl.RegressionGAM或者compactregressiongam., 或者ClassificationMdlClassificationgam.或者CompactClassificationGAM

默认的“IncludeInteractions”值是真正的如果模型包含交互术语。价值必须是如果模型不包含交互项。

例子:“IncludeInteractions”,假的

数据类型:逻辑

标志包括在部分依赖计算中的广义添加剂模型(GAM)的截取期限,指定为真正的或者.此参数仅适用于GAM。也就是说,只有在何时指定此参数Regersionmdl.RegressionGAM或者compactregressiongam., 或者ClassificationMdlClassificationgam.或者CompactClassificationGAM

例子:'internallectcept',false

数据类型:逻辑

要抽样的观察数,指定为正整数。默认值是观测总数数据或模型(Regersionmdl.或者ClassificationMdl).如果指定的值大于观测总数,则plotPartialDependence使用所有的观察。

plotPartialDependence样品观察不替代使用datasample.功能并使用采样的观察来计算部分依赖。

plotPartialDependence在抽样观察的唯一值处显示小的标记。

如果您指定'条件'as“绝对”或者“中心”plotPartialDependence为每个采样观测创建一个包括ICE图的图形。

例子:“NumObservationsToSample”,100年

数据类型:单身的|

作为绘图的轴,指定为轴对象。如果您没有指定轴,那么当前轴是笛卡尔,那么plotPartialDependence使用当前坐标轴(GCA.).如果轴不存在,plotPartialDependence在一个新的图形的情节。

例子:“父”,斧头

用于计算数值预测器的部分依赖性的点,该预测器指定为数值列向量、数值两列矩阵或由两个数值列向量组成的单元格数组。

  • 如果选择一个预测器变量var,使用数字列向量。

  • 如果你选择两个预测变量var

    • 使用数字两列矩阵为每个预测变量指定相同数量的点。

    • 使用两个数字列向量的单元格数组来指定每个预测变量的不同数量的点。

默认值是数值列向量或数值两列矩阵,具体取决于所选预测器变量的数量。每一列包含100个均匀间隔的点,在对应预测变量的采样观测值的最小值和最大值之间。

如果'条件'“绝对”或者“中心”,然后软件添加预测器数据值(数据或预测数据Regersionmdl.或者ClassificationMdl)所选预测器到查询点。

你不能修改“QueryPoints”对于一个分类变量。这plotPartialDependence函数使用所选变量中的所有分类值。

如果选择一个数字变量和一个分类变量,则可以指定“QueryPoints”通过使用由数字列向量和空数组组成的单元格数组来获取数值变量。

例子:'querypoints',{pt,[]}

数据类型:单身的||细胞

并行运行的标志,指定为真正的或者.如果您指定'使用反应',真实, 这plotPartialDependence函数执行使用parfor当预测每个观察结果并平均它们时的响应或分数。此选项需要并行计算工具箱™。

例子:'使用反应',真实

数据类型:逻辑

输出参数

全部折叠

图的坐标轴,作为坐标轴对象返回。修改坐标轴外观和从图中提取数据的方法请参见轴的外观从图中提取部分依赖估计

更多关于

全部折叠

对回归模型的部分依赖

部分依赖[1]表示在训练过的回归模型中预测变量和预测响应之间的关系。plotPartialDependence通过忽略其他变量,计算预测响应对预测变量子集的部分依赖性。

考虑对子集的部分依赖X年代整个预测变量集X= {x1x2、……x.一个子集X年代包括一个变量或两个变量:X年代= {xS1或者X年代= {xS1xS2.让XC的互补集X年代X.预测的反应fX)取决于所有的变量X

fX)=fX年代XC).

预测反应的部分依赖于X年代由对预测反应的期望来定义XC

f 年代 X 年代 E C f X 年代 X C f X 年代 X C p C X C d X C

在哪里pCXC)为的边际概率XC, 那是, p C X C p X 年代 X C d X 年代 .假设每一个观察结果都是等可能的,并且X年代XC以及相互作用X年代XC在反应中并不强烈,plotPartialDependence利用观测到的预测数据估计部分依赖关系如下:

f 年代 X 年代 1 N 1 N f X 年代 X C (1)

在哪里N观察的次数是多少X= (X年代XC是个观察。

当你呼叫plotPartialDependence功能,您可以指定培训的模型(f(·))和选择变量(X年代),使用输入参数Regersionmdl.var, 分别。plotPartialDependence计算在100个等间距点处的部分相关X年代或者使用它使用的点“QueryPoints”名称-值对的论点。您可以指定数字(N)的观察样本,从给定的预测数据使用'numobservationstosample'名称-值对的论点。

回归模型的个体条件期望

个人有条件的期望(冰)[2]作为部分依赖的扩展,表示预测变量与每个观察的预测响应之间的关系。虽然部分依赖性示出了预测器变量与预测的响应之间的平均关系,但是一组冰曲线分解平均信息并显示每个观察的单独依赖性。

plotPartialDependence为每个观测创建一个ICE图。一套ICE图有助于研究来自不同观测的部分依赖的异质性。plotPartialDependence也可以用输入参数提供的任何预测数据创建ICE图数据.您可以使用该特性来探索预测的响应空间。

考虑一个选定的预测变量的ICE图x年代根据给定的观察结果XC,在那里X年代= {x年代XC是互补的一组X年代在整个变量集中X,X= (X年代XC是个观察。ICE图对应于中求和的和等式1

f 年代 X 年代 f X 年代 X C

plotPartialDependence情节 f 年代 X 年代 对于每一个观察当你指定'条件'作为“绝对”.如果您指定'条件'作为“中心”plotPartialDependence根据不同的观察结果,在移除关卡效果后绘制所有图:

f 年代 为中心的 X 年代 f X 年代 X C f X 年代 X C

这个减法确保每个情节从零开始,以便您可以检查累积的效果X年代以及相互作用X年代XC

分类模型的部分依赖和ICE

在分类模型的情况下,plotPartialDependence以与回归模型的方式相同的方式计算部分依赖和各个条件期望,其中一个例外:而不是使用来自模型的预测响应,而是使用所指定的类的预测分数来计算标签

加权算法遍历

加权遍历算法[1]是一种估算基于树的模型的部分依赖的方法。估计的部分依赖性是与树遍历期间访问的叶节点对应的响应或刻痕值的加权平均值。

X年代是整个变量集的子集XXC的互补集X年代X.为每一个X年代值来计算部分依赖,算法从根(开始)节点到叶(终端)节点遍历树,并找到叶节点的权值。遍历首先在根节点上分配一个权值为1。如果一个节点被X年代,算法将遍历相应的子节点,这取决于X年代价值。子节点的权重变为与其父节点相同的值。如果一个节点被XC,算法遍历两个子节点。每个子节点的权重变为其父节点的值乘以对应于每个子节点的观测值的分数。在完成树遍历后,该算法利用分配的权重计算加权平均值。

对于一组袋装树,估计的偏相关性是单个树的加权平均值的平均值。

算法

plotPartialDependence使用一个预测预测反应或分数的功能。plotPartialDependence选择适当的预测根据模型(Regersionmdl.或者ClassificationMdl)和跑步预测使用默认设置。详细资料预测功能,请参见预测以下两个表中的功能。如果指定的模型是基于树的模型(不包括树木的增强集合)和'条件'“没有”,然后plotPartialDependence采用加权遍历算法代替预测函数。有关详细信息,请参阅加权算法遍历

回归模型对象

模型类型 完整或紧凑的回归模型对象 预测反应功能
决策树集合的引导集合 CompactTreeBagger 预测
决策树集合的引导集合 TreeBagger 预测
回归模型的集合 回归RegressionBaggedEnsemblecompactregressionensemble. 预测
高斯内核回归模型使用随机特征扩展 RegressionKernel 预测
高斯过程回归 regressiongp.CompactRegressionGP 预测
广义加性模型 RegressionGAMcompactregressiongam. 预测
广义线性混合效应模型 GeneralizedLinearMixedModel 预测
广义线性模型 GeneralizedLinearModelCompact一项式标Model. 预测
线性混合效应模型 LinearMixedModel 预测
线性回归 linearmodel.CompactLinearModel. 预测
高维数据的线性回归 RegressionLinear 预测
神经网络回归模型 回归翁网络网络CompactRegressionNeuralNetwork 预测
非线性回归 非线性模型 预测
回归树 回归植物CompactRegressionTree 预测
万博1manbetx支持向量机 回归vm.compactregressionsvm. 预测

分类模型对象

模型类型 完整或紧凑的分类模型对象 预测标签和分数的功能
判别分析分类器 ClassificationDiscriminantCompactClassificationDiscriminant 预测
支持向量机或其他分类器的多款模型万博1manbetx ClassificationECOCCompactClassificationECOC 预测
用于分类的学习者集合 分类素..CompactClassificationseMbleClassificationBaggedensemble. 预测
高斯核分类模型使用随机特征展开 ClassificationKernel. 预测
广义加性模型 Classificationgam.CompactClassificationGAM 预测
k- 最邻居模型 ClassificationKNN 预测
线性分类模型 ClassificationLinear 预测
朴素贝叶斯模型 ClassificationniveBayes.CompactClassificationNaiveBayes 预测
神经网络分类器 ClassificationNeuralNetworkCompactClassificationneAuralKetwork. 预测
万博1manbetx支持向量机用于单级和二进制分类 分类VM.CompactClassificationsVM. 预测
多包分类的二进制决策树 ClassificationTree.CompactClassificationTree 预测
袋装决策树集合 TreeBaggerCompactTreeBagger 预测

选择功能

  • partialDependence在没有可视化的情况下计算部分依赖。该函数可以在一个函数调用中计算两个变量和多个类的部分依赖。

参考文献

[1]弗里德曼,杰罗姆。贪婪函数近似:梯度增压机统计年鉴29日,没有。5(2001): 1189 - 1232。

Goldstein, Alex, Adam Kapelner, Justin Bleich, Emil Pitkin。《黑盒子里的窥视:用个体条件期望图可视化统计学习》计算和图形统计杂志24日,没有。1(2015年1月2日):44-65。

哈斯蒂,特雷弗,罗伯特·蒂布希拉尼和杰罗姆·弗里德曼。统计学习的要素。纽约,纽约:春天的纽约,2001年。

扩展能力

介绍了R2017b