主要内容

OOBQUANTILEPREDICT

班级:TreeBagger

从回归树的袋外观察的分位数预测

描述

例子

YFit= oobQuantilePredict (MDL.返回所有预测响应的中位数的向量bag观察mdl.x.,预测数据,并使用MDL.,这是一袋回归树。MDL.必须是一个TreeBagger模型对象和Mdl。OOBIndices必须非空的。

例子

YFit= oobQuantilePredict (MDL.名称,值使用一个或多个指定的其他选项名称,值对参数。例如,为分位数估计指定分位数概率或要包含的树。

例子

YFitYW] = OOBQUANTILEPREDICT(___也返回一个稀疏矩阵响应的重量使用以前的任何语法。

输入参数

全部展开

一袋回归树,指定为aTreeBagger模型对象创建TreeBagger

  • 的价值Mdl。方法必须是回归

  • 当你训练MDL.使用TreeBagger,您必须指定名称值对“OOBPrediction”,“上”.最后,TreeBagger保存所需的袋外观察指标矩阵Mdl。OOBIndices

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。姓名参数名和价值是相应的价值。姓名必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

分位数概率,指定为逗号分隔的配对分位数的和包含区间[0,1]值的数字向量。为每个观察(行)mdl.x.OOBQUANTILEPREDICT中所有概率的对应分位数估计分位数

例子:'分位数',[0 0.25 0.5 0.75 1]

数据类型:单身的|

在响应估计中使用的树的索引,指定为逗号分隔的对,包括'树木'“所有”或正整数的数字矢量。索引对应于细胞mdl.trees.;其中的每个单元格都包含在集合中的树。最大值必须小于或等于集合中的树的数目(mdl.numtrees.).

“所有”OOBQUANTILEPREDICT使用索引1:mdl.numtrees.

例子:“树”,[1 10 Mdl。NumTrees]

数据类型:字符|细绳|单身的|

来自各个树的响应的权重,指定为逗号分隔的对,由'treeweights'和一个数值向量元素个数(树木负的值。树木是值的价值名称-值对的论点。

默认为那些(大小(树木))

数据类型:单身的|

输出参数

全部展开

估计的袋袋观测量数,作为一个返回n——- - - - - -元素个数(τ数字矩阵。n是培训数据中的观测数量(numel(mdl.y)),τ是值的价值分位数名称-值对的论点。那是,YFit (jk是估计的100 *τk给出的响应分配的百分位数X (j:)和使用MDL.

响应权重,返回为n——- - - - - -n稀疏矩阵。n为训练数据中的响应次数(numel(mdl.y)).YW (:,j中观测的响应权重mdl.x.(j:)

OOBQUANTILEPREDICT使用经验累积分布函数(cdf)的线性插值预测分位数。对于一个特定的观测,您可以使用它的响应权值来使用替代方法估计分位数,例如使用逼近cdf内核平滑

例子

全部展开

加载Carsmall.数据集。考虑一个模型,它可以预测给定发动机排量的汽车的燃油经济性(以MPG计算)。

负载Carsmall.

使用整个数据集训练一组袋装回归树。指定100名弱学习者并保存出袋子索引。

rng (1);%的再现性Mdl = TreeBagger(位移,100英里,'方法'“回归”......'Oobprediction'“上”);

MDL.是A.TreeBagger合奏。

执行分位数回归来预测所有训练观察的包外中值燃油经济性。

oobMedianMPG = oobQuantilePredict (Mdl);

oobMedianMPG是一个n- 给出了对应于响应的条件分布的中位数的1个数字矢量给出了分类的观察mdl.x.n为观测次数,尺寸(Mdl.X, 1)

将观察结果按升序排序。将观测值和估计中位数绘制在同一个图上。比较袋子外的中位数和平均值。

[sX, idx] = (Mdl.X)进行排序;oobMeanMPG = oobPredict (Mdl);图;情节(位移,英里/加仑,'k。');抓住情节(sX oobMedianMPG (idx));情节(sX oobMeanMPG (idx),“r——”);ylabel(的燃油经济性);包含('发动机排量');传奇(“数据”“Out-of-bag值”'袋子意味着');抓住离开

图中包含一个坐标轴。轴线包含3个线型对象。这些对象代表Data, out -bag中值,out -bag平均值。

加载Carsmall.数据集。考虑一种模型,该模型预测汽车(MPG)的燃料经济性给出其发动机位移。

负载Carsmall.

使用整个数据集训练一组袋装回归树。指定100名弱学习者并保存出袋子索引。

rng (1);%的再现性Mdl = TreeBagger(位移,100英里,'方法'“回归”......'Oobprediction'“上”);

执行分位数回归来预测超出预期的2.5%和97.5%的百分比。

OOBQUANTPREDINTS = OOBQUANTILEPREDICT(MDL,分位数的[0.025, 0.975]);

oobQuantPredInts是一个n-2-2数值矩阵对应于袋外观察的预测间隔mdl.x.n为观测次数,尺寸(Mdl.X, 1).第一列包含2.5%百分比,第二列包含97.5%百分比。

将观测值和估计中位数绘制在同一个图上。比较百分点预测间隔和95%的预测间隔,假设条件分布英里/加仑是高斯。

[oobMeanMPG, oobSTEMeanMPG] = oobPredict (Mdl);STDNPredInts = oobMeanMPG + [-1 1]*norminv(0.975).*oobSTEMeanMPG;[sX, idx] = (Mdl.X)进行排序;图;h1 =情节(位移,英里/加仑,'k。');抓住h2 = plot(sx,oobquantpredints(idx,:),'B');h3 =情节(sX, STDNPredInts (idx:)“r——”);ylabel(的燃油经济性);包含('发动机排量');传奇([h1, h2 (1), h3 (1)), {“数据”'95%百分位预测间隔'......'95%高斯预测间隔'});抓住离开

图中包含一个坐标轴。轴线包含5个线型对象。这些对象代表Data, 95%百分位数预测区间,95%高斯预测区间。

加载Carsmall.数据集。考虑一种模型,该模型预测汽车(MPG)的燃料经济性给出其发动机位移。

负载Carsmall.

使用整个数据集训练一组袋装回归树。指定100个弱学习者并保存out- bag索引。

rng (1);%的再现性Mdl = TreeBagger(位移,100英里,'方法'“回归”......'Oobprediction'“上”);

估计禁止袋响应权重。

[~, YW] = oobQuantilePredict (Mdl);

YW是包含响应权重的N-by n稀疏矩阵。n为训练观察的次数,元素个数(Y).的响应权值Mdl.X (j,:)yw(:,j).响应权值独立于任何指定的分位数概率。

通过以下方法估计响应的包外条件累积分布函数(ccdf):

  1. 响应排序采用升序,然后利用响应排序所产生的指标对响应权重进行排序。

  2. 计算排序后的响应权重的每一列的累积和。

[sorty,sortidx] = sort(mdl.y);cpdf = full(yw(sortIdx,:));ccdf = cumsum(cpdf);

ccdf (:, j)根据观察,反应的经验外CCDF是多少j

从四个训练观察中随机选择一个样本。绘制训练样本并识别所选的观察值。

[randx,IDX] =数据征(MDL.x,4);图;绘图(mdl.x,mdl.y,“o”);抓住情节(randX Mdl.Y (idx),‘*’'Markersize',10);文本(RANDX-10,MDL.Y(IDX)+1.5,{'Obs。1''Obs。2》'Obs。3''Obs。4'});传奇(的训练数据“选择观察”);包含('发动机排量')ylabel(的燃油经济性) 抓住离开

图中包含一个坐标轴。轴包含6个类型为line, text的对象。这些对象代表训练数据,选择的观察。

为同一图中的四个所选响应绘制袋子外CCDF。

图;绘图(Sorty,CCDF(:,IDX));传奇(“ccdf奥林匹克广播服务公司。1'“ccdf奥林匹克广播服务公司。2》......“ccdf奥林匹克广播服务公司。3'“ccdf奥林匹克广播服务公司。4'......'地点''东南')标题(“out - bag条件累积分布函数”)Xlabel(的燃油经济性)ylabel(“经验提供”

图中包含一个坐标轴。标题为“包外条件累积分布函数”的轴包含4个类型为line的对象。这些对象表示给定的obs的ccdf。1、CCDF给定obs。2、CCDF给定obs。3、CCDF给定obs。4.

更多关于

全部展开

算法

OOBQUANTILEPREDICT通过申请估计袋子超定量quantilePredict训练数据中的所有观测值(mdl.x.).对于每个观察,该方法仅使用观察袋的树木。

对于集合中所有树木的观测,OOBQUANTILEPREDICT分配响应数据的样本量级。换句话说,OOBQUANTILEPREDICT不使用量子回归进行袋袋的观察。相反,它分配smianile(mdl.y,τ,在那里τ是值的价值分位数名称-值对的论点。

参考文献

[1] Meinshausen,N。“斯蒂利回归森林。”机器学习研究杂志,第7卷,2006年,第983-999页。

[2] Breiman,L。“随机森林。”机器学习.2001年第45卷,第5-32页。

介绍了R2016b