TreeBagger类

决策树包

全部展开页面

描述

TreeBagger袋子为分类或回归的决策树的集合。装袋代表引导聚合。合奏中的每棵树都在独立绘制的输入数据的自主绘制复制品上生长。此副本中未包含的观察是“从包中的”这棵树。

TreeBagger依赖于ClassificationTree和RegressionTree种植个体树木的功能。特别是，ClassificationTree和RegressionTree接受为每个决策分割随机选择的特性数量作为可选输入参数。也就是说,TreeBagger实现随机森林算法［1］．

对于回归问题,TreeBagger万博1manbetx支持均值和分位数回归(即分位数回归森林)［2］）。

为了预测平均响应或估计给定数据的均方误差，通过TreeBagger模型和数据到预测要么错误,分别。要对袋外观察执行类似的操作，请使用oobPredict要么ooberror.．
估计响应分布的定量或给定数据的定量误差，通过aTreeBagger模型和数据到quantilePredict要么quantileError,分别。要对袋外观察执行类似的操作，请使用OOBQUANTILEPREDICT要么oobQuantileError．

建设

TreeBagger

创建决策树包

对象的功能

`附加`	添加新树到集合
`紧凑的`	决策树的紧凑型集合
`错误`	错误（错误分类概率或MSE）
`fillprox`	训练数据的接近矩阵
`Growtees.`	训练额外的树，并添加到整体
`保证金`	分类保证金
`mdsprox`	接近矩阵的多维尺度
`meanMargin`	意思是分类保证金
`ooberror.`	Out-of-bag错误
`oobMargin`	Out-of-bag利润率
`oobMeanMargin`	Out-of-bag意味着利润
`oobPredict`	包外观测的集合预测
`oobQuantileError`	袋子袋数丢失的袋子
`OOBQUANTILEPREDICT`	从回归树的袋外观察的分位数预测
`部分竞争`	计算部分依赖
`plotPartialDependence`	创建部分依赖图(PDP)和个人条件期望图(ICE)
`预测`	使用袋装决策树的集合来预测响应
`quantileError`	使用回归树的袋的分位数损失
`quantilePredict`	使用袋子回归树预测响应量子

属性

`一会`	包含响应变量的类名的单元格数组`Y`．对于回归树，此属性为空。
`ComputeOOBPrediction`	应计算指定是否应该计算用于训练观察的袋子预测的逻辑标志。默认值是`假`．如果这面旗是`真的`，以下属性可用: `OOBIndices` `OOBInstanceWeight` 如果这面旗是`真的`，可以调用以下方法: `ooberror.` `oobMargin` `oobMeanMargin`
`computeoobpredictorimportance.`	一个逻辑标志，指定是否应该计算变量重要性的包外估计。默认值是`假`．如果这面旗是`真的`,然后`ComputeOOBPrediction`也是真的。如果这面旗是`真的`，以下属性可用: `OOBPermutedPredictorDeltaError` `OOBPermutedPredictorDeltaMeanMargin` `OOBPermutedPredictorCountRaiseMargin`
`成本`	方阵,`成本（i，j）`将一个点分类的成本是多少`j`如果它真正的阶级是`我`（即，行对应于真实类，列对应于预测类）。行和列的顺序`成本`对应于类的顺序`一会`．中的行数和列数`成本`是响应中唯一类的数量。这个属性是: 只读空的（`［］`）对于回归树的合奏
`DefaultYfit`	返回的默认值`预测`和`oobPredict`．的`DefaultYfit`属性控制在无法进行预测时返回的预测值。例如,当`oobPredict`需要对所有树木的观测结果进行预测。对于分类，可以将此属性设置为`＇＇`要么`“MostPopular”`．如果你选择`“MostPopular”`（默认值），属性值成为培训数据中最可能类的名称。如果你选择`＇＇`，袋内观察被排除在禁止外误差和边距的计算之外。对于回归，可以将此属性设置为任何数值标量。默认值是训练数据响应的平均值。如果将此属性设置为`南`，袋内观察被排除在禁止外误差和边距的计算之外。
`deltacriteriondecisionplit.`	大小为1 × -的数字数组据nvar将分割标准的变化通过每个变量的分割进行求和，并在整个已长成的树木集合中取平均值。
`InBagFraction`	随机选择的观察分数，用于替换每个引导副本。每个副本的大小是谈判×`InBagFraction`,在那里谈判是培训集中的观测数量。默认值为1。
`MergeLeaves`	一个逻辑标志，指定与同一父级的决策树是否留下的拆分是不降低总风险的拆分。默认值是`假`．
`方法`	树木使用的方法。可能的值是`“分类”`对于分类集合，和`“回归”`回归集合体。
`minleafsize.`	每片树叶的最低观察次数。默认情况下,`minleafsize.`是1表示分类，5表示回归。对于决策树的训练，`明蛋白`Value设置为`2 * minleafsize.`．
`NumTrees`	集合中等于决策树数目的标量值。
`NumPredictorSplit`	大小为1 × -的数字数组据nvar，其中每个元素给出了这个预测器上所有树的分割数。
`numpredictorstosample.`	为每个决策分裂随机选择的预测器或特征变量的数目。默认情况下,`numpredictorstosample.`等于分类变量总数的平方根，回归变量总数的三分之一。
`OOBIndices`	逻辑阵列大小谈判——- - - - - -NumTrees,在那里谈判训练数据中的观察数和NumTrees是集合中的树木数量。一种`真的`值(我，j元素表示该观察结果我袋子里装的是树吗j．换句话说，就是观察我是否选择了用于培训的数据来种植树木j．
`OOBInstanceWeight`	大小数字数组谈判-1包含用于计算每次观察的禁止袋响应的树木数量。谈判为用于创建集合的训练数据中的观测数。
`OOBPermutedPredictorCountRaiseMargin`	大小为1 × -的数字数组据nvar包含对每个预测变量(特征)的变量重要性的度量。对于任何一个变量，如果该变量的值在包外观察值中排列，则度量值是提高保证金的数量和降低保证金的数量之间的差异。对每棵树计算这个度量，然后在整个集合上取平均值，再除以整个集合上的标准差。对于回归树，此属性为空。
`OOBPermutedPredictorDeltaError`	大小为1 × -的数字数组据nvar包含每个预测变量(特征)的重要性度量。对于任何一个变量，如果该变量的值是在袋子外的观察值中排列的，则度量是预测误差的增加。对每棵树计算这个度量，然后在整个集合上取平均值，再除以整个集合上的标准差。
`OOBPermutedPredictorDeltaMeanMargin`	大小为1 × -的数字数组据nvar包含每个预测变量(特征)的重要性度量。对于任何变量，如果该变量的值在包外观察值中排列，则度量是分类边际的减少。对每棵树计算这个度量，然后在整个集合上取平均值，再除以整个集合上的标准差。对于回归树，此属性为空。
`OutlierMeasure`	有大小的数字数组谈判1,谈判为训练数据中的观测数，包含每个观测值的离群值。
`之前`	每个类的先验概率的数字向量。元素的顺序`之前`对应于类的顺序`一会`．这个属性是: 只读空的（`［］`）对于回归树的合奏
`接近`	有大小的数字矩阵谈判——- - - - - -谈判,在那里谈判为训练数据中的观测数，包含观测值之间的接近度度量值。对于任意两个观测值，它们的接近度定义为这些观测值落在同一片叶子上的树木的比例。这是一个对称矩阵，对角线和非对角线上的元素从0到1都有1s。
`修剪`	的`修剪`属性在决策树被修剪时为真，在未修剪时为假。对于集合，不推荐修剪决策树。默认值为false。
`SampleWithReplacement.`	一个逻辑标志，指定是否对每个具有替换的决策树进行数据采样。此属性`真的`如果`TreeBagger`样本数据替换和`假`否则。默认值是`真的`．
`TreeArguments`	小区的参数阵列`fitctree`要么`fitrtree`．这些参数被`TreeBagger`为整个团队种植新树。
`树`	大小相同的单元格数组NumTrees-by-1包含集合中的树。
`SurrogateAssociation`	大小矩阵据nvar——- - - - - -据nvar通过变量关联的预测措施，对整个成年树木进行平均。如果你增加了布景`“代孕”`来`“上”`，每个树的这个矩阵都填充了代理分割上平均的关联预测度量。如果你增加了布景`“代孕”`来`“关闭”`(默认),`SurrogateAssociation`是斜的。
`PredictorNames`	包含预测器变量的名称（特征）的单元格数组。`TreeBagger`从可选参数中取这些名称`“名字”`范围。默认名称是`x1的`，`“x2”`，等等。
`W`	长度权值的数值向量谈判,在那里谈判为训练数据中的观察数(行)。`TreeBagger`使用这些权重来在集合中生长每个决策树。默认值`W`是`(脑袋,1)`．
`X`	有大小的表格或数字矩阵谈判——- - - - - -据nvar,在那里谈判观察数(行数)和据nvar是培训数据中的变量（列）的数量。如果您使用预测值的表培训集合，那么`X`是一张桌子。如果您使用预测值值矩阵训练集合，那么`X`是一个矩阵。此属性包含预测器(或特性)值。
`Y`	一个大小谈判响应数据数组。的元素`Y`对应于行`X`．的分类,`Y`是真正类标签的集合。标签可以是任意的分组变量，即数字或逻辑向量、字符矩阵、字符串数组、字符向量单元格数组或分类向量。`TreeBagger`将标签转换为字符向量的单元格数组以进行分类。对于回归,`Y`是一个数字向量。

例子

全部收缩

袋装分类树的序列集合

打开直播脚本

载入费雪的虹膜数据集。

负载渔民

使用整个数据集训练一组袋装分类树。指定50弱的学习者。存储每棵树的观察结果。

rng (1);%的再现性mdl = treebagger（50，meas，speies，“OOBPrediction”，“上”，．..“方法”，“分类”）

MDL = TreeBagger合奏与50个袋装决策树：训练X：[150x4]训练Y：[150x1]方法：分类NumPredictors：4 NumPredictorstosample：2 minleafsize：1个土松效：1个样品释放：1 ComputeOobprediction：1 ComputeOobpredictorImportance：[]ClassNames：'Setosa''Versicolor''Virginica'属性，方法

MDL.是一个TreeBagger合奏。

Mdl。树存储经过训练的分类树的50 × 1细胞向量(CompactClassificationTree.模型对象)组成集成。

绘制第一个训练的分类树的图。

视图(Mdl。{1},“模式”，“图”）

图分类树查看器包含一个轴和其他类型的uimenu, uicontrol对象。轴包含21个类型为line, text的对象。

默认情况下,TreeBagger生长深沉的树木。

mdl.oobindices.将包外索引存储为逻辑值矩阵。

用已生长的分类树的数量绘制出包外误差。

图;Ooberrorbaggedensemble = OobError（MDL）;绘图（Ooberrorbaggedensemble）Xlabel“已长成的树的数量”；ylabel“Out-of-bag分类错误”；

图中包含一个坐标轴。轴包含类型线的对象。

袋外误差随着树木的生长而减小。

要给袋子外的观察做标记，请放过MDL.来oobPredict．

袋装回归树的序列集合

打开直播脚本

加载Carsmall.数据集。考虑一个模型，它可以预测给定发动机排量的汽车的燃油经济性。

负载Carsmall.

使用整个数据集训练一组袋装回归树。指定100个弱学习者。

rng (1);%的再现性Mdl = TreeBagger(位移,100英里,“方法”，“回归”）;

MDL.是一个TreeBagger合奏。

使用训练有素的回归树，您可以估计条件平均响应或执行量级回归以预测条件量数。

对于十个同等间隔的发动机位移在最小和最大的样本位移之间，预测有条件的平均响应和条件四分位数。

predX = linspace (min(位移),max(位移),10)';predX mpgMean =预测(Mdl);mpgQuartiles = quantilePredict (Mdl predX,分位数的, 0.25, 0.5, 0.75);

在同一图中绘制观察结果、估计平均响应和四分位数。

图;情节(位移,英里/加仑,“o”）;抓住在情节(predX mpgMean);情节(predX mpgQuartiles);ylabel (的燃油经济性）;包含(发动机排量的）;传奇(“数据”，“平均响应”，'第一个四分位数'，“中值”，“第三四分位数”）;

图中包含一个坐标轴。轴线包含5个线型对象。这些对象代表数据，平均响应，第一四分位数，中位数，第三四分位数。

无偏预测重要估计

打开直播脚本

加载Carsmall.数据集。考虑一个模型，它可以预测一辆汽车的平均燃油经济性，该模型给出了汽车的加速度、汽缸数、发动机排量、马力、制造商、车型年份和重量。考虑气缸，MFG.，和Model_Year作为分类变量。

负载Carsmall.气缸=分类(缸);及时通知=分类(cellstr (Mfg));Model_Year =分类(Model_Year);X =表(加速、气缸、排量、马力、制造行业,．..model_year，重量，mpg）;RNG（“默认”）;%的再现性

显示分类变量中表示的类别数。

num cinders = numel（类别（圆柱体））

numCylinders = 3

nummfg = numel（类别（MFG））

numMfg = 28

numModelYear =元素个数(类别(Model_Year))

numModelYear = 3

因为只有3个类别气缸和Model_Year在标准CART中，预测器分割算法更喜欢分割连续预测器而不是这两个变量。

使用整个数据集训练一个包含200棵回归树的随机森林。要种植无偏的树，指定使用曲率测试的分裂预测器。由于数据中缺少值，请指定代理拆分的用法。存储包外信息用于预测因子的重要性估计。

Mdl = TreeBagger (200 X,“英里”，“方法”，“回归”，“代孕”，“上”，．..'预测圈'，“弯曲”，“OOBPredictorImportance”，“上”）;

TreeBagger在物业中存储预测原则重要性估计OOBPermutedPredictorDeltaError．使用条形图比较估计值。

小鬼= Mdl.OOBPermutedPredictorDeltaError;图;酒吧(imp);标题(“弯曲测试”）;ylabel (的预测估计的重要性）;包含('预测器'）;H = GCA;h.xticklabel = mdl.predictornames;H.xticklabelrotation = 45;H.TicklabelInterpreter =.“没有”；

图中包含一个坐标轴。标题为曲率测试的轴包含一个类型为bar的对象。

在这种情况下,Model_Year最重要的预测因素是什么重量．

比较小鬼用于预测从使用标准CART生长树木的随机森林中计算的重要性估计值。

MdlCART = TreeBagger (200 X,“英里”，“方法”，“回归”，“代孕”，“上”，．..“OOBPredictorImportance”，“上”）;impCART = MdlCART.OOBPermutedPredictorDeltaError;图;酒吧(impCART);标题('标准购物车'）;ylabel (的预测估计的重要性）;包含('预测器'）;H = GCA;h.xticklabel = mdl.predictornames;H.xticklabelrotation = 45;H.TicklabelInterpreter =.“没有”；