oobPermutedPredictorImportance

分类树的随机森林的预测重要度由袋外预测观察的排列估计

全部展开页面

语法

小鬼= oobPermutedPredictorImportance (Mdl)

小鬼= oobPermutedPredictorImportance (Mdl、名称、值)

描述

小鬼= oobPermutedPredictorImportance (Mdl）返回的向量out- bag，通过排列估计预测器的重要性使用随机森林分类树Mdl．Mdl必须是一个ClassificationBaggedEnsemble模型对象。

例子

小鬼= oobPermutedPredictorImportance (Mdl，名称,值）使用一个或多个指定的附加选项名称,值对参数。例如，您可以使用并行计算来加快计算速度，或者指示在预测器重要性估计中使用哪些树。

输入参数

全部展开

`Mdl`- - - - - -分类树的随机森林
`ClassificationBaggedEnsemble`模型对象

分类树的随机森林，指定为ClassificationBaggedEnsemble模型对象由fitcensemble．

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家．

`学习者`- - - - - -学习者用于预测重要度的指标
`1: Mdl。NumTrained`(默认)|正整数的数字向量

学习者用于预测因子重要性估计的指标，指定为逗号分隔对，由“学习者”和一个正整数的数字向量。值必须为最大值Mdl。NumTrained．当oobPermutedPredictorImportance估计预测器的重要性，它包括学习者Mdl。Trained(学习者）只有,学习者的价值“学习者”．

例子:“学习者”,[1:2:Mdl。NumTrained]

`选项`- - - - - -并行计算选项
`［］`(默认)|返回的结构数组`statset`

并行计算选项，指定为逗号分隔对，由“选项”和返回的结构数组statset．“选项”需要一个并行计算工具箱™许可证。

oobPermutedPredictorImportance使用“UseParallel”字段。statset (UseParallel,真的)调用一个工作池。

例子:“选项”,statset (UseParallel,真的)

输出参数

全部展开

`小鬼`- out -bag，通过排列估计预测器的重要性
数值向量

out -bag，通过排列估计预测器的重要性，返回为1-by-p数值向量。p为训练数据中预测变量的个数(大小(Mdl.X, 2)）.Imp (j）预测器是否重要Mdl。PredictorNames (j）．

例子

全部展开

评估预测因素的重要性

打开生活的脚本

加载census1994数据集。考虑一个模型，它根据一个人的年龄、工人阶级、教育水平、婚姻状况、种族、性别、资本损益和每周工作时间来预测一个人的收入类别。

负载census1994X = adultdata (: {“年龄”，“workClass”，“education_num”，“marital_status”，“种族”，．..“性”，“capital_gain”，“capital_loss”，“hours_per_week”，“工资”}）;

您可以使用整个数据集训练一个由50棵分类树组成的随机森林。

Mdl = fitcensemble (X,“工资”，“方法”，“包”，“NumLearningCycles”, 50);

fitcensemble使用默认的模板树对象templateTree ()作为一个弱学习者“方法”是“包”．在本例中，为了再现性，请指定“重现”,真的当你创建一个树模板对象，然后使用对象作为弱学习器。

rng (“默认”）%的再现性t = templateTree (“复制”,真正的);%用于随机预测器选择的重现性Mdl = fitcensemble (X,“工资”，“方法”，“包”，“NumLearningCycles”, 50岁,“学习者”t);

Mdl是一个ClassificationBaggedEnsemble模型。

通过排列出包外的观察来估计预测器的重要性。用条形图比较估计值。

小鬼= oobPermutedPredictorImportance (Mdl);图;酒吧(imp);标题(“out - bag perised Predictor Importance Estimates”）;ylabel (“估计”）;包含(“预测”）;甘氨胆酸h =;h.XTickLabel = Mdl.PredictorNames;h.XTickLabelRotation = 45;h.TickLabelInterpreter =“没有”；

图中包含一个轴对象。标题为“out - bag perconfigured Predictor Importance Estimates”的axes对象包含一个类型为bar的对象。

小鬼是预测器重要性估计的1 × 9向量。较大的值表示对预测有较大影响的预测器。在这种情况下,marital_status最重要的预测因素是什么capital_gain．

使用并行计算的预测器重要性的无偏估计

这个示例使用:

打开生活的脚本

负载census1994X = adultdata (: {“年龄”，“workClass”，“education_num”，“marital_status”，“种族”，．..“性”，“capital_gain”，“capital_loss”，“hours_per_week”，“工资”}）;

使用的类别变量中显示类别的数目总结．

总结(X)

变量:年龄:32561×1 double值:Min 17中位数37 Max 90工作阶级:32561×1分类值:联邦政府960地方政府2093从未工作过7私人22696 Self-emp-inc 1116 Self-emp-not-inc 2541州政府1298没有支付14 NumMissing 1836教育_num: 32561×1 double值:Min 1中位数10 Max 16婚姻状态:32561×1分类值:4443 Married-AF-spouse 23 Married-civ-spouse 14976年离婚Married-spouse-absent 418未婚10683分离1025 993年丧偶的种族:32561×1分类值:Amer-Indian-Eskimo 311 Asian-Pac-Islander 1039黑3124其他271白27816性:32561×1分类值:女21790 10771名男性capital_gain:32561×1 double Values: Min 0中位数0 Max 99999 capital_loss: 32561×1 double Values: Min 0中位数0 Max 4356 hours_per_week: 32561×1 double Values: Min 1中位数40 Max 99 salary: 32561×1 categoryvalues: <=50K 24720 >50K 7841

由于与连续变量的水平相比，在分类变量中所代表的类别很少，因此标准的CART、预测器分割算法更喜欢分割连续预测器而不是分类变量。

使用整个数据集训练50棵分类树的随机森林。要种植无偏的树，指定使用曲率测试的分裂预测器。由于数据中缺少值，请指定代理拆分的用法。为了重现随机的预测器选择，使用rng并指定“重现”,真的．

rng (“默认”）%的再现性t = templateTree (“PredictorSelection”，“弯曲”，“代孕”，“上”，．..“复制”,真正的);%用于随机预测器选择的重现性Mdl = fitcensemble (X,“工资”，“方法”，“包”，“NumLearningCycles”, 50岁,．..“学习者”t);

通过排列出包外的观察来估计预测器的重要性。并行执行计算。

选择= statset (“UseParallel”,真正的);小鬼= oobPermutedPredictorImportance (Mdl,“选项”、选择);

使用“local”配置文件启动并行池(parpool)…连接到并行池(工作人员数量:6)。

用条形图比较估计值。

图酒吧(imp)标题(“out - bag perised Predictor Importance Estimates”) ylabel (“估计”)包含(“预测”) h = gca;h.XTickLabel = Mdl.PredictorNames;h.XTickLabelRotation = 45;h.TickLabelInterpreter =“没有”；

在这种情况下,capital_gain最重要的预测因素是什么martial_status．将这些结果与评估预测因素的重要性．

提示

当种植随机森林使用fitcensemble：

标准CART倾向于选择包含许多不同值(如连续变量)的分离预测因子，而不是包含很少不同值(如分类变量)的分离预测因子［3］．如果预测器数据集是异构的，或者如果有比其他变量具有相对较少的不同值的预测器，那么考虑指定曲率或交互测试。
使用标准CART生长的树木对预测变量相互作用不敏感。此外，与交互测试的应用相比，在存在许多无关的预测因子时，这种树不太可能识别出重要的变量。因此，为了解释预测变量之间的交互作用，并在存在许多不相关变量的情况下识别重要变量，指定交互作用检验［2］．
如果训练数据包含许多预测器，而您想要分析预测器的重要性，那么请指定“NumVariablesToSample”的templateTree函数作为“所有”对于合奏的树型学习者。否则，软件可能不会选择一些预测因子，低估它们的重要性。

有关详细信息，请参见templateTree和选择分裂预测器选择技术．

参考文献

[1] Breiman, L.， J. Friedman, R. Olshen, C. Stone。分类与回归树．佛罗里达州博卡拉顿:CRC出版社，1984。

[2] Loh, W.Y.， <具有无偏变量选择和交互检测的回归树>Statistica中央研究院， 2002年第12卷，第361-386页。

Loh w.y y and Y.S. Shih分类树的分裂选择方法Statistica中央研究院， 1997年第7卷，第815-840页。

扩展功能

自动并行支持万博1manbetx
使用并行计算工具箱™自动并行运行计算，加速代码。

要并行运行，请指定“选项”调用此函数时的名称-值参数，并设置“UseParallel”字段的选项结构真正的使用statset．

例如:“选项”,statset (UseParallel,真的)

有关并行计算的更多信息，请参见运行MATLAB函数与自动并行支持万博1manbetx(并行计算工具箱)．

另请参阅

predictorImportance|ClassificationBaggedEnsemble|fitcensemble

主题

介绍了R2016b

oobPermutedPredictorImportance

语法

描述

输入参数

`Mdl`- - - - - -分类树的随机森林
`ClassificationBaggedEnsemble`模型对象

名称-值参数

`学习者`- - - - - -学习者用于预测重要度的指标
`1: Mdl。NumTrained`(默认)|正整数的数字向量

`选项`- - - - - -并行计算选项
`［］`(默认)|返回的结构数组`statset`

输出参数

`小鬼`- out -bag，通过排列估计预测器的重要性
数值向量

例子

评估预测因素的重要性

使用并行计算的预测器重要性的无偏估计

更多关于

out - bag, Predictor Importance estimate by Permutation

提示

参考文献

扩展功能

自动并行支持万博1manbetx
使用并行计算工具箱™自动并行运行计算，加速代码。

另请参阅

主题

统计和机器学习工具箱文档

万博1manbetx

掌握机器学习:一步一步的指导与MATLAB

oobPermutedPredictorImportance

语法

描述

输入参数

Mdl- - - - - -分类树的随机森林ClassificationBaggedEnsemble模型对象

名称-值参数

学习者- - - - - -学习者用于预测重要度的指标1: Mdl。NumTrained(默认)|正整数的数字向量

选项- - - - - -并行计算选项［］(默认)|返回的结构数组statset

输出参数

小鬼- out -bag，通过排列估计预测器的重要性数值向量

例子

评估预测因素的重要性

使用并行计算的预测器重要性的无偏估计

更多关于

out - bag, Predictor Importance estimate by Permutation

提示

参考文献

扩展功能

自动并行支持万博1manbetx使用并行计算工具箱™自动并行运行计算，加速代码。

另请参阅

主题

统计和机器学习工具箱文档

万博1manbetx

掌握机器学习:一步一步的指导与MATLAB

`Mdl`- - - - - -分类树的随机森林
`ClassificationBaggedEnsemble`模型对象

`学习者`- - - - - -学习者用于预测重要度的指标
`1: Mdl。NumTrained`(默认)|正整数的数字向量

`选项`- - - - - -并行计算选项
`［］`(默认)|返回的结构数组`statset`

`小鬼`- out -bag，通过排列估计预测器的重要性
数值向量

自动并行支持万博1manbetx
使用并行计算工具箱™自动并行运行计算，加速代码。