主要内容

oobPermutedPredictorImportance

分类树的随机森林的预测重要度由袋外预测观察的排列估计

描述

例子

小鬼= oobPermutedPredictorImportance (Mdl返回的向量out- bag,通过排列估计预测器的重要性使用随机森林分类树MdlMdl必须是一个ClassificationBaggedEnsemble模型对象。

例子

小鬼= oobPermutedPredictorImportance (Mdl名称,值使用一个或多个指定的附加选项名称,值对参数。例如,您可以使用并行计算来加快计算速度,或者指示在预测器重要性估计中使用哪些树。

输入参数

全部展开

分类树的随机森林,指定为ClassificationBaggedEnsemble模型对象由fitcensemble

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

学习者用于预测因子重要性估计的指标,指定为逗号分隔对,由“学习者”和一个正整数的数字向量。值必须为最大值Mdl。NumTrained.当oobPermutedPredictorImportance估计预测器的重要性,它包括学习者Mdl。Trained(学习者只有,学习者的价值“学习者”

例子:“学习者”,[1:2:Mdl。NumTrained]

并行计算选项,指定为逗号分隔对,由“选项”和返回的结构数组statset“选项”需要一个并行计算工具箱™许可证。

oobPermutedPredictorImportance使用“UseParallel”字段。statset (UseParallel,真的)调用一个工作池。

例子:“选项”,statset (UseParallel,真的)

输出参数

全部展开

out -bag,通过排列估计预测器的重要性,返回为1-by-p数值向量。p为训练数据中预测变量的个数(大小(Mdl.X, 2)).Imp (j预测器是否重要Mdl。PredictorNames (j

例子

全部展开

加载census1994数据集。考虑一个模型,它根据一个人的年龄、工人阶级、教育水平、婚姻状况、种族、性别、资本损益和每周工作时间来预测一个人的收入类别。

负载census1994X = adultdata (: {“年龄”“workClass”“education_num”“marital_status”“种族”...“性”“capital_gain”“capital_loss”“hours_per_week”“工资”});

您可以使用整个数据集训练一个由50棵分类树组成的随机森林。

Mdl = fitcensemble (X,“工资”“方法”“包”“NumLearningCycles”, 50);

fitcensemble使用默认的模板树对象templateTree ()作为一个弱学习者“方法”“包”.在本例中,为了再现性,请指定“重现”,真的当你创建一个树模板对象,然后使用对象作为弱学习器。

rng (“默认”%的再现性t = templateTree (“复制”,真正的);%用于随机预测器选择的重现性Mdl = fitcensemble (X,“工资”“方法”“包”“NumLearningCycles”, 50岁,“学习者”t);

Mdl是一个ClassificationBaggedEnsemble模型。

通过排列出包外的观察来估计预测器的重要性。用条形图比较估计值。

小鬼= oobPermutedPredictorImportance (Mdl);图;酒吧(imp);标题(“out - bag perised Predictor Importance Estimates”);ylabel (“估计”);包含(“预测”);甘氨胆酸h =;h.XTickLabel = Mdl.PredictorNames;h.XTickLabelRotation = 45;h.TickLabelInterpreter =“没有”

图中包含一个轴对象。标题为“out - bag perconfigured Predictor Importance Estimates”的axes对象包含一个类型为bar的对象。

小鬼是预测器重要性估计的1 × 9向量。较大的值表示对预测有较大影响的预测器。在这种情况下,marital_status最重要的预测因素是什么capital_gain

加载census1994数据集。考虑一个模型,它根据一个人的年龄、工人阶级、教育水平、婚姻状况、种族、性别、资本损益和每周工作时间来预测一个人的收入类别。

负载census1994X = adultdata (: {“年龄”“workClass”“education_num”“marital_status”“种族”...“性”“capital_gain”“capital_loss”“hours_per_week”“工资”});

使用的类别变量中显示类别的数目总结

总结(X)
变量:年龄:32561×1 double值:Min 17中位数37 Max 90工作阶级:32561×1分类值:联邦政府960地方政府2093从未工作过7私人22696 Self-emp-inc 1116 Self-emp-not-inc 2541州政府1298没有支付14 NumMissing 1836教育_num: 32561×1 double值:Min 1中位数10 Max 16婚姻状态:32561×1分类值:4443 Married-AF-spouse 23 Married-civ-spouse 14976年离婚Married-spouse-absent 418未婚10683分离1025 993年丧偶的种族:32561×1分类值:Amer-Indian-Eskimo 311 Asian-Pac-Islander 1039黑3124其他271白27816性:32561×1分类值:女21790 10771名男性capital_gain:32561×1 double Values: Min 0中位数0 Max 99999 capital_loss: 32561×1 double Values: Min 0中位数0 Max 4356 hours_per_week: 32561×1 double Values: Min 1中位数40 Max 99 salary: 32561×1 categoryvalues: <=50K 24720 >50K 7841

由于与连续变量的水平相比,在分类变量中所代表的类别很少,因此标准的CART、预测器分割算法更喜欢分割连续预测器而不是分类变量。

使用整个数据集训练50棵分类树的随机森林。要种植无偏的树,指定使用曲率测试的分裂预测器。由于数据中缺少值,请指定代理拆分的用法。为了重现随机的预测器选择,使用rng并指定“重现”,真的

rng (“默认”%的再现性t = templateTree (“PredictorSelection”“弯曲”“代孕”“上”...“复制”,真正的);%用于随机预测器选择的重现性Mdl = fitcensemble (X,“工资”“方法”“包”“NumLearningCycles”, 50岁,...“学习者”t);

通过排列出包外的观察来估计预测器的重要性。并行执行计算。

选择= statset (“UseParallel”,真正的);小鬼= oobPermutedPredictorImportance (Mdl,“选项”、选择);
使用“local”配置文件启动并行池(parpool)…连接到并行池(工作人员数量:6)。

用条形图比较估计值。

图酒吧(imp)标题(“out - bag perised Predictor Importance Estimates”) ylabel (“估计”)包含(“预测”) h = gca;h.XTickLabel = Mdl.PredictorNames;h.XTickLabelRotation = 45;h.TickLabelInterpreter =“没有”

在这种情况下,capital_gain最重要的预测因素是什么martial_status.将这些结果与评估预测因素的重要性

更多关于

全部展开

提示

当种植随机森林使用fitcensemble

  • 标准CART倾向于选择包含许多不同值(如连续变量)的分离预测因子,而不是包含很少不同值(如分类变量)的分离预测因子[3].如果预测器数据集是异构的,或者如果有比其他变量具有相对较少的不同值的预测器,那么考虑指定曲率或交互测试。

  • 使用标准CART生长的树木对预测变量相互作用不敏感。此外,与交互测试的应用相比,在存在许多无关的预测因子时,这种树不太可能识别出重要的变量。因此,为了解释预测变量之间的交互作用,并在存在许多不相关变量的情况下识别重要变量,指定交互作用检验[2]

  • 如果训练数据包含许多预测器,而您想要分析预测器的重要性,那么请指定“NumVariablesToSample”templateTree函数作为“所有”对于合奏的树型学习者。否则,软件可能不会选择一些预测因子,低估它们的重要性。

有关详细信息,请参见templateTree选择分裂预测器选择技术

参考文献

[1] Breiman, L., J. Friedman, R. Olshen, C. Stone。分类与回归树.佛罗里达州博卡拉顿:CRC出版社,1984。

[2] Loh, W.Y., <具有无偏变量选择和交互检测的回归树>Statistica中央研究院, 2002年第12卷,第361-386页。

Loh w.y y and Y.S. Shih分类树的分裂选择方法Statistica中央研究院, 1997年第7卷,第815-840页。

扩展功能

介绍了R2016b