主要内容

predictorImportance

分类树中预测因子重要性的估计

语法

小鬼= predictorImportance(树)

描述

偶尔= predictorImportance (计算预测器重要性的估计通过对每个预测器的分裂所造成的风险变化进行求和,并除以分支节点的数量。

输入参数

创建的分类树fitctree,或由紧凑的方法。

输出参数

偶尔

中元素数量与预测器(列)数量相同的行向量.X.条目是预测器重要性的估计,与0代表最小的重要性。

例子

全部展开

载入费雪的虹膜数据集。

负载fisheriris

生成分类树。

Mdl = fitctree(量、种类);

计算所有预测变量的预测器重要性估计。

小鬼= predictorImportance (Mdl)
小鬼=1×40 0 0.0907 0.0682

前两个要素偶尔为零。因此,前两个预测不进入Mdl虹膜分类的计算。

如果使用代理分割,预测器重要性的估计不依赖于预测器的顺序,但如果不使用代理分割,则依赖于顺序。

排列前面示例中的数据列的顺序,生长另一棵分类树,然后计算预测器重要性估计。

measPerm = meas(:,[4 1 3 2]);MdlPerm = fitctree (measPerm、物种);impPerm = predictorImportance (MdlPerm)
impPerm =1×40.1515 0 0.0074 0

对预测因子重要性的估计不是一种排列偶尔

载入费雪的虹膜数据集。

负载fisheriris

生成分类树。指定代理符拆分的用法。

MDL = FITCTREE(MEAM,物种,“代孕”“上”);

计算所有预测变量的预测器重要性估计。

小鬼= predictorImportance (Mdl)
小鬼=1×40.0791 0.0374 0.1530 0.1529

所有的预测都有一定的重要性。前两个预测因素不如后两个重要。

排列前面示例中的数据列的顺序,生长另一棵指定代理分割用法的分类树,然后计算预测器重要性估计。

measPerm = meas(:,[4 1 3 2]);MdlPerm = fitctree (measPerm物种,“代孕”“上”);impPerm = predictorImportance (MdlPerm)
impPerm =1×40.1529 0.0791 0.1530 0.0374

预测原子重要性的估计是排列偶尔

加载census1994数据集。考虑一个模型,它根据一个人的年龄、工人阶级、教育水平、婚姻状况、种族、性别、资本损益和每周工作时间来预测一个人的收入类别。

负载census1994x = AdultData(:,{'年龄'“workClass”“education_num”“marital_status”“种族”...“性”“capital_gain”“capital_loss”“hours_per_week”'薪水'});

使用的类别变量中显示类别的数目总结

总结(X)
变量:年龄:32561x1 double值:Min 17 Median 37 Max 90 workClass: 32561x1 categoryvalues:联邦政府960地方政府2093 Never-worked 7 Private 22696 Self-emp-inc 1116 Self-emp-not-inc 2541 State-gov 1298 unout -pay 14 NumMissing 1836 education_num: 32561x1 double值:Min 1 Median 10 Max 16 marital_status:32561 x1分类值:4443 Married-AF-spouse 23 Married-civ-spouse 14976年离婚Married-spouse-absent 418未婚10683分离1025 993年丧偶的种族:32561 x1分类值:Amer-Indian-Eskimo 311 Asian-Pac-Islander 1039黑3124其他271白27816性:32561 x1分类值:女21790 10771名男性capital_gain:32561x1 double Values: Min 0中位数0 Max 99999 capital_loss: 32561x1 double Values: Min 0中位数0 Max 4356 hours_per_week: 32561x1 double Values: Min 1中位数40 Max 99 salary: 32561x1 categoryvalues: <=50K 24720 >50K 7841

由于分类变量中的几个类别与连续变量中的级别相比,标准推车,预测器分裂算法更喜欢在分类变量上拆分连续预测器。

使用整个数据集训练分类树。要种植无偏的树,指定使用曲率测试的分裂预测器。由于数据中缺少观察值,请指定代理拆分的用法。

Mdl = fitctree (X,'薪水'“PredictorSelection”“弯曲”...“代孕”“上”);

通过对每个预测器的分裂所造成的风险变化进行求和,并除以分支节点的数量,来估计预测器的重要性值。用条形图比较估计值。

小鬼= predictorImportance (Mdl);图;酒吧(imp);标题(的预测估计的重要性);ylabel (“估计”);包含('预测器');甘氨胆酸h =;h.XTickLabel = Mdl.PredictorNames;h.XTickLabelRotation = 45;h.TickLabelInterpreter =“没有”

图包含轴。具有标题预测值重要性估计的轴包含类型栏的对象。

在这种情况下,capital_gain最重要的预测因素是什么education_num

更多关于

全部展开