主要内容

refieff.

使用Relieff或Rrelieff算法排名预测器的重要性

描述

例子

[idx.重量] = recieff(XyK.使用Relieff或Rrelieff算法排名预测器K.最近的邻居。输入矩阵X包含预测变量和向量y包含响应矢量。函数返回idx.,其中包含最重要的预测因素的指标,以及重量,其中包含预测器的权重。

如果y是数字,refieff.默认情况下对回归进行RRELIEFF分析。否则,refieff.执行使用的Creieff分析K.每个班级最近的邻居。有关Relieff和Rrelieff的更多信息,请参阅算法

例子

[idx.重量] = recieff(XyK.名称,价值使用一个或多个名称值对参数指定其他选项。例如,'更新',10设置用于计算权重到10的随机选择的观察数。

例子

全部收缩

加载样本数据。

加载渔民

找到使用10个最近邻居的重要预测器。

[IDX,权重] = Relieff(Meas,物种,10)
Idx =.1×44 3 1 2
重量=1×40.1399 0.1226 0.3590 0.3754

idx.显示根据其排名列出的预测值。第四个预测器是最重要的,第二个预测器是最不重要的。重量以与预测器相同的顺序给出权重值。第一预测器的重量为0.1399,第四预测器的重量为0.3754。

加载样本数据。

加载电离层

基于使用10个最近邻居的重要性对预测器排名。

[IDX,权重] = Relieff(x,y,10);

创建一个预测值重量的条形图。

酒吧(重量(IDX))XLabel('预测的排名')ylabel('预测重量重量'

选择前5名最重要的预测因子。找到这些预测器的列X

IDX(1:5)
ans =.1×524 3 8 5 14

第24栏X是最重要的预测因子y

等级分类预测器使用refieff.

加载样本数据。

加载CARBIG.

转换分类预测变量MFG.模型, 和起源对数值,并将它们组合成输入矩阵。指定响应变量MPG.

X = [GRP2IDX(MFG)GRP2IDX(型号)GRP2IDX(原点)];y = mpg;

使用10个最近的邻居找到预测变量的排名和权重,并处理数据X作为分类。

[Idx,权重] = Relieff(x,y,10,'patoricalx''在'
Idx =.1×3.2 3 1
重量=1×3.-0.0019 0.0501 0.0114

模型预测器是预测中最重要的MPG.。这MFG.变量具有负重,表示它不是一个很好的预测因子MPG.

输入参数

全部收缩

预测数据,指定为数字矩阵。每一排X对应于一个观察,并且每列对应于一个变量。

数据类型:单身的|双倍的

响应数据,指定为数字向量,分类矢量,逻辑向量,字符数组,字符串数组或字符向量的单元数组。

数据类型:单身的|双倍的|分类|逻辑|char|细绳|细胞

最近邻居的数量,指定为正整数标量。

数据类型:单身的|双倍的

名称值对参数

指定可选的逗号分离对名称,价值论点。姓名是参数名称和价值是相应的价值。姓名必须出现在引号内。您可以以任何顺序指定多个名称和值对参数name1,value1,...,namen,valuen

例子:Relieff(x,y,5,'方法','分类','cateoricalx','开)指定5个最近的邻居,并将响应变量和预测数据视为分类。

计算权重的方法,指定为包括的逗号分隔对'方法'和任何一种'回归'或者'分类'。如果y是数字,'回归'是默认方法。否则,'分类'是默认值。

例子:'方法','分类'

每个类的先前概率,指定为逗号分隔的配对组成'事先的'和这个表中的一个值。

价值 描述
'经验' 类概率由类频率确定y
'制服' 所有类概率都是平等的。
数字矢量 每个不同的组名称存在一个值。
结构体

结构S.有两个领域:

  • S.Group.包含组名称作为与相同类型的变量y

  • S.Prob.包含相应概率的向量。

例子:'先前','制服'

数据类型:单身的|双倍的|char|细绳|塑造

用于计算权重的随机选择的观察次数,指定为逗号分隔的对'更新'和任何一种'全部'或正整数标量。默认情况下,refieff.使用所有观察。

例子:'更新',25

数据类型:单身的|双倍的|char|细绳

分类预测器标志,指定为逗号分隔的对组成'patoricalx'和任何一种'在'或者'离开'。如果您指定'在', 然后refieff.对待所有预测因素X作为分类。否则,它会处理所有预测因子X作为数字。您无法混合数字和分类预测器。

例子:'patericalx','开'

距离缩放因子,指定为逗号分隔对组成'sigma'和一个数字正标量。对于观察一世,对其最近邻居的预测重量的影响j乘以 E. - 一世 j / Sigma) 2 秩(一世j是这个位置j在最近的邻居中观察一世观察,按距离排序。默认为INF.对于分类(所有最近的邻居具有相同的影响力)和50个以进行回归。

例子:'sigma',20

数据类型:单身的|双倍的

输出参数

全部收缩

预测因素的指标X通过预测的重要性命令,作为数字向量返回。例如,如果IDX(3)5.,那么第三个最重要的预测因子是第五列X

数据类型:双倍的

预测器的重量,作为数字矢量返回。价值重量与预测器有相同的订单X重量范围-11,具有大的积极重量,分配给重要的预测因子。

数据类型:双倍的

尖端

  • 预测器等级和权重通常取决于K.。如果你设置了K.对于1,估计对于噪声数据可能是不可靠的。如果你设置了K.与观察数(行)相当的值Xrefieff.不能找到重要的预测因素。你可以开始K.=10.并调查稳定性和可靠性refieff.各种值的等级和权重K.

  • refieff.除去观察价值观。

算法

全部收缩

refieff

Relieff在案例中找到预测器的重量y是一个多级别分类变量。该算法通过给同一类的邻居提供不同值的预测器,以及向不同类别的邻居提供不同值的奖励预测器。

Relieff首先设置所有预测值权重W.j到0.然后,该算法迭代地选择随机观察XR.,找到K.- 最终观察到XR.对于每个班级和更新,对于每个最近的邻居X问:,预测器的所有权重Fj如下:

如果XR.X问:在同一个班级,

W. j 一世 = W. j 一世 - 1 - δ. j X R. X 问: m D. R. 问:

如果XR.X问:在不同的课程,

W. j 一世 = W. j 一世 - 1 + P. y 问: 1 - P. y R. δ. j X R. X 问: m D. R. 问:

  • W.j一世是预测器的重量Fj一世迭代步骤。

  • P.yR.是班级的现有概率XR.属于和P.y问:是班级的现有概率X问:属于。

  • m是指定的迭代次数'更新'

  • δ. j X R. X 问: 是预测器的价值的差异Fj在观察之间XR.X问:。让Xrj.表示j预测者观察XR., 然后让XQJ.表示j预测者观察X问:

    • 对于离散的Fj

      δ. j X R. X 问: = { 0. X R. j = X 问: j 1 X R. j X 问: j

    • 对于连续的Fj

      δ. j X R. X 问: = | X R. j - X 问: j | 最大限度 F j - F j

  • D.rq.是表单的距离功能

    D. R. 问: = D. R. 问: σ. L. = 1 K. D. R. L.

    距离受到缩放的影响

    D. R. 问: = E. - R. 问: / Sigma) 2

    在哪里秩(R.问:是这个位置问:在最近的邻居中观察R.观察,按距离排序。K.是最近的邻居的数量,指定K.。您可以通过指定更改缩放'sigma'

rrelieff.

Rrelieff与连续工作y。与Relieff类似,Rrelieff也惩罚给具有相同响应值的邻居提供不同值的预测器,以及向具有不同响应值的邻居提供不同值的奖励预测器。然而,Rrelieff使用中间权重来计算最终预测器权重。

给定两个最近的邻居,假设以下内容:

  • W.dy是对响应具有不同值的重量y

  • W.DJ.是对预测器具有不同值的重量Fj

  • W. D. y D. j 是具有不同响应值的重量和预测器的不同值Fj

Rrelieff首先设置重量W.dyW.DJ. W. D. y D. j , 和W.j等于0.然后,算法迭代地选择随机观察XR.,找到K.- 最终观察到XR.以及每个最近邻居的更新X问:,所有中间重量如下:

W. D. y 一世 = W. D. y 一世 - 1 + δ. y X R. X 问: D. R. 问:

W. D. j 一世 = W. D. j 一世 - 1 + δ. j X R. X 问: D. R. 问:

W. D. y D. j 一世 = W. D. y D. j 一世 - 1 + δ. y X R. X 问: δ. j X R. X 问: D. R. 问:

  • 一世一世-1上标表示迭代步骤编号。m是指定的迭代次数'更新'

  • δ. y X R. X 问: 是连续响应的价值的差异y在观察之间XR.X问:。让yR.表示观察响应的值XR., 然后让y问:表示观察响应的值X问:

    δ. y X R. X 问: = | y R. - y 问: | 最大限度 y - y

  • δ. j X R. X 问: D.rq.功能与其相同refieff

Rrelieff计算预测值权重W.j在完全更新所有中间权重之后。

W. j = W. D. y D. j W. D. y - W. D. j - W. D. y D. j m - W. D. y

有关更多信息,请参阅[2]

参考

[1] Kononenko,I.,E. Simec和M. Robnik-Sikonja。(1997)。“克服了Creieff的归纳学习算法的近视。”从CiteSeerx中检索:https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.4740

[2] Robnik-Sikonja,M.和I. Kononenko。(1997)。“对回归中属性估计的缓解改编。”从CiteSeerx中检索:https://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.34.8381

[3] Robnik-Sikonja,M.和I. Kononenko。(2003)。“Relieff和Rrelieff的理论和实证分析”。机器学习,53,23-69。

介绍在R2010B.