relieff

使用ReliefF或RReliefF算法对预测因子的重要性进行排序

语法

[idx,weights] = relieff(X,y,k)

[idx,weights] = relieff(X,y,k，名称，值)

描述

［idx，权重浮雕，浮雕X，y，k）使用ReliefF或RReliefF算法对预测器进行排序k最近的邻居。输入矩阵X包含预测变量和向量y包含响应向量。函数返回idx，其中包含最重要预测因子的指标，和权重，其中包含预测器的权重。

如果y是数字,relieff默认执行RReliefF回归分析。否则,relieff执行ReliefF分析以便分类使用k每个类的最近邻居。有关ReliefF和RReliefF的更多信息，请参见算法．

例子

［idx，权重浮雕，浮雕X，y，k，名称,值）使用一个或多个名称-值对参数指定其他选项。例如,“更新”,10将随机选择的用于计算权重的观察数设置为10。

例子

全部折叠

确定重要预测因素

打开实时脚本

加载样例数据。

负载fisheriris

使用10个最近的邻居找到重要的预测因子。

[idx,weights] = relieff(meas,species,10)

idx =1×44 3 1 2

重量=1×40.1399 0.1226 0.3590 0.3754

idx显示根据他们的排名列出的预测数字。第四个预测因子是最重要的，第二个是最不重要的。权重以与预测器相同的顺序给出权重值。第一个预测因子的权重为0.1399，第四个预测因子的权重为0.3754。

根据重要性对预测器进行排名

打开实时脚本

加载样例数据。

负载电离层

根据重要性使用10个最近的近邻对预测器进行排序。

[idx,weights] = relieff(X,Y,10);

创建一个预测器重要性权重的条形图。

栏(权重(idx))包含(“预测排名”) ylabel (“预测重要性权重”）

图中包含一个axes对象。axes对象包含一个bar类型的对象。

选择前5个最重要的预测因素。找到这些预测器的列X．

idx (1:5)

ans =1×524 3 8 5 14

第24列X是最重要的预测因素吗Y．

确定重要的分类预测词

打开实时脚本

对使用的分类预测器进行排序relieff．

加载样例数据。

负载carbig

转换分类预测变量制造行业，模型,起源，并将它们组合成一个输入矩阵。指定响应变量英里/加仑．

X = [grp2idx(制造商)grp2idx(型号)grp2idx(原产地)];y = MPG;

找出使用10个最近邻的预测变量的秩和权重，并处理数据X分类。

[idx,weights] = relieff(X,y,10，)“categoricalx”，“上”）

idx =1×32 3 1

重量=1×3-0.0019 0.0501 0.0114

的模型预测器是预测中最重要的英里/加仑．的制造行业变量有一个负的权重，表明它不是一个很好的预测英里/加仑．

输入参数

全部折叠

`X`- - - - - -预测数据
数字矩阵

预测数据，指定为数值矩阵。每一行X对应一个观察结果，每一列对应一个变量。

数据类型:单|双

`y`- - - - - -响应数据
数值向量|分类向量|逻辑向量|字符数组|字符串数组|字符向量的单元格数组

响应数据，指定为数字向量、类别向量、逻辑向量、字符数组、字符串数组或字符向量的单元格数组。

数据类型:单|双|分类|逻辑|字符|字符串|细胞

`k`- - - - - -最近邻居数
正整数标量

最近的邻居数，指定为正整数标量。

数据类型:单|双

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后，但对的顺序并不重要。

在R2021a之前，名称和值之间用逗号隔开，并括起来的名字在报价。

例子:relieff (X, y, 5,“方法”,“分类”、“categoricalx”,“上”)指定5个最近邻，并将响应变量和预测器数据视为分类。

`方法`- - - - - -权重计算方法
`“回归”`|`“分类”`

计算权重的方法，指定为逗号分隔的对，由“方法”,要么“回归”或“分类”．如果y是数字,“回归”是默认方法。否则,“分类”是默认值。

例子:“方法”、“分类”

`之前`- - - - - -每一类的先验概率
`“经验”`(默认)|`“统一”`|数值向量|结构

每个类的先验概率，指定为逗号分隔的对，由“之前”和这个表中的一个值。

价值	描述
`“经验”`	类概率由中的类频率确定`y`．
`“统一”`	所有的类概率都是相等的。
数值向量	每个不同的组名都有一个值。
结构	一个结构`年代`有两个字段: `S.group`作为类型相同的变量包含组名`y`． `S.prob`包含相应概率的向量。

例子:“前”、“制服”

数据类型:单|双|字符|字符串|结构体

`更新`- - - - - -用于计算权值的观察数
`“所有”`(默认)|正整数标量

为计算权重随机选择的观察数，指定为逗号分隔的对，由“更新”,要么“所有”或者一个正整数标量。默认情况下,relieff使用所有的观察结果。

例子:“更新”,25岁

数据类型:单|双|字符|字符串

`categoricalx`- - - - - -类别预测器标记
`“关闭”`(默认)|`“上”`

标记，指定为逗号分隔的一对，由“categoricalx”,要么“上”或“关闭”．如果你指定“上”,然后relieff中的所有预测器X分类。否则，它处理所有的预测器X作为数字。不能混合使用数值预测器和类别预测器。

例子:“categoricalx”,“上”

`σ`- - - - - -距离比例因子
数值正标量

距离缩放因子，指定为逗号分隔的对，由“σ”和一个正标量。为观察我，其最近邻对预测权值的影响j乘以 $e^{- {（排名（我， j ） / σ)}^{2}}$ ．排名(我，j）是位置的j观察到的最邻近的我观察结果，按距离排序。默认为正对于分类(所有最近的邻居都有相同的影响)和回归50。

例子:“σ”,20

数据类型:单|双

输出参数

全部折叠

`idx`-根据预测器重要性排序的预测器指数
数值向量

中的预测指标X按预测器重要性排序，作为数字向量返回。例如，如果idx (3)是5，那么第三个最重要的预测因子是第5列X．

数据类型:双

`权重`-预测因子的权重
数值向量

预测器的权重，作为数字向量返回。中的值权重和预测的顺序一样吗X．权重范围从1来1，对重要的预测因子赋有较大的正权重。

数据类型:双

提示

预测者的排名和权重通常取决于k．如果你设置k到1，则对于有噪声的数据，估计可能是不可靠的。如果你设置k中的观察数(行)相比较的值X，relieff可能找不到重要的预测因子。你可以从k＝10并对其稳定性和可靠性进行了研究relieff的各种值的秩和权重k．
relieff删除观察南值。

算法

全部折叠

ReliefF

ReliefF在以下情况下查找预测器的权重y是一个多类类别变量。该算法惩罚对同一类的邻居给出不同值的预测器，奖励对不同类的邻居给出不同值的预测器。

ReliefF首先设置所有的预测器权重W_j为0。然后，算法迭代选择一个随机观测值x_r，发现k-最近的观测x_r对于每个类和更新，对于每个最近的邻居x_问，所有预测因子的权重F_j如下:

如果x_r而且x_问在同一个班级，

$W_{j}^{我} ＝ W_{j}^{我 - 1} - \frac{Δ_{j} （ x_{r} ， x_{问} ）}{米} \cdot d_{r 问} ．$

如果x_r而且x_问在不同的班级，

$W_{j}^{我} ＝ W_{j}^{我 - 1} + \frac{p_{y_{问}}}{1 - p_{y_{r}}} \cdot \frac{Δ_{j} （ x_{r} ， x_{问} ）}{米} \cdot d_{r 问} ．$

W_j^我权重是预测器吗F_j在我第Th迭代步骤。
p_{y_r}类的先验概率是x_r属于,p_{y_问}类的先验概率是x_问属于。
米迭代的次数是由“更新”．
$Δ_{j} （ x_{r} ， x_{问} ）$ 是预测值的差异吗F_j之间的观察x_r而且x_问．让x_rj的值j观察的预测因子x_r，让x_qj的值j观察的预测因子x_问．
- 对于离散F_j，
  
  $Δ_{j} （ x_{r} ， x_{问} ）＝｛ \begin{matrix} 0 ， & x_{r j} ＝ x_{问 j} \\ 1 ， & x_{r j} \neq x_{问 j} \end{matrix} ．$
- 连续F_j，
  
  $Δ_{j} （ x_{r} ， x_{问} ）＝ \frac{| x_{r j} - x_{问 j} |}{马克斯（ F_{j} ） - 最小值（ F_{j} ）} ．$
d_中移动是这个形式的距离函数吗

$d_{r 问} ＝ \frac{{\tilde{d}}_{r 问}}{\sum_{l ＝ 1}^{k} {\tilde{d}}_{r l}} ．$

距离受比例的影响

${\tilde{d}}_{r 问} ＝ e^{- {（排名（ r ，问） / σ)}^{2}}$

在哪里排名(r，问）是位置的问观察到的最邻近的r观察结果，按距离排序。k最近邻居的数量是否指定为k．您可以通过指定更改比例“σ”．

RReliefF

RReliefF是连续的y．与ReliefF类似，RReliefF也会惩罚那些向具有相同响应值的邻居提供不同值的预测器，并奖励那些向具有不同响应值的邻居提供不同值的预测器。然而，RReliefF使用中间权重来计算最终的预测权重。

给定两个最近的邻居，假设如下:

W_dy是响应的不同值的权重吗y．
W_dj是预测器不同值的权重吗F_j．
$W_{d y \land d j}$ 有不同的响应值和不同的预测器值的权重F_j．

RReliefF首先设置权重W_dy，W_dj， $W_{d y \land d j}$ ,W_j等于0。然后，算法迭代选择一个随机观测值x_r，发现k-最近的观测x_r，并对每个最近的邻居进行更新x_问，各中间权重分别为:

$W_{d y}^{我} ＝ W_{d y}^{我 - 1} + Δ_{y} （ x_{r} ， x_{问} ） \cdot d_{r 问} ．$

$W_{d j}^{我} ＝ W_{d j}^{我 - 1} + Δ_{j} （ x_{r} ， x_{问} ） \cdot d_{r 问} ．$

$W_{d y \land d j}^{我} ＝ W_{d y \land d j}^{我 - 1} + Δ_{y} （ x_{r} ， x_{问} ） \cdot Δ_{j} （ x_{r} ， x_{问} ） \cdot d_{r 问} ．$

的我而且我－1上标表示迭代步数。米迭代的次数是由“更新”．
$Δ_{y} （ x_{r} ， x_{问} ）$ 是连续响应值的差异吗y之间的观察x_r而且x_问．让y_r表示用于观察的响应值x_r，让y_问表示用于观察的响应值x_问．

$Δ_{y} （ x_{r} ， x_{问} ）＝ \frac{| y_{r} - y_{问} |}{马克斯（ y ） - 最小值（ y ）} ．$
的 $Δ_{j} （ x_{r} ， x_{问} ）$ 而且d_中移动函数与for相同ReliefF．

RReliefF计算预测器权重W_j在完全更新所有中间权值之后。

$W_{j} ＝ \frac{W_{d y \land d j}}{W_{d y}} - \frac{W_{d j} - W_{d y \land d j}}{米 - W_{d y}} ．$

有关更多信息，请参见[２]．

参考文献

[1] Kononenko, I.， E. Simec, M. Robnik-Sikonja。(1997)。“用RELIEFF克服归纳学习算法的短视。”检索自CiteSeerX:http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.4740

[2] Robnik-Sikonja, M.和I. Kononenko。(1997)。“对回归中属性估计的Relief的适应。”检索自CiteSeerX:http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.34.8381

[3] Robnik-Sikonja, M.和I. Kononenko。(2003)。ReliefF和RReliefF的理论和实证分析。机器学习53, 23-69。

版本历史

在R2010b中引入

另请参阅

relieff

语法

描述

例子

确定重要预测因素

根据重要性对预测器进行排名

确定重要的分类预测词

输入参数

X- - - - - -预测数据数字矩阵

y- - - - - -响应数据数值向量|分类向量|逻辑向量|字符数组|字符串数组|字符向量的单元格数组

k- - - - - -最近邻居数正整数标量

名称-值参数

方法- - - - - -权重计算方法“回归”|“分类”

之前- - - - - -每一类的先验概率“经验”(默认)|“统一”|数值向量|结构

更新- - - - - -用于计算权值的观察数“所有”(默认)|正整数标量

categoricalx- - - - - -类别预测器标记“关闭”(默认)|“上”

σ- - - - - -距离比例因子数值正标量

输出参数

idx-根据预测器重要性排序的预测器指数数值向量

权重-预测因子的权重数值向量

提示

算法

ReliefF

RReliefF

参考文献

版本历史

另请参阅

主题

`X`- - - - - -预测数据
数字矩阵

`y`- - - - - -响应数据
数值向量|分类向量|逻辑向量|字符数组|字符串数组|字符向量的单元格数组

`k`- - - - - -最近邻居数
正整数标量

`方法`- - - - - -权重计算方法
`“回归”`|`“分类”`

`之前`- - - - - -每一类的先验概率
`“经验”`(默认)|`“统一”`|数值向量|结构

`更新`- - - - - -用于计算权值的观察数
`“所有”`(默认)|正整数标量

`categoricalx`- - - - - -类别预测器标记
`“关闭”`(默认)|`“上”`

`σ`- - - - - -距离比例因子
数值正标量

`idx`-根据预测器重要性排序的预测器指数
数值向量

`权重`-预测因子的权重
数值向量