MRMR算法[1]查找相互和最大不同的最佳特征集,可以有效地表示响应变量。该算法最小化特征集的冗余,并最大化特征设置为响应变量的特征的相关性。该算法使用变量的相互信息与特征和响应的相互信息的相互信息来定量冗余和相关性。您可以使用此算法进行分类问题。
在MRMR算法的目标是找到一个最佳的集年代的功能最大化V年代,相关性年代关于响应变量y,并最小化W年代,冗余年代, 在哪里V年代和W年代被定义为相互信息我:
|的|是功能的数量年代.
找到最佳集合年代需要考虑所有2|ω.|组合,在哪里ω.是整个功能集。相反,MRMR算法通过前向加法方案排列特征,这需要O(|ω.|·|年代|))计算,通过使用互信息额定额定(MIQ)值。
在哪里Vx和Wx是一个功能的相关性和冗余:
的FSCMRMR.
功能排列所有特征ω.并退货idx.
(使用MRMR算法(特征重要性订购的特征指数)。因此,计算成本变为O(|ω.|2).该函数使用启发式算法和返回量化功能的重要性分数
.一个较大的得分值表明相应的预测器是重要的。此外,特征重要性得分的下降表示特征选择的置信度。例如,如果软件有信心选择一个特性x,然后下一个最重要的特征的分数值远小于分数值x.您可以使用输出查找最佳集合年代对于给定数量的功能。
FSCMRMR.
排名的功能如下:
具有最大相关性选择的功能,
.将所选功能添加到空集中年代.
查找的互补与非零相关性的特点和零冗余年代,年代c.
重复步骤2,直到所有功能都不为零年代c.
选择具有NOZERO相关性和非零冗余的MIQ值最大的功能年代c,并将所选特性添加到集合中年代.
重复步骤4,直到所有功能的相关性为零年代c.
添加具有零相关性的功能年代以随机顺序。
如果无法找到满足步骤中描述的条件的功能,软件可以跳过任何步骤。