MRMR算法[1]找到一组最优的特性是相互和最大限度地不同,可以表示响应变量有效。特性集的算法最小化冗余和最大化的相关性响应变量的特性集。算法量化使用互信息的冗余和相关性variables-pairwise互信息的特征和互信息的特性和响应。您可以使用此算法分类问题。
MRMR算法的目标是找到一组最优年代最大化的功能V年代的相关性,年代对响应变量y,最大限度地减少W年代的冗余年代,在那里V年代和W年代定义与互信息我:
|的|特征的数量吗年代。
寻找一组最优年代需要考虑所有2|Ω|组合,Ω是整个特性集,而是MRMR算法中特征通过远期计划,这需要吗O(|Ω|·|年代|)计算,利用互信息商(筛选)值。
在哪里Vx和Wx的相关性和冗余功能,分别为:
的fscmrmr
函数中所有功能Ω并返回idx
(特性的指数特性重要性)下令使用MRMR算法。因此,计算成本O(|Ω|2)。函数量化特征的重要性使用启发式算法和回报分数
。大的得分值表明,相应的预测是很重要的。同时,功能重要性评分下降代表了特征选择的信心。例如,如果选择一个功能的软件很有信心x,然后下一个最重要的得分值特性比的得分值小得多x。您可以使用输出找到一组最优年代对于一个给定数量的特性。
fscmrmr
排名功能如下:
选择功能最大的相关性,
。选中的功能添加到一个空集年代。
找到的特性与非零相关性和零冗余的补充年代,年代c。
如果年代c不包括与非零特征相关性和零冗余,步骤4。
否则,选择功能最大的相关性,
。将选中的功能添加到集合年代。
重复第2步,直到所有功能的冗余不为零年代c。
选择最大的特征进行筛选值非零相关性和非零冗余年代c,并添加选中的特性集年代。
重复步骤4直到所有功能的相关性为零年代c。
添加的特性与零相关年代以随机的顺序。
软件可以跳过任何步骤如果不能找到一个满足条件的特性中描述的步骤。