MRMR算法[1]找到一个最优的特征集,是相互和最大不相似的,并能有效地表示响应变量。该算法最大限度地减少了特征集的冗余,最大限度地提高了特征集与响应变量的相关性。该算法利用变量的互信息-特征的两两互信息和特征与响应的互信息来量化冗余和相关性。你可以用这个算法来解决分类问题。
MRMR算法的目标是找到一个最优集合年代最大化的特征V年代的相关性。年代对于响应变量y,最大限度地减少W年代的冗余度年代,在那里V年代而且W年代定义与互信息我:
|的|功能的数量在吗年代.
寻找最优集合年代需要考虑所有2|Ω|组合,Ω是整个功能集。相反,MRMR算法通过正向相加方案对特征进行排序,这需要O(|Ω|·|年代|)通过使用互信息商(MIQ)值进行计算。
在哪里Vx而且Wx为特征的相关性和冗余度,分别为:
的fscmrmr
功能将所有的功能排列在一起Ω并返回idx
(按特征重要性排序的特征指数)使用MRMR算法。因此,计算成本变成O(|Ω|2).该函数使用启发式算法量化特征的重要性并返回分数
.较大的评分值表明相应的预测因子是重要的。此外,特征重要性得分的下降表示特征选择的信心。例如,如果软件有信心选择一个特性x,则下一个最重要特征的分值远小于x.您可以使用输出找到一个最优集合年代对于给定数量的特征。
fscmrmr
rank的特点如下:
选择相关性最大的特征,
.将所选特性添加到空集合中年代.
的补中找出非零相关性和零冗余度的特征年代,年代c.
重复步骤2,直到所有特征的冗余度不为零年代c.
选择MIQ值最大、相关度非零、冗余非零的特征年代c,并将所选特征添加到集合中年代.
重复步骤4,直到所有特征的相关性为零年代c.
添加与之无关的特性年代以随机的顺序。
如果软件不能找到满足该步骤中描述的条件的特征,它可以跳过任何步骤。