按类别可分离标准排名键特征
[
idx.
那Z.
] = rankfeatures(X
那团体
)
[idx.
那Z.
] = rankfeatures(X
那团体
,......'标准',标准值
,......)
[idx.
那Z.
] = rankfeatures(X
那团体
,......'ccweighting',Α
,......)
[idx.
那Z.
] = rankfeatures(X
那团体
,......'nweighting',bet
,......)
[idx.
那Z.
] = rankfeatures(X
那团体
,...'numberofindices',N
,......)
[idx.
那Z.
] = rankfeatures(X
那团体
,...'交叉',CN.
,......)
[
排名在idx.
那Z.
] = rankfeatures(X
那团体
)X
使用独立评估标准进行二进制分类。X
是一个矩阵,其中每个列是观察到的向量,并且行的数量对应于原始特征数量。团体
包含类标签。
idx.
是行中的索引列表X
具有最重要的功能。Z.
是使用标准的绝对值(见下文)。
团体
可以是数字矢量,一个字符矢量或字符串矢量的小区数组。numel(组)
与列数相同X
, 和团体
必须只有两个唯一的值。如果它包含任何NAN值,则该函数忽略相应的观察向量X
。
[
呼叫idx.
那Z.
] = rankfeatures(X
那团体
,......propertyname.
',适当的价值
,......)randfeatures.
具有使用属性名称/属性值对的可选属性。您可以按任何顺序指定一个或多个属性。每个propertyname.
必须用单引号括起来,而是不论不敏感。这些属性名称/属性值对如下:
[
设置用于评估分隔两个标记组的每个功能的重要性的标准。选择是:idx.
那Z.
] = rankfeatures(X
那团体
,......'标准',标准值
,......)
'ttest'
(默认) - 绝对值两示例T检验,汇总方差估计。
'熵'
- 相对熵,也称为Kullback-Leibler距离或发散。
'bhattacharyya'
- 最小可达到的分类错误或Chernoff绑定。
'鹏'
- 经验接收器操作特征(ROC)曲线和随机分类器斜率之间的区域。
'wilcoxon'
- 两个样本未配对的Wilcoxon试验的标准化U形统计的绝对值,也称为Mann-Whitney。
笔记
'ttest'
那'熵'
, 和'bhattacharyya'
假设正常分布式类'鹏'
和'wilcoxon'
是非参数测试。所有测试都是独立的。
[
使用相关信息超过idx.
那Z.
] = rankfeatures(X
那团体
,......'ccweighting',Α
,......)Z.
潜在特征的价值
, 在哪里Z.
*(1-Α
*(rho))rho.
是候选特征与所有先前选择的特征之间的互相关系数的绝对值的平均值。Α
设置加权因子。它是标量值0.
和1
。什么时候Α
是0.
(默认)潜在的功能未加权。一个大的价值rho.
(相近1
)超过意义统计;这意味着与已经挑选的特征高度相关的特征不太可能包括在输出列表中。
[
使用区域信息超过idx.
那Z.
] = rankfeatures(X
那团体
,......'nweighting',bet
,......)Z.
潜在特征的价值
, 在哪里Z.
*(1-exp( - (dist /bet
)。^ 2))dist
是候选功能和先前选择的功能之间的距离(以行)。bet
设置加权因子。它大于或等于0.
。什么时候bet
是0.
(默认)潜在的功能未加权。一个小的dist
(相近0.
)超过仅限密切功能的重要统计数据。这意味着接近已经采摘的功能的功能不太可能包含在输出列表中。此选项可用于从时间序列中提取特征,与时间相关。
bet
也可以是特征位置的函数,指定使用@
或匿名功能。在两种情况下randfeatures.
通过该功能的行位置beta()
并期望回到大于或等于的值0.
。
笔记
您可以使用'ccweighting'
和'nweighting'
一起。
[
设置输出指数的数量idx.
那Z.
] = rankfeatures(X
那团体
,...'numberofindices',N
,......)idx.
。默认值与功能的数量相同Α
和bet
是0.
, 或者20.
否则。
[
对每个特征的观察结果应用独立的归一化。交叉归一化确保不同特征之间的可比性,尽管并不总是必要的,因为所选标准可能已经考虑了这一点。选择是:idx.
那Z.
] = rankfeatures(X
那团体
,...'交叉',CN.
,......)
'没有'
(默认) - 强度不会交叉标准化。
'意思是'
-x_new =(x - 均值(x))/ std(x)
'softmax'
-x_new =(1 + exp((均值(x)-x)/ std(x)))^ - 1
'minmax'
-x_new =(x - min(x))/(max(x)-min(x))
[1] Theodoridis,S.和Koutroumbas,K。(1999)。模式识别,学术出版社,341-342。
[2]刘,H.,Motoda,H.(1998)。知识发现和数据挖掘的功能选择,克隆学术出版商。
[3]罗斯,D.T.ET.AL.(2000)。人癌细胞系基因表达模式的系统变化。自然遗传学。24(3),227-235。