主要内容

randfeatures.

按类别可分离标准排名键特征

句法

[idx.Z.] = rankfeatures(X团体
[idx.Z.] = rankfeatures(X团体,......'标准',标准值,......)
[idx.Z.] = rankfeatures(X团体,......'ccweighting',Α,......)
[idx.Z.] = rankfeatures(X团体,......'nweighting',bet,......)
[idx.Z.] = rankfeatures(X团体,...'numberofindices',N,......)
[idx.Z.] = rankfeatures(X团体,...'交叉',CN.,......)

描述

[idx.Z.] = rankfeatures(X团体排名在X使用独立评估标准进行二进制分类。X是一个矩阵,其中每个列是观察到的向量,并且行的数量对应于原始特征数量。团体包含类标签。

idx.是行中的索引列表X具有最重要的功能。Z.是使用标准的绝对值(见下文)。

团体可以是数字矢量,一个字符矢量或字符串矢量的小区数组。numel(组)与列数相同X, 和团体必须只有两个唯一的值。如果它包含任何NAN值,则该函数忽略相应的观察向量X

[idx.Z.] = rankfeatures(X团体,......propertyname.',适当的价值,......)呼叫randfeatures.具有使用属性名称/属性值对的可选属性。您可以按任何顺序指定一个或多个属性。每个propertyname.必须用单引号括起来,而是不论不敏感。这些属性名称/属性值对如下:

[idx.Z.] = rankfeatures(X团体,......'标准',标准值,......)设置用于评估分隔两个标记组的每个功能的重要性的标准。选择是:

  • 'ttest'(默认) - 绝对值两示例T检验,汇总方差估计。

  • '熵'- 相对熵,也称为Kullback-Leibler距离或发散。

  • 'bhattacharyya'- 最小可达到的分类错误或Chernoff绑定。

  • '鹏'- 经验接收器操作特征(ROC)曲线和随机分类器斜率之间的区域。

  • 'wilcoxon'- 两个样本未配对的Wilcoxon试验的标准化U形统计的绝对值,也称为Mann-Whitney。

笔记

'ttest''熵', 和'bhattacharyya'假设正常分布式类'鹏''wilcoxon'是非参数测试。所有测试都是独立的。

[idx.Z.] = rankfeatures(X团体,......'ccweighting',Α,......)使用相关信息超过Z.潜在特征的价值Z.*(1-Α*(rho)), 在哪里rho.是候选特征与所有先前选择的特征之间的互相关系数的绝对值的平均值。Α设置加权因子。它是标量值0.1。什么时候Α0.(默认)潜在的功能未加权。一个大的价值rho.(相近1)超过意义统计;这意味着与已经挑选的特征高度相关的特征不太可能包括在输出列表中。

[idx.Z.] = rankfeatures(X团体,......'nweighting',bet,......)使用区域信息超过Z.潜在特征的价值Z.*(1-exp( - (dist /bet)。^ 2)), 在哪里dist是候选功能和先前选择的功能之间的距离(以行)。bet设置加权因子。它大于或等于0.。什么时候bet0.(默认)潜在的功能未加权。一个小的dist(相近0.)超过仅限密切功能的重要统计数据。这意味着接近已经采摘的功能的功能不太可能包含在输出列表中。此选项可用于从时间序列中提取特征,与时间相关。

bet也可以是特征位置的函数,指定使用@或匿名功能。在两种情况下randfeatures.通过该功能的行位置beta()并期望回到大于或等于的值0.

笔记

您可以使用'ccweighting''nweighting'一起。

[idx.Z.] = rankfeatures(X团体,...'numberofindices',N,......)设置输出指数的数量idx.。默认值与功能的数量相同Αbet0., 或者20.否则。

[idx.Z.] = rankfeatures(X团体,...'交叉',CN.,......)对每个特征的观察结果应用独立的归一化。交叉归一化确保不同特征之间的可比性,尽管并不总是必要的,因为所选标准可能已经考虑了这一点。选择是:

  • '没有'(默认) - 强度不会交叉标准化。

  • '意思是'-x_new =(x - 均值(x))/ std(x)

  • 'softmax'-x_new =(1 + exp((均值(x)-x)/ std(x)))^ - 1

  • 'minmax'-x_new =(x - min(x))/(max(x)-min(x))

例子

全部收缩

找到一种减少的基因,足以在T族基质NCI60数据集中从所有其他类型的癌症中区分乳腺癌细胞。加载样本数据。

加载nci60tmatrix.

对乳腺癌细胞进行逻辑指数载体。

BC = Group == 8;

选择功能。

我= rankfeatures(x,bc,'numberofindices',12);

具有线性判别分类器的测试功能。

c =分类(x(i,:)',x(i,:)',double(bc));cp = classperf(bc,c);cp.correctrate.
ans = 1

使用互相关权重以进一步减少所需数量的基因。

我= rankfeatures(x,bc,'ccweighting',0.7,'numberofindices',8);c =分类(x(i,:)',x(i,:)',double(bc));cp = classperf(bc,c);cp.correctrate.
ans = 1

通过两个不同来源调制的高斯脉冲,找到两组信号的判别峰。

加载高斯脉冲f = Rankfeatures(Y',GRP,'nweighting',@(x)x / 10 + 5,'numberofindices'5);绘图(t,y(grp == 1,:),'B',t,y(grp == 2,:),'G',t(f),1.35,'vr'

参考

[1] Theodoridis,S.和Koutroumbas,K。(1999)。模式识别,学术出版社,341-342。

[2]刘,H.,Motoda,H.(1998)。知识发现和数据挖掘的功能选择,克隆学术出版商。

[3]罗斯,D.T.ET.AL.(2000)。人癌细胞系基因表达模式的系统变化。自然遗传学。24(3),227-235。

在R2006A之前介绍