邻域分量分析(NCA)特征选择

邻里成分分析(NCA)是用于最大化的回归和分类算法的预测精度的目标选择特征的非参数方法。统计和机器学习工具箱™功能fscncafsrnca使用正则化进行NCA特征选择,以学习特征权重,以最小化目标函数,该目标函数测量训练数据上的平均遗漏分类或回归损失。

对于分类NCA特征选择

考虑包含训练集的多类分类问题ñ意见:

小号 = { X 一世 ÿ 一世 一世 = 1 2 ... ñ }

哪里 X 一世 p 是特征向量, ÿ 一世 { 1 2 ... C } 是类标签,和C是的类的数量。其目的是学习的分类 F p { 1 2 ... C } 接受的特征向量和进行预测 F X 为了真正的标签 ÿ X

考虑随机分类如下:

  • 随机选取一个点, 参考 X 小号 作为“参考点”为 X

  • 标签 X 使用参考点的标签 参考 X

这种方案类似于其中选择的基准点作为新的点的最近邻一个1-NN分类器的 X 。在NCA中,参考点是随机选取的,所有的参考点在 小号 有被选择作为参考点的某个概率。概率 P 参考 X = X Ĵ | 小号 这一点 X Ĵ 选择从 小号 作为参考点为 X 如果高 X Ĵ 接近 X 由距离函数测量 d w ^ ,其中

d w ^ X 一世 X Ĵ = Σ [R = 1 p w ^ [R 2 | X 一世 [R - X Ĵ [R |

w ^ [R 为特征权重。假设

P 参考 X = X Ĵ | 小号 α ķ d w ^ X X Ĵ

哪里 ķ 一些内核或假设当值较大的相似性功能 d w ^ X X Ĵ 很小。假设这是

ķ ž = EXP - ž σ

如建议在[1]。参考点 X 选自 小号 ,这样的总结 P 参考 X = X Ĵ | 小号 对所有人Ĵ一定等于1。因此,写作是可能的

P 参考 X = X Ĵ | 小号 = ķ d w ^ X X Ĵ Σ Ĵ = 1 ñ ķ d w ^ X X Ĵ

现在考虑这个随机分类,那就是留一出应用,预测的标签 X 一世 使用数据 小号 - 一世 ,训练集 小号 不包括点 X 一世 ÿ 一世 。这个点的概率 X Ĵ 的参考点 X 一世

p 一世 Ĵ = P 参考 X 一世 = X Ĵ | 小号 - 一世 = ķ d w ^ X 一世 X Ĵ Σ Ĵ = 1 Ĵ 一世 ñ ķ d w ^ X 一世 X Ĵ

正确分类的平均离开一的概率就是概率 p 一世 随机分类器正确地分类观察一世运用 小号 - 一世

p 一世 = Σ Ĵ = 1 Ĵ 一世 ñ P 参考 X 一世 = X Ĵ | 小号 - 一世 一世 ÿ 一世 = ÿ Ĵ = Σ Ĵ = 1 Ĵ 一世 ñ p 一世 Ĵ ÿ 一世 Ĵ

哪里

ÿ 一世 Ĵ = 一世 ÿ 一世 = ÿ Ĵ = { 1 如果 ÿ 一世 = ÿ Ĵ 0 否则

使用随机分类正确分类的平均留一出概率可以写成

F w ^ = 1 ñ Σ 一世 = 1 ñ p 一世

右手边 F w ^ 依赖于权值向量 w ^ 。邻里成分分析的目标是最大化 F w ^ 关于 w ^ fscnca利用文中引入的正则化目标函数[1]

F w ^ = 1 ñ Σ 一世 = 1 ñ p 一世 - λ Σ [R = 1 p w ^ [R 2 = 1 ñ Σ 一世 = 1 ñ [ Σ Ĵ = 1 Ĵ 一世 ñ p 一世 Ĵ ÿ 一世 Ĵ - λ Σ [R = 1 p w ^ [R 2 ] } F 一世 w ^ = 1 ñ Σ 一世 = 1 ñ F 一世 w ^

哪里 λ 为正则化参数。正则化术语驱动了许多权重 w ^ 为0。

选择内核参数后 σ p 一世 Ĵ 为1,求权向量 w ^ 可表示为以下最小化问题为给定 λ

w ^ ^ = argmin w ^ F w ^ = argmin w ^ 1 ñ Σ 一世 = 1 ñ F 一世 w ^

哪里Fw ^)= -Fw ^F一世w ^)= -F一世w ^

注意

1 ñ Σ 一世 = 1 ñ Σ Ĵ = 1 Ĵ 一世 ñ p 一世 Ĵ = 1

如果你添加一个常数的目标函数最小的参数不会改变。因此,你可以通过添加常数1重写目标函数。

w ^ ^ = argmin w ^ { 1 + F w ^ } = argmin w ^ { 1 ñ Σ 一世 = 1 ñ Σ Ĵ = 1 Ĵ 一世 ñ p 一世 Ĵ - 1 ñ Σ 一世 = 1 ñ Σ Ĵ = 1 Ĵ 一世 ñ p 一世 Ĵ ÿ 一世 Ĵ + λ Σ [R = 1 p w ^ [R 2 } = argmin w ^ { 1 ñ Σ 一世 = 1 ñ Σ Ĵ = 1 Ĵ 一世 ñ p 一世 Ĵ 1 - ÿ 一世 Ĵ + λ Σ [R = 1 p w ^ [R 2 } = argmin w ^ { 1 ñ Σ 一世 = 1 ñ Σ Ĵ = 1 Ĵ 一世 ñ p 一世 Ĵ ÿ 一世 ÿ Ĵ + λ Σ [R = 1 p w ^ [R 2 }

其中损失函数定义为

ÿ 一世 ÿ Ĵ = { 1 如果 ÿ 一世 ÿ Ĵ 0 否则

最小值的参数是使分类误差最小的权值向量。属性指定自定义丢失函数LossFunction在调用的名称 - 值对参数fscnca

回归的NCA特征选择

fsrnca函数执行修改后用于回归NCA特征选择。特定ñ观察

小号 = { X 一世 ÿ 一世 一世 = 1 2 ... ñ }

从分类问题的唯一区别是,响应值 ÿ 一世 是连续的。在这种情况下,目的是预测响应 ÿ 给定训练集 小号

考虑随机回归模型:

  • 随机选取一个点( 参考 X )从 小号 作为“参考点”为 X

  • 设置在响应值 X 等于所述参考点的响应值 参考 X

再次,概率 P 参考 X = X Ĵ | 小号 这一点 X Ĵ 选择从 小号 作为参考点为 X

P 参考 X = X Ĵ | 小号 = ķ d w ^ X X Ĵ Σ Ĵ = 1 ñ ķ d w ^ X X Ĵ

现在考虑这个随机回归模型,那就是留一出应用,预测为响应 X 一世 使用数据 小号 - 一世 ,训练集 小号 不包括点 X 一世 ÿ 一世 。这个点的概率 X Ĵ 的参考点 X 一世

p 一世 Ĵ = P 参考 X 一世 = X Ĵ | 小号 - 一世 = ķ d w ^ X 一世 X Ĵ Σ Ĵ = 1 Ĵ 一世 ñ ķ d w ^ X 一世 X Ĵ

ÿ ^ 一世 是响应值的随机化的回归模型预测和 ÿ 一世 对于实际的响应 X 一世 。然后让 2 是测量之间的分歧损失函数 ÿ ^ 一世 ÿ 一世 。然后,平均值 ÿ 一世 ÿ ^ 一世

一世 = Ë ÿ 一世 ÿ ^ 一世 | 小号 - 一世 = Σ Ĵ = 1 Ĵ 一世 ñ p 一世 Ĵ ÿ 一世 ÿ Ĵ

加入正则项后,最小化的目标函数为:

F w ^ = 1 ñ Σ 一世 = 1 ñ 一世 + λ Σ [R = 1 p w ^ [R 2

默认的损失函数 ÿ 一世 ÿ Ĵ 为NCA的回归是绝对离差,但您可以指定其他损失的功能,包括一个自定义,使用LossFunction在调用的名称 - 值对参数fsrnca

标准化的影响

正则化项将不相关预测因子的权重导出为零。在用于分类或回归的NCA目标函数中,只有一个正则化参数 λ 所有的重量。这一事实要求权重的大小可以相互比较。当特征向量 X 一世 小号 在不同的尺度上,这可能会导致权重在不同的尺度上而没有意义。为了避免这种情况,在应用NCA之前,将预测器标准化,使其均值和单位标准差为零。方法标准化预测器“标准化”,真在调用的名称 - 值对参数fscncafsrnca

选择正则化参数值

它通常是必要的,通过计算上一个独立的测试集的随机化NCA分类器或回归模型的准确度来选择正则化参数的值。如果您使用的不是一个单一的测试组交叉验证,选择 λ 值最小化跨过交叉验证褶皱的平均损耗。举例来说,看到调整正则化参数,检测特征,使用NCA进行分类调正则化参数在NCA的回归

参考文献

[1]杨,W.,K.王,W.佐。“居委会组件特征选择高维数据。”计算机学报。卷。7,1号,2012年01月。

也可以看看

|||

相关的话题