主要内容

邻里组件分析(NCA)特征选择

邻居组成分析(NCA)是一种非参数方法,用于选择特征,目的是最大化回归和分类算法的预测准确性。统计和机器学习工具箱™功能FSCNCAFSRNCA使用正规化执行NCA特征选择,以最大程度地限制特征权重,以最大程度地衡量训练数据上平均剩余分类或回归损失。

NCA特征选择用于分类

考虑一个包含培训集的多类分类问题n观察:

s = { (( X 一世 ,,,, y 一世 ,,,, 一世 = 1 ,,,, 2 ,,,, ,,,, n } ,,,,

在哪里 X 一世 p 是功能向量, y 一世 { 1 ,,,, 2 ,,,, ,,,, C } 是班级标签,C是类的数量。目的是学习分类器 F p { 1 ,,,, 2 ,,,, ,,,, C } 接受功能向量并做出预测 F (( X 对于真正的标签 y X

考虑一个随机分类器:

  • 随机选择一个点, 参考 (( X , 从 s 作为“参考点” X

  • 标签 X 使用参考点的标签 参考 (( X

该方案类似于选择参考点作为新点的最近邻居的1-NN分类器的方案 X 。在NCA中,参考点是随机选择的,所有点在 s 有一些被选为参考点的概率。概率 p (( 参考 (( X = X j | s 这一点 X j 从中挑选 s 作为参考点 X 如果是更高的 X j 更接近 X 按距离函数测量 d w , 在哪里

d w (( X 一世 ,,,, X j = r = 1 p w r 2 | X 一世 r - X j r | ,,,,

w r 是功能重量。假使,假设

p (( 参考 (( X = X j | s k (( d w (( X ,,,, X j ,,,,

在哪里 k 是某些内核还是相似性函数,它在 d w (( X ,,,, X j 是小。假设是

k (( z = 经验 (( - z σ ,,,,

如建议[1]。参考点 X 从中选择 s ,所以 p (( 参考 (( X = X j | s 对所有人j必须等于1。因此,可以写

p (( 参考 (( X = X j | s = k (( d w (( X ,,,, X j j = 1 n k (( d w (( X ,,,, X j

现在考虑此随机分类器的剩余应用,也就是说 X 一世 使用数据中的数据 s - 一世 ,训练集 s 不包括要点 (( X 一世 ,,,, y 一世 。该点的概率 X j 被选为 X 一世

p 一世 j = p (( 参考 (( X 一世 = X j | s - 一世 = k (( d w (( X 一世 ,,,, X j j = 1 ,,,, j 一世 n k (( d w (( X 一世 ,,,, X j

正确分类的平均剩余概率是概率 p 一世 随机分类器正确分类了观察一世使用 s - 一世

p 一世 = j = 1 ,,,, j 一世 n p (( 参考 (( X 一世 = X j | s - 一世 (( y 一世 = y j = j = 1 ,,,, j 一世 n p 一世 j y 一世 j ,,,,

在哪里

y 一世 j = (( y 一世 = y j = { 1 如果 y 一世 = y j ,,,, 0 否则

使用随机分类器正确分类的平均剩余概率可以写为

F (( w = 1 n 一世 = 1 n p 一世

右侧的 F (( w 取决于体重向量 w 。邻里组件分析的目标是最大化 F (( w 关于 w FSCNCA使用正规化目标函数,如[1]

F (( w = 1 n 一世 = 1 n p 一世 - λ r = 1 p w r 2 = 1 n 一世 = 1 n [[ j = 1 ,,,, j 一世 n p 一世 j y 一世 j - λ r = 1 p w r 2 这是给予的 F 一世 (( w = 1 n 一世 = 1 n F 一世 (( w ,,,,

在哪里 λ 是正则化参数。正规化术语驱动了许多权重 w 到0。

选择内核参数后 σ p 一世 j AS 1,找到权重矢量 w 可以表示为以下最小化问题 λ

w ^ = Argmin w F (( w = Argmin w 1 n 一世 = 1 n F 一世 (( w ,,,,

在哪里F((w)= -F((wF一世((w)= -F一世((w

注意

1 n 一世 = 1 n j = 1 ,,,, j 一世 n p 一世 j = 1 ,,,,

如果您为目标函数添加常数,则最小值的论点不会改变。因此,您可以通过添加常数1来重写目标函数。

w ^ = Argmin w { 1 + F (( w } = Argmin w { 1 n 一世 = 1 n j = 1 ,,,, j 一世 n p 一世 j - 1 n 一世 = 1 n j = 1 ,,,, j 一世 n p 一世 j y 一世 j + λ r = 1 p w r 2 } = Argmin w { 1 n 一世 = 1 n j = 1 ,,,, j 一世 n p 一世 j (( 1 - y 一世 j + λ r = 1 p w r 2 } = Argmin w { 1 n 一世 = 1 n j = 1 ,,,, j 一世 n p 一世 j l (( y 一世 ,,,, y j + λ r = 1 p w r 2 } ,,,,

损失功能定义为

l (( y 一世 ,,,, y j = { 1 如果 y 一世 y j ,,,, 0 否则

最小值的参数是权重矢量,可最大程度地减少分类误差。您可以使用损失功能呼叫中的名称值对参数FSCNCA

NCA功能选择用于回归

FSRNCA函数执行用于回归的NCA特征选择。给出n观察

s = { (( X 一世 ,,,, y 一世 ,,,, 一世 = 1 ,,,, 2 ,,,, ,,,, n } ,,,,

与分类问题的唯一区别是响应值 y 一世 是连续的。在这种情况下,目的是预测响应 y 给定训练集 s

考虑一个随机回归模型:

  • 随机选择一个点( 参考 (( X ) 从 s 作为“参考点” X

  • 将响应值设置为 X 等于参考点的响应值 参考 (( X

同样,概率 p (( 参考 (( X = X j | s 这一点 X j 从中挑选 s 作为参考点 X

p (( 参考 (( X = X j | s = k (( d w (( X ,,,, X j j = 1 n k (( d w (( X ,,,, X j

现在考虑此随机回归模型的剩余应用,也就是说 X 一世 使用数据中的数据 s - 一世 ,训练集 s 不包括要点 (( X 一世 ,,,, y 一世 。该点的概率 X j 被选为 X 一世

p 一世 j = p (( 参考 (( X 一世 = X j | s - 一世 = k (( d w (( X 一世 ,,,, X j j = 1 ,,,, j 一世 n k (( d w (( X 一世 ,,,, X j

y ^ 一世 作为响应值,随机回归模型预测和 y 一世 成为实际响应 X 一世 。然后让 l 2 成为衡量分歧的损失功能 y ^ 一世 y 一世 。然后,平均值 l (( y 一世 ,,,, y ^ 一世

l 一世 = e (( l (( y 一世 ,,,, y ^ 一世 | s - 一世 = j = 1 ,,,, j 一世 n p 一世 j l (( y 一世 ,,,, y j

添加正则化项后,最小化的目标函数是:

F (( w = 1 n 一世 = 1 n l 一世 + λ r = 1 p w r 2

默认损失功能 l (( y 一世 ,,,, y j 对于NCA进行回归是平均绝对偏差,但是您可以使用该功能指定其他损失功能,包括自定义功能损失功能呼叫中的名称值对参数FSRNCA

标准化的影响

正则化项将无关预测因子的权重得出为零。在NCA的分类或回归目标函数中,只有一个正则化参数 λ 适用于所有权重。这个事实要求权重的大小相互匹配。当功能向量 X 一世 s 处于不同的尺度,这可能导致权重不同,尺度不同且不有意义。为了避免这种情况,在应用NCA之前,将预测变量标准化为零均值和单位标准偏差。您可以使用“标准化”,正确呼叫中的名称值对参数FSCNCA或者FSRNCA

选择正则化参数值

通常有必要通过在独立的测试集中计算随机NCA分类器或回归模型的准确性来选择正则化参数的值。如果使用交叉验证而不是单个测试集,请选择 λ 值可最大程度地减少整个交叉验证折叠的平均损失。有关示例,请参见调整正则化参数以使用NCA进行分类检测特征NCA中的调整正则化参数用于回归

参考

[1] Yang,W.,K。Wang,W。Zuo。“高维数据的邻域组件选择”。计算机杂志。卷。7,第1号,2012年1月。

也可以看看

|||

相关话题