邻里组件分析（NCA）功能选择-MATLAB和SIMULINK -MATHWORKS澳大利亚万博1manbetx

邻里组件分析（NCA）特征选择

邻居组成分析（NCA）是一种非参数方法，用于选择特征，目的是最大化回归和分类算法的预测准确性。统计和机器学习工具箱™功能FSCNCA和FSRNCA使用正规化执行NCA特征选择，以最大程度地限制特征权重，以最大程度地衡量训练数据上平均剩余分类或回归损失。

NCA特征选择用于分类

考虑一个包含培训集的多类分类问题n观察：

$\begin{array}{l} s = {（（ X_{一世} ，，，， y_{一世} ），，，，一世 = 1 ，，，， 2 ，，，， \dots ，，，， n} \end{array} ，，，，$

在哪里 $X_{一世} \in ℝ^{p}$ 是功能向量， $y_{一世} \in {1 ，，，， 2 ，，，， \dots ，，，， C}$ 是班级标签，C是类的数量。目的是学习分类器 $F ： ℝ^{p} \to {1 ，，，， 2 ，，，， \dots ，，，， C}$ 接受功能向量并做出预测 $F （（ X ）$ 对于真正的标签 $y$ 的 $X$ 。

考虑一个随机分类器：

随机选择一个点， $参考（（ X ）$ ，从 $s$ 作为“参考点” $X$
标签 $X$ 使用参考点的标签 $参考（（ X ）$ 。

该方案类似于选择参考点作为新点的最近邻居的1-NN分类器的方案 $X$ 。在NCA中，参考点是随机选择的，所有点在 $s$ 有一些被选为参考点的概率。概率 $p （（参考（（ X ） = X_{j} | s ）$ 这一点 $X_{j}$ 从中挑选 $s$ 作为参考点 $X$ 如果是更高的 $X_{j}$ 更接近 $X$ 按距离函数测量 $d_{w}$ ，在哪里

$d_{w} （（ X_{一世} ，，，， X_{j} ） = \sum_{r = 1}^{p} w_{r}^{2} | X_{一世 r} - X_{j r} | ，，，，$

和 $w_{r}$ 是功能重量。假使，假设

$\begin{array}{l} p （（参考（（ X ） = X_{j} | s ） \propto k （（ d_{w} （（ X ，，，， X_{j} ）） \end{array} ，，，，$

在哪里 $k$ 是某些内核还是相似性函数，它在 $d_{w} （（ X ，，，， X_{j} ）$ 是小。假设是

$k （（ z ） = 经验（（ - \frac{z}{σ} ），，，，$

如建议[1]。参考点 $X$ 从中选择 $s$ ，所以 $p （（参考（（ X ） = X_{j} | s ）$ 对所有人j必须等于1。因此，可以写

$\begin{array}{l} p （（参考（（ X ） = X_{j} | s ） = \frac{k （（ d_{w} （（ X ，，，， X_{j} ））}{\sum_{j = 1}^{n} k （（ d_{w} （（ X ，，，， X_{j} ））} \end{array} 。$

现在考虑此随机分类器的剩余应用，也就是说 $X_{一世}$ 使用数据中的数据 $s^{- 一世}$ ，训练集 $s$ 不包括要点 $（（ X_{一世} ，，，， y_{一世} ）$ 。该点的概率 $X_{j}$ 被选为 $X_{一世}$ 是

$p_{一世 j} = p （（参考（（ X_{一世} ） = X_{j} | s^{- 一世} ） = \frac{k （（ d_{w} （（ X_{一世} ，，，， X_{j} ））}{\sum_{j = 1 ，，，， j \neq 一世}^{n} k （（ d_{w} （（ X_{一世} ，，，， X_{j} ））} 。$

正确分类的平均剩余概率是概率 $p_{一世}$ 随机分类器正确分类了观察一世使用 $s^{- 一世}$ 。

$\begin{array}{l} p_{一世} = \sum_{j = 1 ，，，， j \neq 一世}^{n} p （（参考（（ X_{一世} ） = X_{j} | s^{- 一世} ）我（（ y_{一世} = y_{j} ） \end{array} = \sum_{j = 1 ，，，， j \neq 一世}^{n} p_{一世 j} y_{一世 j} ，，，，$

在哪里

$y_{一世 j} = 我（（ y_{一世} = y_{j} ） = {\begin{matrix} 1 & 如果 y_{一世} = y_{j ，，，，} \\ 0 & 否则。 \end{matrix}$

使用随机分类器正确分类的平均剩余概率可以写为

$F （（ w ） = \frac{1}{n} \sum_{一世 = 1}^{n} p_{一世} 。$

右侧的 $F （（ w ）$ 取决于体重向量 $w$ 。邻里组件分析的目标是最大化 $F （（ w ）$ 关于 $w$ 。FSCNCA使用正规化目标函数，如[1]。

$\begin{array}{l} F （（ w ） & = \frac{1}{n} \sum_{一世 = 1}^{n} p_{一世} - λ \sum_{r = 1}^{p} w_{r}^{2} \\ = \frac{1}{n} \sum_{一世 = 1}^{n} \underset{F_{一世} （（ w ）}{\underset{︸}{[[\sum_{j = 1 ，，，， j \neq 一世}^{n} p_{一世 j} y_{一世 j} - λ \sum_{r = 1}^{p} w_{r}^{2} 这是给予的}} \\ = \frac{1}{n} \sum_{一世 = 1}^{n} F_{一世} （（ w ） \end{array} ，，，，$

在哪里 $λ$ 是正则化参数。正规化术语驱动了许多权重 $w$ 到0。

选择内核参数后 $σ$ 在 $p_{一世 j}$ AS 1，找到权重矢量 $w$ 可以表示为以下最小化问题 $λ$ 。

$\hat{w} = \underset{w}{Argmin} F （（ w ） = \underset{w}{Argmin} \frac{1}{n} \sum_{一世 = 1}^{n} F_{一世} （（ w ），，，，$

在哪里F（（w）= -F（（w）和F_一世（（w）= -F_一世（（w）。

注意

$\frac{1}{n} \sum_{一世 = 1}^{n} \sum_{j = 1 ，，，， j \neq 一世}^{n} p_{一世 j} = 1 ，，，，$

如果您为目标函数添加常数，则最小值的论点不会改变。因此，您可以通过添加常数1来重写目标函数。

$\begin{matrix} \hat{w} = \underset{w}{Argmin} {1 + F （（ w ）} \\ = \underset{w}{Argmin} {\frac{1}{n} \sum_{一世 = 1}^{n} \sum_{j = 1 ，，，， j \neq 一世}^{n} p_{一世 j} - \frac{1}{n} \sum_{一世 = 1}^{n} \sum_{j = 1 ，，，， j \neq 一世}^{n} p_{一世 j} y_{一世 j} + λ \sum_{r = 1}^{p} w_{r}^{2}} \\ = \underset{w}{Argmin} {\frac{1}{n} \sum_{一世 = 1}^{n} \sum_{j = 1 ，，，， j \neq 一世}^{n} p_{一世 j} （（ 1 - y_{一世 j} ） + λ \sum_{r = 1}^{p} w_{r}^{2}} \\ = \underset{w}{Argmin} {\frac{1}{n} \sum_{一世 = 1}^{n} \sum_{j = 1 ，，，， j \neq 一世}^{n} p_{一世 j} l （（ y_{一世} ，，，， y_{j} ） + λ \sum_{r = 1}^{p} w_{r}^{2}} ，，，， \end{matrix}$

损失功能定义为

$l （（ y_{一世} ，，，， y_{j} ） = {\begin{matrix} 1 & 如果 y_{一世} \neq y_{j ，，，，} \\ 0 & 否则。 \end{matrix}$

最小值的参数是权重矢量，可最大程度地减少分类误差。您可以使用损失功能呼叫中的名称值对参数FSCNCA。

NCA功能选择用于回归

这FSRNCA函数执行用于回归的NCA特征选择。给出n观察

$\begin{array}{l} s = {（（ X_{一世} ，，，， y_{一世} ），，，，一世 = 1 ，，，， 2 ，，，， \dots ，，，， n} \end{array} ，，，，$

与分类问题的唯一区别是响应值 $y_{一世} \in ℝ$ 是连续的。在这种情况下，目的是预测响应 $y$ 给定训练集 $s$ 。

考虑一个随机回归模型：

随机选择一个点（ $参考（（ X ）$ ）从 $s$ 作为“参考点” $X$
将响应值设置为 $X$ 等于参考点的响应值 $参考（（ X ）$ 。

同样，概率 $p （（参考（（ X ） = X_{j} | s ）$ 这一点 $X_{j}$ 从中挑选 $s$ 作为参考点 $X$ 是

现在考虑此随机回归模型的剩余应用，也就是说 $X_{一世}$ 使用数据中的数据 $s^{- 一世}$ ，训练集 $s$ 不包括要点 $（（ X_{一世} ，，，， y_{一世} ）$ 。该点的概率 $X_{j}$ 被选为 $X_{一世}$ 是

让 ${\hat{y}}_{一世}$ 作为响应值，随机回归模型预测和 $y_{一世}$ 成为实际响应 $X_{一世}$ 。然后让 $l ： ℝ^{2} \to ℝ$ 成为衡量分歧的损失功能 ${\hat{y}}_{一世}$ 和 $y_{一世}$ 。然后，平均值 $l （（ y_{一世} ，，，， {\hat{y}}_{一世} ）$ 是

$l_{一世} = e （（ l （（ y_{一世} ，，，， {\hat{y}}_{一世} ） | s^{- 一世} ） = \sum_{j = 1 ，，，， j \neq 一世}^{n} p_{一世 j} l （（ y_{一世} ，，，， y_{j} ）。$

添加正则化项后，最小化的目标函数是：

$F （（ w ） = \frac{1}{n} \sum_{一世 = 1}^{n} l_{一世} + λ \sum_{r = 1}^{p} w_{r}^{2} 。$

默认损失功能 $l （（ y_{一世} ，，，， y_{j} ）$ 对于NCA进行回归是平均绝对偏差，但是您可以使用该功能指定其他损失功能，包括自定义功能损失功能呼叫中的名称值对参数FSRNCA。

标准化的影响

正则化项将无关预测因子的权重得出为零。在NCA的分类或回归目标函数中，只有一个正则化参数 $λ$ 适用于所有权重。这个事实要求权重的大小相互匹配。当功能向量 $X_{一世}$ 在 $s$ 处于不同的尺度，这可能导致权重不同，尺度不同且不有意义。为了避免这种情况，在应用NCA之前，将预测变量标准化为零均值和单位标准偏差。您可以使用“标准化”，正确呼叫中的名称值对参数FSCNCA或者FSRNCA。