了解支持向量机回归 - M万博1manbetxatlab＆Simulink万博1manbetxGydF4y2Ba

了解支持向量机回归万博1manbetxGydF4y2Ba

SVM回归的数学制定GydF4y2Ba

概要GydF4y2Ba

万博1manbetx支持向量机（SVM）分析是一个流行的机器学习工具，用于分类和回归，首先由Vladimir Vapnik和他的同事于1992年确定GydF4y2Ba[5]GydF4y2Ba。SVM回归被认为是非参数技术，因为它依赖于内核函数。GydF4y2Ba

统计和机器学习工具箱™ implements linear epsilon-insensitive SVM (ε-SVM) regression, which is also known asL.GydF4y2Ba1损失。在GydF4y2Baε.GydF4y2Ba-SVM回归，该组训练数据包括预测变量和观察到的响应值。目标是找到一个功能GydF4y2BaFGydF4y2Ba（GydF4y2BaXGydF4y2Ba）GydF4y2Ba偏离GydF4y2BayGydF4y2Ba_NGydF4y2BaB.y一种value no greater than ε for each training pointXGydF4y2Ba，同时尽可能平坦。GydF4y2Ba

线性SVM回归：原始配方GydF4y2Ba

假设我们有一套培训数据在哪里GydF4y2BaXGydF4y2Ba_NGydF4y2Ba是一个多变量的一套GydF4y2BaNGydF4y2Ba观察到响应值的观察GydF4y2BayGydF4y2Ba_NGydF4y2Ba。GydF4y2Ba

To find the linear function

$FGydF4y2Ba （GydF4y2Ba XGydF4y2Ba ）GydF4y2Ba =GydF4y2Ba XGydF4y2Ba'GydF4y2Ba βGydF4y2Ba +GydF4y2Ba B.GydF4y2Ba 那GydF4y2Ba$

并确保尽可能平整，找到GydF4y2BaFGydF4y2Ba（GydF4y2BaXGydF4y2Ba）GydF4y2Ba具有最小规范值（GydF4y2BaβGydF4y2Ba'GydF4y2BaβGydF4y2Ba）。这是作为凸优化问题的制定，以最小化GydF4y2Ba

$jGydF4y2Ba （GydF4y2Ba βGydF4y2Ba ）GydF4y2Ba =GydF4y2Ba \frac{1GydF4y2Ba}{2GydF4y2Ba} βGydF4y2Ba'GydF4y2Ba βGydF4y2Ba$

受到比ε小于ε的所有残留物的影响;或者，等式形式：GydF4y2Ba

$\forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba |GydF4y2Ba {yGydF4y2Ba}_{NGydF4y2Ba} -GydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba}'GydF4y2Ba βGydF4y2Ba +GydF4y2Ba B.GydF4y2Ba ）GydF4y2Ba |GydF4y2Ba \leq.GydF4y2Ba ε.GydF4y2Ba 。GydF4y2Ba$

没有这样的功能GydF4y2BaFGydF4y2Ba（GydF4y2BaXGydF4y2Ba）GydF4y2Ba存在满足所有点的这些约束。要处理其他不可行的约束，引入松弛变量GydF4y2BaξGydF4y2Ba_NGydF4y2Ba一种NdξGydF4y2Ba^*GydF4y2Ba_NGydF4y2Ba对于每个点。这种方法类似于SVM分类中的“软边缘”概念，因为松弛变量允许回归错误存在于值GydF4y2BaξGydF4y2Ba_NGydF4y2Ba一种NdξGydF4y2Ba^*GydF4y2Ba_NGydF4y2Ba，但仍然满足所需的条件。GydF4y2Ba

包括松弛变量导致目标函数，也称为原始配方GydF4y2Ba[5]GydF4y2Ba：GydF4y2Ba

$jGydF4y2Ba （GydF4y2Ba βGydF4y2Ba ）GydF4y2Ba =GydF4y2Ba \frac{1GydF4y2Ba}{2GydF4y2Ba} βGydF4y2Ba'GydF4y2Ba βGydF4y2Ba +GydF4y2Ba CGydF4y2Ba {σ.GydF4y2Ba}_{NGydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba} +GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba 那GydF4y2Ba$

受到约束：GydF4y2Ba

$\begin{array}{l} \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba {yGydF4y2Ba}_{NGydF4y2Ba} -GydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba}'GydF4y2Ba βGydF4y2Ba +GydF4y2Ba B.GydF4y2Ba ）GydF4y2Ba \leq.GydF4y2Ba ε.GydF4y2Ba +GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba} \\ \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba}'GydF4y2Ba βGydF4y2Ba +GydF4y2Ba B.GydF4y2Ba ）GydF4y2Ba -GydF4y2Ba {yGydF4y2Ba}_{NGydF4y2Ba} \leq.GydF4y2Ba ε.GydF4y2Ba +GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} \\ \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} \geqGydF4y2Ba 0.GydF4y2Ba \\ \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba} \geqGydF4y2Ba 0.GydF4y2Ba 。GydF4y2Ba \end{array}$

常数GydF4y2BaCGydF4y2Ba一世s the box constraint, a positive numeric value that controls the penalty imposed on observations that lie outside the epsilon margin (ε.GydF4y2Ba）并且有助于防止过度装备（正规化）。该值决定了平整度之间的权衡GydF4y2BaFGydF4y2Ba（GydF4y2BaXGydF4y2Ba）GydF4y2Ba以及偏差大于哪个偏差的金额GydF4y2Baε.GydF4y2Ba被忍受。GydF4y2Ba

线性ε - 不敏感损失函数忽略了内部的错误GydF4y2Baε.GydF4y2Ba观察值通过将它们视为等于零的距离。基于观察值之间的距离来测量损耗GydF4y2BayGydF4y2Ba和GydF4y2Baε.GydF4y2Ba边界。这是正式描述的GydF4y2Ba

${L.GydF4y2Ba}_{ε.GydF4y2Ba} =GydF4y2Ba {GydF4y2Ba \begin{array}{l} 0.GydF4y2Ba & 如果GydF4y2Ba |GydF4y2Ba yGydF4y2Ba -GydF4y2Ba FGydF4y2Ba （GydF4y2Ba XGydF4y2Ba ）GydF4y2Ba |GydF4y2Ba \leq.GydF4y2Ba ε.GydF4y2Ba \\ |GydF4y2Ba yGydF4y2Ba -GydF4y2Ba FGydF4y2Ba （GydF4y2Ba XGydF4y2Ba ）GydF4y2Ba |GydF4y2Ba -GydF4y2Ba ε.GydF4y2Ba & 除此以外GydF4y2Ba \end{array}$

线性SVM回归：双配方GydF4y2Ba

该optimization problem previously described is computationally simpler to solve in its Lagrange dual formulation. The solution to the dual problem provides a lower bound to the solution of the primal (minimization) problem. The optimal values of the primal and dual problems need not be equal, and the difference is called the “duality gap.” But when the problem is convex and satisfies a constraint qualification condition, the value of the optimal solution to the primal problem is given by the solution of the dual problem.

为了获得双功率，通过引入非负乘法器来构造来自原始函数的拉格朗日函数GydF4y2Baα.GydF4y2Ba_NGydF4y2Ba一种Ndα.GydF4y2Ba^*GydF4y2Ba_NGydF4y2Ba对于每次观察GydF4y2BaXGydF4y2Ba_NGydF4y2Ba。这导致了双重公式，我们最小化GydF4y2Ba

$L.GydF4y2Ba （GydF4y2Ba α.GydF4y2Ba ）GydF4y2Ba =GydF4y2Ba \frac{1GydF4y2Ba}{2GydF4y2Ba} {σ.GydF4y2Ba}_{一世GydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} {σ.GydF4y2Ba}_{jGydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba （GydF4y2Ba {α.GydF4y2Ba}_{jGydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{jGydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba {XGydF4y2Ba}_{一世GydF4y2Ba}'GydF4y2Ba {XGydF4y2Ba}_{jGydF4y2Ba} +GydF4y2Ba ε.GydF4y2Ba {σ.GydF4y2Ba}_{一世GydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba} +GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba +GydF4y2Ba {σ.GydF4y2Ba}_{一世GydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} {yGydF4y2Ba}_{一世GydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba}^{*GydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba} ）GydF4y2Ba$

受限制GydF4y2Ba

$\begin{array}{l} {σ.GydF4y2Ba}_{NGydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba =GydF4y2Ba 0.GydF4y2Ba \\ \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba 0.GydF4y2Ba \leq.GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba} \leq.GydF4y2Ba CGydF4y2Ba \\ \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba 0.GydF4y2Ba \leq.GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} \leq.GydF4y2Ba CGydF4y2Ba 。GydF4y2Ba \end{array}$

该GydF4y2BaβGydF4y2Ba参数可以完全被描述为使用等式的训练观测的线性组合GydF4y2Ba

$βGydF4y2Ba =GydF4y2Ba {σ.GydF4y2Ba}_{NGydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba} 。GydF4y2Ba$

该Function used to predict new values depends only on the support vectors:

FGydF4y2Ba （GydF4y2Ba XGydF4y2Ba ）GydF4y2Ba =GydF4y2Ba {σ.GydF4y2Ba}_{NGydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba}'GydF4y2Ba XGydF4y2Ba ）GydF4y2Ba +GydF4y2Ba B.GydF4y2Ba 。GydF4y2Ba

（1）GydF4y2Ba

Karush-Kuhn-Tucker（KKT）互补条件是获得最佳解决方案所需的优化约束。万博尤文图斯对于线性SVM回归，这些条件是GydF4y2Ba

$\begin{array}{l} \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba} （GydF4y2Ba ε.GydF4y2Ba +GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba} -GydF4y2Ba {yGydF4y2Ba}_{NGydF4y2Ba} +GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba}'GydF4y2Ba βGydF4y2Ba +GydF4y2Ba B.GydF4y2Ba ）GydF4y2Ba =GydF4y2Ba 0.GydF4y2Ba \\ \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} （GydF4y2Ba ε.GydF4y2Ba +GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} +GydF4y2Ba {yGydF4y2Ba}_{NGydF4y2Ba} -GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba}'GydF4y2Ba βGydF4y2Ba -GydF4y2Ba B.GydF4y2Ba ）GydF4y2Ba =GydF4y2Ba 0.GydF4y2Ba \\ \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba} （GydF4y2Ba CGydF4y2Ba -GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba} ）GydF4y2Ba =GydF4y2Ba 0.GydF4y2Ba \\ \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} （GydF4y2Ba CGydF4y2Ba -GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba =GydF4y2Ba 0.GydF4y2Ba 。GydF4y2Ba \end{array}$

这些条件表明，所有观察都严格地在epsilon管内都有拉格朗日乘数GydF4y2Baα.GydF4y2Ba_NGydF4y2Ba= 0.GydF4y2Ba一种Ndα.GydF4y2Ba_NGydF4y2Ba^*GydF4y2Ba= 0.GydF4y2Ba。如果是GydF4y2Baα.GydF4y2Ba_NGydF4y2Baorα.GydF4y2Ba_NGydF4y2Ba^*GydF4y2Ba不是零，那么相应的观察被称为aGydF4y2Ba万博1manbetx支持矢量GydF4y2Ba。GydF4y2Ba

物业GydF4y2BaΑGydF4y2Ba训练有素的SVM模型存储支持向量的两个拉格朗日乘数之间的差异，万博1manbetxGydF4y2Baα.GydF4y2Ba_NGydF4y2Ba-GydF4y2Baα.GydF4y2Ba_NGydF4y2Ba^*GydF4y2Ba。属性GydF4y2Ba万博1manbetx支持监视器GydF4y2Ba一种Nd偏压GydF4y2Ba商店GydF4y2BaXGydF4y2Ba_NGydF4y2Ba一种NdB.GydF4y2Ba，分别。GydF4y2Ba

非线性SVM回归：原始配方GydF4y2Ba

使用线性模型不能对一些回归问题进行充分描述。在这种情况下，拉格朗日双制剂允许先前描述的技术扩展到非线性函数。GydF4y2Ba

通过替换点产品来获得非线性SVM回归模型GydF4y2BaXGydF4y2Ba_1GydF4y2Ba'GydF4y2BaXGydF4y2Ba_2GydF4y2Ba具有非线性内核功能GydF4y2BaGGydF4y2Ba（GydF4y2BaXGydF4y2Ba_1GydF4y2Ba那GydF4y2BaXGydF4y2Ba_2GydF4y2Ba）= φ.GydF4y2Ba（GydF4y2BaXGydF4y2Ba_1GydF4y2Ba），GydF4y2Baφ.GydF4y2Ba（GydF4y2BaXGydF4y2Ba_2GydF4y2Ba）GydF4y2Ba，在哪里GydF4y2Baφ.GydF4y2Ba（GydF4y2BaXGydF4y2Ba）是一种映射的转变GydF4y2BaXGydF4y2Ba到高维空间。统计和机器学习工具箱提供以下内置的SemideFinite内核功能。GydF4y2Ba

内核名称GydF4y2Ba	内核功能GydF4y2Ba
线性（Dot产品）GydF4y2Ba	$GGydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{jGydF4y2Ba} 那GydF4y2Ba {XGydF4y2Ba}_{K.GydF4y2Ba} ）GydF4y2Ba =GydF4y2Ba {XGydF4y2Ba}_{jGydF4y2Ba}'GydF4y2Ba {XGydF4y2Ba}_{K.GydF4y2Ba}$
高斯GydF4y2Ba	$GGydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{jGydF4y2Ba} 那GydF4y2Ba {XGydF4y2Ba}_{K.GydF4y2Ba} ）GydF4y2Ba =GydF4y2Ba exp.GydF4y2Ba （GydF4y2Ba -GydF4y2Ba {‖GydF4y2Ba {XGydF4y2Ba}_{jGydF4y2Ba} -GydF4y2Ba {XGydF4y2Ba}_{K.GydF4y2Ba} ‖GydF4y2Ba}^{2GydF4y2Ba} ）GydF4y2Ba$
多项式GydF4y2Ba	$GGydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{jGydF4y2Ba} 那GydF4y2Ba {XGydF4y2Ba}_{K.GydF4y2Ba} ）GydF4y2Ba =GydF4y2Ba {（GydF4y2Ba 1GydF4y2Ba +GydF4y2Ba {XGydF4y2Ba}_{jGydF4y2Ba}'GydF4y2Ba {XGydF4y2Ba}_{K.GydF4y2Ba} ）GydF4y2Ba}^{问：GydF4y2Ba}$ ，在哪里GydF4y2Ba问：GydF4y2Ba在集合{2,3，...}中。GydF4y2Ba

该GydF4y2Ba克矩阵GydF4y2Ba是一个GydF4y2BaNGydF4y2Ba-通过-GydF4y2BaNGydF4y2Ba包含元素的矩阵GydF4y2BaGGydF4y2Ba_{一世GydF4y2Ba}那GydF4y2Ba_jGydF4y2Ba= g（GydF4y2BaXGydF4y2Ba_{一世GydF4y2Ba}那GydF4y2BaXGydF4y2Ba_jGydF4y2Ba）GydF4y2Ba。每个元素GydF4y2BaGGydF4y2Ba_{一世GydF4y2Ba}那GydF4y2Ba_jGydF4y2Ba等于预测器的内部产品，转化为GydF4y2Baφ.GydF4y2Ba。但是，我们不需要知道GydF4y2Baφ.GydF4y2Ba，因为我们可以使用内核函数直接生成Gram矩阵。使用此方法，非线性SVM找到最佳功能GydF4y2BaFGydF4y2Ba（GydF4y2BaXGydF4y2Ba）GydF4y2Ba在变换的预测空间。GydF4y2Ba

非线性SVM回归：双配方GydF4y2Ba

非线性SVM回归的双配方取代了预测器的内部产品（GydF4y2BaXGydF4y2Ba_{一世GydF4y2Ba}'GydF4y2BaXGydF4y2Ba_jGydF4y2Ba）与克矩阵的相应元素（GydF4y2BaGGydF4y2Ba_{一世GydF4y2Ba}那GydF4y2Ba_jGydF4y2Ba）。GydF4y2Ba

Nonlinear SVM regression finds the coefficients that minimize

$L.GydF4y2Ba （GydF4y2Ba α.GydF4y2Ba ）GydF4y2Ba =GydF4y2Ba \frac{1GydF4y2Ba}{2GydF4y2Ba} {σ.GydF4y2Ba}_{一世GydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} {σ.GydF4y2Ba}_{jGydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba （GydF4y2Ba {α.GydF4y2Ba}_{jGydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{jGydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba GGydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{一世GydF4y2Ba} 那GydF4y2Ba {XGydF4y2Ba}_{jGydF4y2Ba} ）GydF4y2Ba +GydF4y2Ba ε.GydF4y2Ba {σ.GydF4y2Ba}_{一世GydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba} +GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba -GydF4y2Ba {σ.GydF4y2Ba}_{一世GydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} {yGydF4y2Ba}_{一世GydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba$

受到约束GydF4y2Ba

用于预测新值的函数等于GydF4y2Ba

FGydF4y2Ba （GydF4y2Ba XGydF4y2Ba ）GydF4y2Ba =GydF4y2Ba {σ.GydF4y2Ba}_{NGydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba GGydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba} 那GydF4y2Ba XGydF4y2Ba ）GydF4y2Ba +GydF4y2Ba B.GydF4y2Ba 。GydF4y2Ba

（2）GydF4y2Ba

该KKT complementarity conditions are

$\begin{array}{l} \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba} （GydF4y2Ba ε.GydF4y2Ba +GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba} -GydF4y2Ba {yGydF4y2Ba}_{NGydF4y2Ba} +GydF4y2Ba FGydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba} ）GydF4y2Ba ）GydF4y2Ba =GydF4y2Ba 0.GydF4y2Ba \\ \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} （GydF4y2Ba ε.GydF4y2Ba +GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} +GydF4y2Ba {yGydF4y2Ba}_{NGydF4y2Ba} -GydF4y2Ba FGydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba} ）GydF4y2Ba ）GydF4y2Ba =GydF4y2Ba 0.GydF4y2Ba \\ \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba} （GydF4y2Ba CGydF4y2Ba -GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba} ）GydF4y2Ba =GydF4y2Ba 0.GydF4y2Ba \\ \forallGydF4y2Ba NGydF4y2Ba ：GydF4y2Ba {ξGydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} （GydF4y2Ba CGydF4y2Ba -GydF4y2Ba {α.GydF4y2Ba}_{NGydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba =GydF4y2Ba 0.GydF4y2Ba 。GydF4y2Ba \end{array}$

解决SVM回归优化问题GydF4y2Ba

求解器算法GydF4y2Ba

最小化问题可以以标准二次编程形式表达并使用常见的二次编程技术进行解决。然而，它可以计算地使用二次编程算法昂贵，特别是因为克矩阵可能太大而无法存储在存储器中。相反，使用分解方法可以加快计算并避免内存不足。GydF4y2Ba

分解方法GydF4y2Ba（也被称为GydF4y2Ba块和工作集方法GydF4y2Ba）将所有观察分为两个不相交的集：工作集和剩余集合。分解方法仅修改每个迭代中的工作集中的元素。因此，每次迭代中只需要一列克矩阵，这减少了每次迭代所需的存储量。GydF4y2Ba

顺序最小优化GydF4y2Ba（SMO）是解决SVM问题的最受欢迎的方法GydF4y2Ba[4]GydF4y2Ba。SMO执行一系列两点优化。在每次迭代中，基于使用二阶信息的选择规则来选择两点的工作组。然后使用所描述的方法进行分析地解决了该工作组的拉格朗日乘法器GydF4y2Ba[2]GydF4y2Ba一种Nd[1]。GydF4y2Ba

在SVM回归，梯度向量GydF4y2Ba $\nablaGydF4y2Ba L.GydF4y2Ba$ 对于每次迭代后更新活动集。梯度向量的分解方程是GydF4y2Ba

${（GydF4y2Ba \nablaGydF4y2Ba L.GydF4y2Ba ）GydF4y2Ba}_{NGydF4y2Ba} =GydF4y2Ba {GydF4y2Ba \begin{matrix} {σ.GydF4y2Ba}_{一世GydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba GGydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{一世GydF4y2Ba} 那GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba} ）GydF4y2Ba +GydF4y2Ba ε.GydF4y2Ba -GydF4y2Ba {yGydF4y2Ba}_{NGydF4y2Ba} 那GydF4y2Ba NGydF4y2Ba \leq.GydF4y2Ba NGydF4y2Ba \\ -GydF4y2Ba {σ.GydF4y2Ba}_{一世GydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba GGydF4y2Ba （GydF4y2Ba {XGydF4y2Ba}_{一世GydF4y2Ba} 那GydF4y2Ba {XGydF4y2Ba}_{NGydF4y2Ba} ）GydF4y2Ba +GydF4y2Ba ε.GydF4y2Ba +GydF4y2Ba {yGydF4y2Ba}_{NGydF4y2Ba} 那GydF4y2Ba NGydF4y2Ba >GydF4y2Ba NGydF4y2Ba \end{matrix} 。GydF4y2Ba$

迭代单数据算法GydF4y2Ba（ISDA）使用每次迭代更新一个拉格朗日乘法器GydF4y2Ba[3]GydF4y2Ba。ISDA通常在没有偏见术语的情况下进行GydF4y2BaB.GydF4y2Ba通过添加小的正常常数GydF4y2Ba一种GydF4y2Bato the kernel function. DroppingB.GydF4y2Ba丢弃总和约束GydF4y2Ba

${σ.GydF4y2Ba}_{NGydF4y2Ba =GydF4y2Ba 1GydF4y2Ba}^{NGydF4y2Ba} （GydF4y2Ba {α.GydF4y2Ba}_{一世GydF4y2Ba} -GydF4y2Ba {α.GydF4y2Ba}^{*GydF4y2Ba} ）GydF4y2Ba =GydF4y2Ba 0.GydF4y2Ba$

在双程中。这允许我们在每次迭代中更新一个拉格朗日乘法器，这使得比SMO更容易删除异常值。ISDA在所有内容中选择最糟糕的KKT违规者GydF4y2Baα.GydF4y2Ba_NGydF4y2Ba一种Ndα.GydF4y2Ba_NGydF4y2Ba^*GydF4y2Ba值作为更新的工作集。GydF4y2Ba

融合标准GydF4y2Ba

每一个迭代求解算法第一版es until the specified convergence criterion is met. There are several options for convergence criteria:

Feasibility gap- 可行性差距表示为GydF4y2Ba

$δ.GydF4y2Ba =GydF4y2Ba \frac{jGydF4y2Ba （GydF4y2Ba βGydF4y2Ba ）GydF4y2Ba +GydF4y2Ba L.GydF4y2Ba （GydF4y2Ba α.GydF4y2Ba ）GydF4y2Ba}{jGydF4y2Ba （GydF4y2Ba βGydF4y2Ba ）GydF4y2Ba +GydF4y2Ba 1GydF4y2Ba} 那GydF4y2Ba$

哪里GydF4y2BajGydF4y2Ba（GydF4y2BaβGydF4y2Ba）GydF4y2Ba是原始目标和GydF4y2BaL.GydF4y2Ba（GydF4y2Baα.GydF4y2Ba）GydF4y2Ba是双重目标。在每次迭代之后，软件评估可行性间隙。如果可行性差距小于指定的值GydF4y2BaG一种pTolerance，然后算法符合收敛标准，软件返回解决方案。GydF4y2Ba
渐变差异GydF4y2Ba- 在每次迭代之后，软件评估梯度向量，GydF4y2Ba $\nablaGydF4y2Ba L.GydF4y2Ba$ 。如果当前迭代的渐变矢量值和先前迭代的差异小于所指定的值GydF4y2Badeltagradienttolerance.GydF4y2Ba，然后算法符合收敛标准，软件返回解决方案。GydF4y2Ba
最大的KKT违规行为GydF4y2Ba- 每次迭代后，软件会评估所有的KKT违规GydF4y2Baα.GydF4y2Ba_NGydF4y2Ba一种Ndα.GydF4y2Ba_NGydF4y2Ba^*GydF4y2Ba价值观。如果最大的违规行为小于所指定的值GydF4y2Bakkttolerance.GydF4y2Ba，然后算法符合收敛标准，软件返回解决方案。GydF4y2Ba