正则化

预防正则化

正则化技术用于防止预测模型中的统计过拟合。正则化算法通常通过对复杂性施加惩罚来工作,比如将模型系数添加到最小化中,或者包括粗糙度惩罚。通过在模型中引入额外的信息,正则化算法可以处理多重共线性和冗余预测量,使模型更加简洁和准确。

流行的正则化技术包括脊回归(也称为Tikhonov正规化),套索和弹性净算法,缩小质心的方法,以及跟踪图和交叉验证均方误差。您也可以将Akaike信息标准(AIC)应用为适合度量的公制。

每个正则化技术为某些用例提供优势。

  • 套索使用L1规范,倾向于完全强制各个系数值朝向零。因此,套索工作得很好,作为特征选择算法。它很快识别少数键变量。
  • Ridge回归使用L2标准为系数(您最小化平方误差的总和)。脊回归倾向于在较大数量的系数上扩散系数收缩。如果您认为您的模型应该包含大量系数,则Ridge回归可能是一种很好的技术。
  • 弹性网可以弥补套索无法识别额外的预测因子。

正规化与之相关功能选择因为它迫使一个模型使用更少的预测器。正则化方法有一些明显的优势。

  • 正则化技术能够在比大多数特征选择方法更大的数据集上操作(除了单变量特征选择)。Lasso和ridge回归可以应用于包含数千,甚至数万个变量的数据集。
  • 正则化算法通常生成比特征选择更精确的预测模型。正则化作用于连续空间,而特征选择作用于离散空间。因此,正则化通常能够对模型进行微调,并产生更准确的估计。

但是,特征选择方法也有优势:

  • 特征选择有点直观,更容易向第三方解释。当您在分享结果时必须描述您的方法时,这是有价值的。
  • 马铃薯®统计和机器学习工具箱™万博1manbetx支持所有流行的正则化技术,可用于线性回归,逻辑回归,支持向量机和线性判别分析。如果您正在使用其他模型类型,如提升决策树,则需要应用功能选择。

关键点

  • 正则化(与特征选择一起使用)用于防止预测模型中的统计过拟合。
  • 由于正则化在连续空间上运行,因此可以优于机器学习问题的离散特征选择,从而为各种线性建模提供。

示例场景

让我们假设您正在运行癌症研究研究。您对500种不同癌症患者的基因序列,您试图确定15,000个不同基因中的哪一个对疾病的进展产生意外影响。您可以应用一个特征排名方法之一最小冗余最大相关性邻里分量分析如果您关注运行时,或者单次单变量;只有顺序特征选择与此许多不同的变量完全不切实际。或者,您可以使用正规化探索模型。您无法使用RIDGE回归,因为它不会完全强制系数速度快速零。与此同时,您不能使用套索,因为您可能需要识别超过500个不同的基因。弹性网是一种可能的解决方案。

也可以看看:功能选择机器学习监督学习线性模型自动化

免费白皮书

机器学习的挑战:选择最佳分类模型和避免过拟合

了解最常见的分类模型的优点,学习如何纠正和防止过拟合,并在MATLAB中看到有用的函数。

读白皮书