正规化技术用于防止预测模型中的统计过度拟合。正则化算法通常通过对复杂性的惩罚应用惩罚,例如通过将模型的系数添加到最小化或包括粗糙度惩罚。通过将附加信息引入模型中,正规化算法可以通过使模型更加解析和准确来处理多色性和冗余预测因子。
常用的正则化技术包括岭回归(也称为Tikhonov正则化)、lasso和弹性网算法、收缩质心方法以及迹线图和交叉验证均方误差。您还可以将Akaike信息标准(AIC)作为拟合优度度量应用。
每种正则化技术都为某些用例提供了优势。
- 套索使用L1范数,并倾向于将单个系数值完全强制为零。因此,lasso作为一种特征选择算法非常有效。它可以快速识别少量关键变量。
- 岭回归对系数使用L2范数(您正在最小化平方误差之和)。岭回归倾向于将系数收缩扩展到更多系数。如果您认为您的模型应该包含大量系数,岭回归可能是一种很好的技术。
- 弹性网可以弥补套索无法识别其他预测因素的不足。
正则化与特征选择在那迫使模型使用更少的预测器。正则化方法具有一些独特的优势。
- 正则化技术能够以大多数特征选择方法(单变量特征选择除外)更大的数据集。套索和岭回归可以应用于包含数千个,即使成千上万的变量的数据集。
- 正则化算法通常会产生比特征选择更准确的预测模型。正则化在连续空间上运行,而特征选择在离散空间上运行。结果,正规化通常能够微调模型并产生更准确的估计。
但是,特征选择方法也有优点:
- 功能选择更直观,更容易向第三方解释。当您在分享结果时必须描述您的方法时,这是很有价值的。
- MATLAB®和统计和机器学习工具箱™万博1manbetx支持所有流行的正则化技术,可用于线性回归、逻辑回归、支持向量机和线性判别分析。如果您正在使用其他模型类型,如增强决策树,则需要应用特征选择。
要点
- 使用正则化(以及特征选择)以防止预测模型中的统计过度拟合。
- 由于正则化在一个连续的空间上运行,因此它可以在适用于各种线性建模的机器学习问题上优于离散特征选择。