确定有影响力的功能,以提高模型的性能

特征选择是一个维数降低技术,其仅选择的测量的特征(预测变量),在对数据建模提供最佳的预测能力的子集。具有非常高维数据处理或全部功能建模时是不可取的,当它是非常有用的。

特征选择可以用来:

  • 提高精度机器学习算法
  • 提高在非常高维数据的表现
  • 提高模型解释性
  • 防止过度拟合

有以特征选择几种常见的方法:

  • 逐步回归顺序地添加或移除功能,直到有在预测无改善;与使用线性回归或广义线性回归算法。同样的,连续的特征选择对于任何监督学习相继建立了一个功能集算法,直到精度(或自定义性能度量)停止提高。
  • 自动特征选择如邻域分量分析(NCA)识别,基于其预测能力最大化的分类性能的特征的子集。
  • 推动和袋装决策树是计算从出球袋估计变量重要性集成方法。
  • 正则(套索和弹性网)是使用通过减少它们的重量(系数)为零,以除去冗余特征的收缩估计。

另一个降维的方法是与描述性较差特征丢弃使用特征提取或特征的转化技术,其中将现有特征到新特征(预测变量)。

途径特征变换包括:

  • 主成分分析(PCA),用于汇总由投影更少维度的数据到一个唯一的正交基
  • 因子分析,用于构建数据的相关性的解释模型
  • 非负矩阵分解使用时模型项必须代表非负量,例如为物理量

有关特征选择的更多信息,包括机器学习,回归和改造,见统计和机器学习工具箱™与使用MATLAB®

也可以看看:统计和机器学习工具箱AdaBoost的机器学习线性模型正规化AutoML