识别有影响的特征以提高模型性能

特征选择是一种降维技术,它只选择在数据建模中提供最佳预测能力的测量特征子集(预测变量)。当处理非常高维的数据或使用所有特性进行建模是不可取的时候,它特别有用。

特征选择可用于:

  • 提高a的准确性机器学习算法
  • 在非常高维的数据上提高性能
  • 提高模型的可解释性
  • 防止过度拟合

特征选择有几种常见的方法:

  • 逐步回归按顺序添加或删除特征,直到预测没有改进为止;使用线性回归或者广义线性回归算法。同样的,连续的特征选择对于任何监督学习顺序建立一个特征集算法,直到精度(或自定义性能衡量)停止改进。
  • 自动特征选择如邻域成分分析(NCA)识别的特征子集,最大化分类性能的基础上,其预测能力。
  • 提升和袋装决策树是从包外估计计算可变重要性的集成方法。
  • 正则化(套索和弹性网)是一种收缩估计器,通过将冗余特征的权重(系数)降为零来去除冗余特征。

另一种降维方法是使用特征提取或特征变换技术,将现有的特征转化为新的特征(预测变量),减少描述较少的特征。

特征转换的方法包括:

  • 主成分分析(PCA),用于通过在唯一的正交基上投影以更少的维数总结数据
  • 因子分析,用于建立数据相关性的解释模型
  • 非负矩阵分解,当模型术语必须表示非负值时使用,例如物理量

有关特征选择(包括机器学习、回归和转换)的更多信息,请参见统计和机器学习工具箱™使用MATLAB®

参见:统计和机器学习工具,演算法,机器学习,线性模型,正则化,AutoML