简介特征选择

本主题介绍特征选择算法,并描述统计和机器学习工具箱™中可用的特征选择函数。

特征选择算法

特征选择通过只选择测量特征的子集(预测变量)来创建模型,从而降低数据的维度。特征选择算法搜索预测器的子集,这些预测器根据需要或排除的特征和子集的大小等约束条件对响应进行优化建模。特征选择的主要好处是提高预测性能,提供更快、更划算的预测器,以及更好地理解数据生成过程[1]。使用太多的特性会降低预测性能,即使所有特性都是相关的,并且包含有关响应变量的信息。

您可以分类特征选择算法分为三种类型:

  • 过滤器类型特征选择- 过滤器类型特征选择算法测量功能基于所述特征,诸如特征方差和特征相关的响应特性的重要性。您选择的重要特征数据预处理步骤的一部分,然后训练使用选定的功能模型。因此,滤波器类型特征选择不相关的训练算法。

  • 包装类型特征选择- 该包装型特征选择算法开始使用的特征的子集的训练,然后添加或删除使用选择标准的特性。选择标准直接衡量模型性能的变化,从添加或删除功能的效果。该算法的重复训练提高到一个算法的停止标准满足的典范。

  • 嵌入式特征选择-嵌入式类型特征选择算法将特征重要性作为模型学习过程的一部分进行学习。一旦你训练了一个模型,你就得到了训练模型中特征的重要性。这种类型的算法选择在特定的学习过程中工作良好的特性。

此外,您可以根据算法行列与否顺序功能分类特征选择算法。最小冗余最大相关性(MRMR)算法和逐步回归是顺序特征选择算法的两个实例。有关详细信息,请参阅顺序特征选择

对于回归问题,您可以通过创建部分依赖图(PDP)和个别条件期望图(ICE)来直观地比较预测变量的重要性。有关详细信息,请参阅plotPartialDependence

对于分类问题,在选择功能后,你可以训练两种模式(例如,一个完整的模型和预测的一个子集训练的模型),并通过比较模型的精度compareHoldouttestcholdout, 要么testckfold功能。

特征选择是最好的功能转换时的原有的特色和他们的单位是重要的和造型的目标是找出一个有影响力的子集。当类别特征都存在,和数值变换是不合适的,特征选择成为降维的主要手段。

功能选择功能

统计和机器学习工具箱的特征选择提供了多种功能。请根据您的问题和数据类型的功能,相应的功能选择功能。

过滤器类型特征选择

函数 万博1manbetx支持问题 万博1manbetx支持的数据类型 描述
fscchi2 分类 分类和连续特征

检查每个预测变量是否是独立的响应变量的,通过使用单独的卡方检验,以及使用所述秩然后设有p卡方检验统计量 - 值。

举例来说,看到的功能参考页fscchi2

fscmrmr 分类 分类和连续特征

属性对特性进行顺序排序最小冗余最大相关性(MRMR)算法

举例来说,看到的功能参考页fscmrmr

fscnca* 分类 连续的特点

利用邻域分量分析(NCA)的对角自适应方法确定特征权重。该算法最适合估算基于距离的监督模型,观测之间使用成对的距离来预测应答功能的重要性。

有关详细信息,请参见函数参考页面fscnca而这些主题:

fsrftest 回归 分类和连续特征

检查每个预测单独使用的重要性F-测试,然后使用p值的F以及统计数据。每一个F-test测试的假设,即由预测变量的值分组的响应值是从群体绘制与针对替代假设总体手段并不都是相同的相同的平均。

举例来说,看到的功能参考页fsrftest

fsrnca* 回归 连续的特点

利用邻域分量分析(NCA)的对角自适应方法确定特征权重。该算法最适合估算基于距离的监督模型,观测之间使用成对的距离来预测应答功能的重要性。

有关详细信息,请参见函数参考页面fsrnca而这些主题:

fsulaplacian 无监督学习 连续的特点

排名功能使用拉普拉斯算子的分数

举例来说,看到的功能参考页fsulaplacian

relieff 分类和回归 或者是所有类别或全部连续功能

排名功能使用ReliefF算法分类和RReliefF算法回归。该算法最适合估算基于距离的监督模型,观测之间使用成对的距离来预测应答功能的重要性。

举例来说,看到的功能参考页relieff

sequentialfs 分类和回归 或者是所有类别或全部连续功能

选择功能顺序使用自定义的标准。定义一个函数,数据的措施的特性来选择特征和功能句柄传递到sequentialfs函数。可以使用。来指定顺序前向选择或顺序后向选择'方向'名称 - 值对的参数。sequentialfs评估使用交叉验证的标准。

*您也可以考虑fscncafsrnca作为嵌入式特征选择功能,因为他们返回一个训练有素的模型对象,你可以使用对象功能预测失利。然而,您通常使用这些对象函数来优化算法的正则化参数。在选择特性之后使用fscncafsrnca功能作为一个数据预处理步骤的一部分,你可以申请您的问题另一个分类或回归算法。

包装类型特征选择

函数 万博1manbetx支持问题 万博1manbetx支持的数据类型 描述
sequentialfs 分类和回归 或者是所有类别或全部连续功能

选择功能顺序使用自定义的标准。定义一个函数实现监督学习算法或函数,学习算法的性能的措施,并通过功能句柄sequentialfs函数。可以使用。来指定顺序前向选择或顺序后向选择'方向'名称 - 值对的参数。sequentialfs评估使用交叉验证的标准。

举例来说,看到的功能参考页sequentialfs而这些主题:

嵌入式特征选择

函数 万博1manbetx支持问题 万博1manbetx支持的数据类型 描述
DeltaPredictor一个物业ClassificationDiscriminant模型对象 线性判别分析分类 连续的特点

通过使用创建一个线性判别分析分类器fitcdiscr。训练的分类,返回ClassificationDiscriminant,存储在系数大小DeltaPredictor财产。可以使用in中的值DeltaPredictor作为预测重要措施。这个分类使用两个正则化参数γ和δ识别和删除冗余的预测。您可以通过获取这些参数的适当的值cvshrink函数或'OptimizeHyperparameters'名称 - 值对的参数。

例如,请参见以下主题:

fitcecoctemplateLinear 用高维数据进行多类学习的线性分类 连续的特点

训练一个线性分类模型fitcecoc和线性二元学习者的定义templateLinear。指定“正规化”templatelinear'套索'使用套索正规化。

例如,参见查找使用交叉验证好套索处罚。本实施例中通过评估与使用不同的强度值的模型来确定良好套索-罚强度kfoldLoss。您还可以使用以下工具评估模型kfoldEdgekfoldMargin边缘失利, 要么余量

fitclinear 线性分类与高维数据的二进制学习 连续的特点

训练一个线性分类模型fitclinear。指定“正规化”fitclinear'套索'使用套索正规化。

例如,参见查找使用交叉验证AUC好套索处罚。本示例确定通过评估与使用AUC值不同强度值的模型良好的套索-惩罚强度。计算通过使用交叉验证后验概率类kfoldPredict,计算AUC值perfcurve。您还可以使用以下工具评估模型kfoldEdgekfoldLosskfoldMargin边缘失利余量, 要么预测

fitrgp 回归 分类和连续特征

通过使用训练高斯过程回归(GPR)模型fitrgp。设置“KernelFunction”名称 - 值对的参数使用自动相关性确定(ARD)。可用的选项有“ardsquaredexponential”'ardexponential'“ardmatern32”“ardmatern52”,'ardrationalquadratic'。通过取负学习长度的指数,求出预测因子的权值KernelInformation财产。

例如,请参见以下主题:

fitrlinear 线性回归高维数据 连续的特点

通过使用培养的线性回归模型fitrlinear。指定“正规化”fitrlinear'套索'使用套索正规化。

例如,请参见以下主题:

套索 线性回归 连续的特点

训练一个线性回归模型套索正规化使用套索。您可以通过使用指定套索对脊优化的重量“α”名称 - 值对的参数。

举例来说,看到的功能参考页套索而这些主题:

lassoglm 广义线性回归 连续的特点

训练一个广义线性回归模型套索正规化使用lassoglm。您可以通过使用指定套索对脊优化的重量“α”名称 - 值对的参数。

有关详细信息,请参见函数参考页面lassoglm而这些主题:

oobPermutedPredictorImportance**的ClassificationBaggedEnsemble 使用袋装决策树集合进行分类(例如,随机森林) 分类和连续特征

使用树学习器训练一个袋装分类集合fitcensemble并指定'方法'“包”。然后,使用oobPermutedPredictorImportance计算乱袋,预测变量重要性估计在置换。该功能的措施如何影响模型的预测变量是在预测的响应。

举例来说,看到的函数引用页面和专题oobPermutedPredictorImportance

oobPermutedPredictorImportance**的RegressionBaggedEnsemble 使用袋装决策树集合的回归(例如,随机森林) 分类和连续特征

通过培训袋装回归集成与树学习者fitrensemble并指定'方法'“包”。然后,使用oobPermutedPredictorImportance计算乱袋,预测变量重要性估计在置换。该功能的措施如何影响模型的预测变量是在预测的响应。

举例来说,看到的功能参考页oobPermutedPredictorImportance为随机森林选择预测因子

predictorImportance**的ClassificationEnsemble 与决策树的集成分类 分类和连续特征

使用树学习器训练分类集合fitcensemble。然后,使用predictorImportance到的计算估计预测的重要性对于乐团通过总结在风险的变化,由于在每一个预测和分支节点的数目除以和分裂。

举例来说,看到的功能参考页predictorImportance

predictorImportance**的ClassificationTree 用决策树分类 分类和连续特征

通过培训分类树fitctree。然后,使用predictorImportance到的计算估计预测的重要性在树中,由于在每一个预测分裂总结在风险变化和分支节点的数目除以总和。

举例来说,看到的功能参考页predictorImportance

predictorImportance**的RegressionEnsemble 回归与决策树的合奏 分类和连续特征

通过训练回归集成与树学习者fitrensemble。然后,使用predictorImportance到的计算估计预测的重要性对于乐团通过总结在风险的变化,由于在每一个预测和分支节点的数目除以和分裂。

举例来说,看到的功能参考页predictorImportance

predictorImportance**的RegressionTree 带有决策树的回归 分类和连续特征

通过训练回归树fitrtree。然后,使用predictorImportance到的计算估计预测的重要性在树中,由于在每一个预测分裂总结的均方误差(MSE)的变化和分支节点的数目除以总和。

举例来说,看到的功能参考页predictorImportance

stepwiseglm 广义线性回归 分类和连续特征

通过使用利用逐步回归拟合广义线性回归模型stepwiseglm。或者,您可以使用以下方法来拟合线性回归模型fitglm然后调整通过使用模型。逐步回归是基于解释的响应变量的统计显着性的模型添加和删除方面的系统方法。

有关详细信息,请参见函数参考页面stepwiseglm而这些主题:

stepwiselm 线性回归 分类和连续特征

通过使用利用逐步回归拟合线性回归模型stepwiselm。或者,您可以使用以下方法来拟合线性回归模型fitlm然后调整通过使用模型。逐步回归是基于解释的响应变量的统计显着性的模型添加和删除方面的系统方法。

有关详细信息,请参见函数参考页面stepwiselm而这些主题:

**对于基于树的算法,指定'PredictorSelection'“交互曲率”使用交互测试选择最佳分裂预测。的相互作用的测试是在许多不相关的变量的情况下识别重要的变量是有用的。此外,如果训练数据包括许多预测,然后指定'NumVariablesToSample''所有'为了训练。否则,软件可能无法选择一些预测,低估了它们的重要性。有关详细信息,请参阅fitctreefitrtree,templateTree

参考

[1] Guyon的,伊莎贝尔,和A. Elisseeff。“简介变量和特征选择”。机器学习研究杂志。卷。3,2003年,第1157至1182年。

也可以看看

相关话题