特征选择入门- MATLAB & Simulink - MathWorks América万博1manbetx Latina

功能选择简介

本主题介绍了特征选择算法，并描述了统计和机器学习工具箱™中可用的特征选择功能。

特征选择算法

功能选择通过只选择一个被测量特征的子集(预测变量)来创建一个模型来降低数据的维数。特征选择算法根据要求或排除的特征和子集的大小等约束条件，搜索预测器的子集，以最优模型衡量响应。特征选择的主要好处是提高预测性能，提供更快、更经济的预测器，以及更好地理解数据生成过程[１]．使用过多的特征会降低预测性能，即使所有特征都是相关的，并且包含有关响应变量的信息。

您可以将特征选择算法分为三种类型：

过滤型功能选择- 过滤器类型特征选择算法根据特征的特征来测量特征重要性，例如特征方差和与响应的功能相关性。您选择重要的功能作为数据预处理步骤的一部分，然后使用所选功能培训模型。因此，过滤器类型特征选择与训练算法不相关。
包装型功能选择-包装器类型的特征选择算法使用特征子集开始训练，然后使用选择标准添加或删除一个特征。选择标准直接度量由于添加或删除一个特性而导致的模型性能的变化。该算法重复训练和改进模型，直到满足其停止准则。
嵌入式类型特征选择-嵌入式类型特征选择算法学习特征的重要性作为模型学习过程的一部分。一旦你训练了一个模型，你就得到了训练模型中特征的重要性。这种类型的算法选择与特定学习过程配合良好的特征。

此外，还可以根据特征排序的顺序对特征选择算法进行分类。最小冗余最大关联(MRMR)算法和逐步回归算法是序列特征选择算法的两个例子。有关详细信息,请参见连续的特征选择．

通过创建部分依赖图(PDP)和个体条件期望图(ICE)，您可以直观地比较预测变量的重要性。有关详细信息,请参见plotPartialDependence．

对于分类问题，在选择特征之后，您可以训练两个模型(例如，一个完整的模型和一个用预测器子集训练的模型)，并通过使用CompareHoldout.那testcholdout.,或testckfold功能。

当原始特征及其单元是重要的，建模目标是识别有影响的子集时，特征选择优于特征转换。当类别特征存在且数值转换不合适时，特征选择成为降维的主要手段。

特征选择功能

统计和机器学习工具箱提供了几个功能的特征选择。根据您的问题和特征的数据类型选择适当的特征选择功能。

过滤型功能选择

函数	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`fscchi2`	分类	分类和连续特征	使用个人卡方检验检验每个预测变量是否独立于一个响应变量，然后使用P.-卡方检验统计量的值。有关示例，请参阅“功能参考”页面`fscchi2`．
`fscmrmr`	分类	分类和连续特征	使用最小冗余最大相关性（MRMR）算法．有关示例，请参阅“功能参考”页面`fscmrmr`．
`FSCNCA`*	分类	连续特点	利用对角自适应邻域成分分析(NCA)确定特征权重。该算法最适合估算基于距离的监督模型的特征重要性，该模型在观察之间使用成对距离来预测响应。具体请参见功能参考页面`FSCNCA`和这些主题：邻域成分分析(NCA)特征选择调整正则化参数检测特征，利用NCA进行分类
`FSRFTEST.`	回归	分类和连续特征	用一个变量来检验每个预测器的重要性F-test，然后使用P.值的F以及统计数据。每一个F- 测试测试通过与替代假设的相同均值的群体中绘制了预测器变量值的响应值的假设，即人口意味着并不相同。有关示例，请参阅“功能参考”页面`FSRFTEST.`．
`fsrnca`*	回归	连续特点	利用对角自适应邻域成分分析(NCA)确定特征权重。该算法最适合估算基于距离的监督模型的特征重要性，该模型在观察之间使用成对距离来预测响应。具体请参见功能参考页面`fsrnca`和这些主题：邻域成分分析(NCA)特征选择使用NCA进行回归的鲁棒特征选择
`fsulaplacian`	无监督学习	连续特点	使用拉普拉斯算子的分数．有关示例，请参阅“功能参考”页面`fsulaplacian`．
`relieff`	分类和回归	要么是所有的分类特征要么是所有的连续特征	使用ReliefF分类算法和分类算法rrelieff.回归算法。该算法最适合估算基于距离的监督模型的特征重要性，该模型在观察之间使用成对距离来预测响应。有关示例，请参阅“功能参考”页面`relieff`．
`sequentialfs`	分类和回归	要么是所有的分类特征要么是所有的连续特征	使用自定义标准顺序选择特性。定义测量数据特性以选择要素的函数，并将功能句柄传递给`sequentialfs`函数。属性指定顺序向前选择或顺序向后选择`“方向”`名称值对参数。`sequentialfs`使用交叉验证评估标准。

*你也可以考虑FSCNCA和fsrnca作为嵌入式类型特征选择函数，因为它们返回一个经过训练的模型对象，您可以使用对象函数预测和损失．但是，通常使用这些对象函数来优化算法的正则化参数。选择功能后使用FSCNCA或fsrnca函数作为数据预处理步骤的一部分，则可以针对您的问题应用另一种分类或回归算法。

包装型功能选择

函数万博1manbetx支持问题万博1manbetx支持的数据类型描述

函数	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`sequentialfs`	分类和回归	要么是所有的分类特征要么是所有的连续特征	使用自定义标准顺序选择特性。定义实现有监督学习算法的函数或度量学习算法性能的函数，并将函数句柄传递给`sequentialfs`函数。属性指定顺序向前选择或顺序向后选择`“方向”`名称值对参数。`sequentialfs`使用交叉验证评估标准。有关示例，请参阅“功能参考”页面`sequentialfs`和这些主题：选择具有比较预测能力的特征子集高维数据分类的特征选择

sequentialfs

分类和回归

要么是所有的分类特征要么是所有的连续特征

使用自定义标准顺序选择特性。定义实现有监督学习算法的函数或度量学习算法性能的函数，并将函数句柄传递给sequentialfs函数。属性指定顺序向前选择或顺序向后选择“方向”名称值对参数。sequentialfs使用交叉验证评估标准。

有关示例，请参阅“功能参考”页面sequentialfs和这些主题：

嵌入式类型特征选择

函数	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`DeltaPredictor`A的财产`ClassificationDiscriminant`模型对象	线性判别分析分类	连续特点	通过使用创建线性判别分析分类器`fitcdiscr`．训练有素的分类器，返回`ClassificationDiscriminant`，存储系数幅度`DeltaPredictor`财产。中使用的值`DeltaPredictor`作为预测器重要性的度量。该分类器使用两个正则化参数伽玛和三角洲识别和删除冗余预测器。属性获取这些参数的适当值`cvshrink.`函数或`'OptimizeHyperParameters'`名称值对参数。例如，请看以下主题: 正规化判别分析分类器优化判别分析模型
`fitcecoc`和`templateLinear`	基于高维数据的多类学习线性分类	连续特点	用该方法训练线性分类模型`fitcecoc`线性二元学习者由`templateLinear`．指定`'正规化'`的`TemplateLinear.`作为`'套索'`使用套索正规化。例如，请参见使用交叉验证找到好的套索惩罚．这个例子通过使用不同的强度值评估模型来确定一个好的套索惩罚强度`kfoldLoss`．您还可以使用`Kfoldedge`那`kfoldMargin`那`边缘`那`损失`,或`保证金`．
`fitclinear`	基于高维数据的二元学习线性分类	连续特点	用该方法训练线性分类模型`fitclinear`．指定`'正规化'`的`fitclinear`作为`'套索'`使用套索正规化。例如，请参见使用交叉验证的AUC找到良好的套索惩罚．该示例通过使用AUC值评估具有不同强度值的模型来确定良好的租赁状态。使用使用来计算交叉验证的后级概率`kfoldPredict`，并使用`perfcurve`．您还可以使用`Kfoldedge`那`kfoldLoss`那`kfoldMargin`那`边缘`那`损失`那`保证金`,或`预测`．
`fitrgp`	回归	分类和连续特征	通过使用培训高斯过程回归（GPR）模型`fitrgp`．设定`“KernelFunction”`名称-值对参数使用自动相关性确定(ARD)。可用的选项是`“ardsquaredexponential”`那`'ardexponential'`那`“ardmatern32”`那`“ardmatern52”`,`“ardrationalquadratic”`．通过取负学习长度标度的指数来找到预测器的权重，存储在`KernelInformation`财产。例如，请看以下主题: 指定LBFGS优化的初始步长比较NCA和ARD特征选择
`Fitrinear.`	具有高维数据的线性回归	连续特点	通过使用培训线性回归模型`Fitrinear.`．指定`'正规化'`的`Fitrinear.`作为`'套索'`使用套索正规化。例如，请看以下主题: 使用回归损失找到好的套索惩罚使用交叉验证找到好的套索惩罚
`套索`	线性回归	连续特点	用。训练线性回归模型套索使用使用正常化`套索`．你可以指定重量的套索与脊优化使用`“α”`名称值对参数。有关示例，请参阅“功能参考”页面`套索`和这些主题：套索正规化交叉验证的套索和弹性网通过套索和并行计算获得广泛数据
`lassoglm.`	广义线性回归	连续特点	用。训练广义线性回归模型套索使用使用正常化`lassoglm.`．你可以指定重量的套索与脊优化使用`“α”`名称值对参数。具体请参见功能参考页面`lassoglm.`和这些主题：广义线性模型的套索正则化正规化泊松回归规范逻辑回归正常化并行数据
`OobpermutedPredictorimportance.`* *的`ClassificationBaggedEnsemble`	使用集合袋装决策树(例如，随机森林)进行分类	分类和连续特征	利用树学习器训练袋式分类集成`fitcensemble`并指定`“方法”`作为`“包”`．然后,用`OobpermutedPredictorimportance.`计算禁止的禁止，预测值估算．该功能测量模型中预测器变量的影响程度如何预测响应。有关示例，请参阅“功能参考”页面和主题`OobpermutedPredictorimportance.`．
`OobpermutedPredictorimportance.`* *的`RegressionBaggedEnsemble`	使用集合袋装决策树(例如，随机森林)进行回归	分类和连续特征	通过使用树学习器训练袋式回归集成`fitrensemble`并指定`“方法”`作为`“包”`．然后,用`OobpermutedPredictorimportance.`计算禁止的禁止，预测值估算．该功能测量模型中预测器变量的影响程度如何预测响应。有关示例，请参阅“功能参考”页面`OobpermutedPredictorimportance.`和为随机森林选择预测器．
`预测的重要性`* *的`ClassificationEnsemble`	基于决策树集成的分类	分类和连续特征	利用树式学习器训练分类集成`fitcensemble`．然后,用`预测的重要性`来计算预测的重要性对每个预测器上的分裂导致的风险变化求和，然后除以分支节点的数量。有关示例，请参阅“功能参考”页面`预测的重要性`．
`预测的重要性`* *的`ClassificationTree`	用决策树进行分类	分类和连续特征	用。训练分类树`fitctree`．然后,用`预测的重要性`来计算预测的重要性通过在每个预测器上施加裂缝并将总和除以分支节点的数量来求解风险的变化。有关示例，请参阅“功能参考”页面`预测的重要性`．
`预测的重要性`* *的`回归`	回归决策树的集合	分类和连续特征	通过使用培训与树学习者的回归集合`fitrensemble`．然后,用`预测的重要性`来计算预测的重要性对每个预测器上的分裂导致的风险变化求和，然后除以分支节点的数量。有关示例，请参阅“功能参考”页面`预测的重要性`．
`预测的重要性`* *的`RegressionTree`	带有决策树的回归	分类和连续特征	使用培训回归树`fitrtree`．然后,用`预测的重要性`来计算预测的重要性由于每个预测器上的拼接和分支节点的数量将总和除以分支节点的拆分，因此通过求解平均平方误差（MSE）的变化来实现树。有关示例，请参阅“功能参考”页面`预测的重要性`．
`stepwiseglm`＊＊＊	广义线性回归	分类和连续特征	利用逐步回归法拟合广义线性回归模型`stepwiseglm`．或者，您可以通过使用`fitglm`然后对模型进行调整`一步`．逐步回归是在解释响应变量时，根据变量的统计显著性在模型中添加项和删除项的系统方法。具体请参见功能参考页面`stepwiseglm`和这些主题：基于逐步算法的广义线性模型广义线性模型广义线性模型工作流程
`stepwiselm`＊＊＊	线性回归	分类和连续特征	利用逐步回归法拟合线性回归模型`stepwiselm`．或者，您可以通过使用`Fitlm.`然后对模型进行调整`一步`．逐步回归是在解释响应变量时，根据变量的统计显著性在模型中添加项和删除项的系统方法。具体请参见功能参考页面`stepwiselm`和这些主题：逐步回归线性回归与交互效应使用t统计量评估回归系数的显著性

**对于基于树的算法，指定'预测圈'作为'互动曲率'使用交互测试选择最佳分割预测器。相互作用测试可用于在许多无关变量存在下识别重要变量。此外，如果训练数据包括许多预测因子，则指定“NumVariablesToSample”作为'全部'进行训练。否则，软件可能不会选择一些预测器，低估它们的重要性。有关详细信息,请参见fitctree那fitrtree,templateTree．

＊＊＊stepwiseglm和stepwiselm不是包装器类型函数，因为您不能将它们用作另一个培训函数的包装器。然而，这两个函数使用包装器类型算法来寻找重要的特征。