介绍特征选择- MATLAB和Simulink - MathWorks Benelux万博1manbetx - 万博1manbetx,s manbetx 845,万博尤文图斯

简介特征选择

本主题介绍特征选择算法，并描述统计和机器学习工具箱™中可用的特征选择函数。

特征选择算法

特征选择通过只选择测量特征的子集(预测变量)来创建模型，从而降低数据的维度。特征选择算法搜索预测器的子集，这些预测器根据需要或排除的特征和子集的大小等约束条件对响应进行优化建模。特征选择的主要好处是提高预测性能，提供更快、更划算的预测器，以及更好地理解数据生成过程[1]。使用太多的特性会降低预测性能，即使所有特性都是相关的，并且包含有关响应变量的信息。

您可以分类特征选择算法分为三种类型：

过滤器类型特征选择- 过滤器类型特征选择算法测量功能基于所述特征，诸如特征方差和特征相关的响应特性的重要性。您选择的重要特征数据预处理步骤的一部分，然后训练使用选定的功能模型。因此，滤波器类型特征选择不相关的训练算法。
包装类型特征选择- 该包装型特征选择算法开始使用的特征的子集的训练，然后添加或删除使用选择标准的特性。选择标准直接衡量模型性能的变化，从添加或删除功能的效果。该算法的重复训练提高到一个算法的停止标准满足的典范。
嵌入式特征选择-嵌入式类型特征选择算法将特征重要性作为模型学习过程的一部分进行学习。一旦你训练了一个模型，你就得到了训练模型中特征的重要性。这种类型的算法选择在特定的学习过程中工作良好的特性。

此外，您可以根据算法行列与否顺序功能分类特征选择算法。最小冗余最大相关性（MRMR）算法和逐步回归是顺序特征选择算法的两个实例。有关详细信息，请参阅顺序特征选择。

对于回归问题，您可以通过创建部分依赖图(PDP)和个别条件期望图(ICE)来直观地比较预测变量的重要性。有关详细信息，请参阅plotPartialDependence。

对于分类问题，在选择功能后，你可以训练两种模式（例如，一个完整的模型和预测的一个子集训练的模型），并通过比较模型的精度compareHoldout，testcholdout，要么testckfold功能。

特征选择是最好的功能转换时的原有的特色和他们的单位是重要的和造型的目标是找出一个有影响力的子集。当类别特征都存在，和数值变换是不合适的，特征选择成为降维的主要手段。

功能选择功能

统计和机器学习工具箱的特征选择提供了多种功能。请根据您的问题和数据类型的功能，相应的功能选择功能。

过滤器类型特征选择

函数	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`fscchi2`	分类	分类和连续特征	检查每个预测变量是否是独立的响应变量的，通过使用单独的卡方检验，以及使用所述秩然后设有p卡方检验统计量 - 值。举例来说，看到的功能参考页`fscchi2`。
`fscmrmr`	分类	分类和连续特征	属性对特性进行顺序排序最小冗余最大相关性（MRMR）算法。举例来说，看到的功能参考页`fscmrmr`。
`fscnca`*	分类	连续的特点	利用邻域分量分析(NCA)的对角自适应方法确定特征权重。该算法最适合估算基于距离的监督模型，观测之间使用成对的距离来预测应答功能的重要性。有关详细信息，请参见函数参考页面`fscnca`而这些主题：邻域成分分析(NCA)特征选择调整正则化参数来检测使用NCA进行分类的特征
`fsrftest`	回归	分类和连续特征	检查每个预测单独使用的重要性F-测试，然后使用p值的F以及统计数据。每一个F-test测试的假设，即由预测变量的值分组的响应值是从群体绘制与针对替代假设总体手段并不都是相同的相同的平均。举例来说，看到的功能参考页`fsrftest`。
`fsrnca`*	回归	连续的特点	利用邻域分量分析(NCA)的对角自适应方法确定特征权重。该算法最适合估算基于距离的监督模型，观测之间使用成对的距离来预测应答功能的重要性。有关详细信息，请参见函数参考页面`fsrnca`而这些主题：邻域成分分析(NCA)特征选择强大的功能选择使用NCA的回归
`fsulaplacian`	无监督学习	连续的特点	排名功能使用拉普拉斯算子的分数。举例来说，看到的功能参考页`fsulaplacian`。
`relieff`	分类和回归	或者是所有类别或全部连续功能	排名功能使用ReliefF算法分类和RReliefF算法回归。该算法最适合估算基于距离的监督模型，观测之间使用成对的距离来预测应答功能的重要性。举例来说，看到的功能参考页`relieff`。
`sequentialfs`	分类和回归	或者是所有类别或全部连续功能	选择功能顺序使用自定义的标准。定义一个函数，数据的措施的特性来选择特征和功能句柄传递到`sequentialfs`函数。可以使用。来指定顺序前向选择或顺序后向选择`'方向'`名称 - 值对的参数。`sequentialfs`评估使用交叉验证的标准。

*您也可以考虑fscnca和fsrnca作为嵌入式特征选择功能，因为他们返回一个训练有素的模型对象，你可以使用对象功能预测和失利。然而，您通常使用这些对象函数来优化算法的正则化参数。在选择特性之后使用fscnca或fsrnca功能作为一个数据预处理步骤的一部分，你可以申请您的问题另一个分类或回归算法。

包装类型特征选择

函数万博1manbetx支持问题万博1manbetx支持的数据类型描述

函数	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`sequentialfs`	分类和回归	或者是所有类别或全部连续功能	选择功能顺序使用自定义的标准。定义一个函数实现监督学习算法或函数，学习算法的性能的措施，并通过功能句柄`sequentialfs`函数。可以使用。来指定顺序前向选择或顺序后向选择`'方向'`名称 - 值对的参数。`sequentialfs`评估使用交叉验证的标准。举例来说，看到的功能参考页`sequentialfs`而这些主题：选择具有相对预测能力的特征子集选择用于分类高维数据的特征

sequentialfs

分类和回归

或者是所有类别或全部连续功能

选择功能顺序使用自定义的标准。定义一个函数实现监督学习算法或函数，学习算法的性能的措施，并通过功能句柄sequentialfs函数。可以使用。来指定顺序前向选择或顺序后向选择'方向'名称 - 值对的参数。sequentialfs评估使用交叉验证的标准。

举例来说，看到的功能参考页sequentialfs而这些主题：

嵌入式特征选择

函数	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`DeltaPredictor`一个物业`ClassificationDiscriminant`模型对象	线性判别分析分类	连续的特点	通过使用创建一个线性判别分析分类器`fitcdiscr`。训练的分类，返回`ClassificationDiscriminant`，存储在系数大小`DeltaPredictor`财产。可以使用in中的值`DeltaPredictor`作为预测重要措施。这个分类使用两个正则化参数γ和δ识别和删除冗余的预测。您可以通过获取这些参数的适当的值`cvshrink`函数或`'OptimizeHyperparameters'`名称 - 值对的参数。例如，请参见以下主题：正规化判别分析分类优化判别分析模型
`fitcecoc`同`templateLinear`	用高维数据进行多类学习的线性分类	连续的特点	训练一个线性分类模型`fitcecoc`和线性二元学习者的定义`templateLinear`。指定`“正规化”`的`templatelinear`如`'套索'`使用套索正规化。例如，参见查找使用交叉验证好套索处罚。本实施例中通过评估与使用不同的强度值的模型来确定良好套索-罚强度`kfoldLoss`。您还可以使用以下工具评估模型`kfoldEdge`，`kfoldMargin`，`边缘`，`失利`，要么`余量`。
`fitclinear`	线性分类与高维数据的二进制学习	连续的特点	训练一个线性分类模型`fitclinear`。指定`“正规化”`的`fitclinear`如`'套索'`使用套索正规化。例如，参见查找使用交叉验证AUC好套索处罚。本示例确定通过评估与使用AUC值不同强度值的模型良好的套索-惩罚强度。计算通过使用交叉验证后验概率类`kfoldPredict`，计算AUC值`perfcurve`。您还可以使用以下工具评估模型`kfoldEdge`，`kfoldLoss`，`kfoldMargin`，`边缘`，`失利`，`余量`，要么`预测`。
`fitrgp`	回归	分类和连续特征	通过使用训练高斯过程回归（GPR）模型`fitrgp`。设置`“KernelFunction”`名称 - 值对的参数使用自动相关性确定（ARD）。可用的选项有`“ardsquaredexponential”`，`'ardexponential'`，`“ardmatern32”`，`“ardmatern52”`,`'ardrationalquadratic'`。通过取负学习长度的指数，求出预测因子的权值`KernelInformation`财产。例如，请参见以下主题：指定LBFGS优化初始步长比较NCA和ARD特征选择
`fitrlinear`	线性回归高维数据	连续的特点	通过使用培养的线性回归模型`fitrlinear`。指定`“正规化”`的`fitrlinear`如`'套索'`使用套索正规化。例如，请参见以下主题：找到好的套索处罚的回归损失查找使用交叉验证好套索处罚
`套索`	线性回归	连续的特点	训练一个线性回归模型套索正规化使用`套索`。您可以通过使用指定套索对脊优化的重量`“α”`名称 - 值对的参数。举例来说，看到的功能参考页`套索`而这些主题：套索正规化套索和弹性网络有交叉验证通过套索和并行计算的数据广
`lassoglm`	广义线性回归	连续的特点	训练一个广义线性回归模型套索正规化使用`lassoglm`。您可以通过使用指定套索对脊优化的重量`“α”`名称 - 值对的参数。有关详细信息，请参见函数参考页面`lassoglm`而这些主题：广义线性模型的套索正规化正规化泊松回归规范逻辑回归宽正规化数据并行
`oobPermutedPredictorImportance`**的`ClassificationBaggedEnsemble`	使用袋装决策树集合进行分类(例如，随机森林)	分类和连续特征	使用树学习器训练一个袋装分类集合`fitcensemble`并指定`'方法'`如`“包”`。然后，使用`oobPermutedPredictorImportance`计算乱袋，预测变量重要性估计在置换。该功能的措施如何影响模型的预测变量是在预测的响应。举例来说，看到的函数引用页面和专题`oobPermutedPredictorImportance`。
`oobPermutedPredictorImportance`**的`RegressionBaggedEnsemble`	使用袋装决策树集合的回归(例如，随机森林)	分类和连续特征	通过培训袋装回归集成与树学习者`fitrensemble`并指定`'方法'`如`“包”`。然后，使用`oobPermutedPredictorImportance`计算乱袋，预测变量重要性估计在置换。该功能的措施如何影响模型的预测变量是在预测的响应。举例来说，看到的功能参考页`oobPermutedPredictorImportance`和为随机森林选择预测因子。
`predictorImportance`**的`ClassificationEnsemble`	与决策树的集成分类	分类和连续特征	使用树学习器训练分类集合`fitcensemble`。然后，使用`predictorImportance`到的计算估计预测的重要性对于乐团通过总结在风险的变化，由于在每一个预测和分支节点的数目除以和分裂。举例来说，看到的功能参考页`predictorImportance`。
`predictorImportance`**的`ClassificationTree`	用决策树分类	分类和连续特征	通过培训分类树`fitctree`。然后，使用`predictorImportance`到的计算估计预测的重要性在树中，由于在每一个预测分裂总结在风险变化和分支节点的数目除以总和。举例来说，看到的功能参考页`predictorImportance`。
`predictorImportance`**的`RegressionEnsemble`	回归与决策树的合奏	分类和连续特征	通过训练回归集成与树学习者`fitrensemble`。然后，使用`predictorImportance`到的计算估计预测的重要性对于乐团通过总结在风险的变化，由于在每一个预测和分支节点的数目除以和分裂。举例来说，看到的功能参考页`predictorImportance`。
`predictorImportance`**的`RegressionTree`	带有决策树的回归	分类和连续特征	通过训练回归树`fitrtree`。然后，使用`predictorImportance`到的计算估计预测的重要性在树中，由于在每一个预测分裂总结的均方误差（MSE）的变化和分支节点的数目除以总和。举例来说，看到的功能参考页`predictorImportance`。
`stepwiseglm`	广义线性回归	分类和连续特征	通过使用利用逐步回归拟合广义线性回归模型`stepwiseglm`。或者，您可以使用以下方法来拟合线性回归模型`fitglm`然后调整通过使用模型`步`。逐步回归是基于解释的响应变量的统计显着性的模型添加和删除方面的系统方法。有关详细信息，请参见函数参考页面`stepwiseglm`而这些主题：广义线性模型采用逐步算法广义线性模型广义线性模型的工作流程
`stepwiselm`	线性回归	分类和连续特征	通过使用利用逐步回归拟合线性回归模型`stepwiselm`。或者，您可以使用以下方法来拟合线性回归模型`fitlm`然后调整通过使用模型`步`。逐步回归是基于解释的响应变量的统计显着性的模型添加和删除方面的系统方法。有关详细信息，请参见函数参考页面`stepwiselm`而这些主题：逐步回归线性回归与互动效应使用t统计评估回归系数的显著性

**对于基于树的算法，指定'PredictorSelection'如“交互曲率”使用交互测试选择最佳分裂预测。的相互作用的测试是在许多不相关的变量的情况下识别重要的变量是有用的。此外，如果训练数据包括许多预测，然后指定'NumVariablesToSample'如'所有'为了训练。否则，软件可能无法选择一些预测，低估了它们的重要性。有关详细信息，请参阅fitctree，fitrtree,templateTree。