简介功能选择 - MATLAB＆Simulink的万博1manbetx - 万博1manbetx,s manbetx 845,万博尤文图斯

简介特征选择

本主题将介绍特征选择算法，并介绍了统计和机器学习工具箱™提供的功能选择功能。

特征选择算法

特征选择通过仅选择的测量的特征（预测变量）的子集来创建模型降低了数据的维数。特征选择算法搜索该最佳模型测量的响应，受约束，如需要或排除特征和子集的大小预测器的一个子集。特征选择的主要好处是提高预测性能，提供更快，更具成本效益的预测，并提供更好的理解数据的生成过程[1]。使用太多的功能，甚至可以降低预测的性能时，所有的功能都是相关的，包含关于响应变量的信息。

您可以分类特征选择算法分为三种类型：

过滤器类型特征选择- 过滤器类型特征选择算法测量功能基于所述特征，诸如特征方差和特征相关的响应特性的重要性。您选择的重要特征数据预处理步骤的一部分，然后训练使用选定的功能模型。因此，滤波器类型特征选择不相关的训练算法。
包装类型特征选择- 该包装型特征选择算法开始使用的特征的子集的训练，然后添加或删除使用选择标准的特性。选择标准直接衡量模型性能的变化，从添加或删除功能的效果。该算法的重复训练提高到一个算法的停止标准满足的典范。
嵌入式特征选择- 嵌入型特征选择算法获悉功能为模型的学习过程中的重要性。一旦你训练的模型，你获得的在训练模型的特征的重要性。这种类型的算法选择的特点是做工精良与特定的学习过程。

此外，您可以根据算法行列与否顺序功能分类特征选择算法。最小冗余最大相关性（MRMR）算法和逐步回归是顺序特征选择算法的两个实例。有关详细信息，请参阅顺序特征选择。

对于回归问题，您可以直观地通过创建部分依赖图（PDP）和个体条件期望（ICE）图比较预测变量的重要性。有关详细信息，请参阅plotPartialDependence。

对于分类问题，在选择功能后，你可以训练两种模式（例如，一个完整的模型和预测的一个子集训练的模型），并通过比较模型的精度compareHoldout，testcholdout，要么testckfold功能。

特征选择是最好的功能转换时的原有的特色和他们的单位是重要的和造型的目标是找出一个有影响力的子集。当类别特征都存在，和数值变换是不合适的，特征选择成为降维的主要手段。

功能选择功能

统计和机器学习工具箱的特征选择提供了多种功能。请根据您的问题和数据类型的功能，相应的功能选择功能。

过滤器类型特征选择

功能	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`fscchi2`	分类	分类和连续的特点	检查每个预测变量是否是独立的响应变量的，通过使用单独的卡方检验，以及使用所述秩然后设有p卡方检验统计量 - 值。举例来说，看到的功能参考页`fscchi2`。
`fscmrmr`	分类	分类和连续的特点	秩设有依次使用最小冗余最大相关性（MRMR）算法。举例来说，看到的功能参考页`fscmrmr`。
`fscnca`*	分类	连续的特点	通过使用邻域成分分析（NCA）的对角自适应确定特征权重。该算法最适合估算基于距离的监督模型，观测之间使用成对的距离来预测应答功能的重要性。有关详细信息，请参见功能参考页`fscnca`而这些主题：邻里成分分析（NCA）特征选择调整调整参数来检测功能使用NCA的分类
`fsrftest`	回归	分类和连续的特点	检查每个预测单独使用的重要性F使用 - 测试，然后排名功能p的 - 值F- 测试统计数据。每F-test测试的假设，即由预测变量的值分组的响应值是从群体绘制与针对替代假设总体手段并不都是相同的相同的平均。举例来说，看到的功能参考页`fsrftest`。
`fsrnca`*	回归	连续的特点	通过使用邻域成分分析（NCA）的对角自适应确定特征权重。该算法最适合估算基于距离的监督模型，观测之间使用成对的距离来预测应答功能的重要性。有关详细信息，请参见功能参考页`fsrnca`而这些主题：邻里成分分析（NCA）特征选择强大的功能选择使用NCA的回归
`fsulaplacian`	无监督学习	连续的特点	排名功能使用拉普拉斯积分。举例来说，看到的功能参考页`fsulaplacian`。
`relieff`	分类和回归	或者是所有类别或全部连续功能	排名功能使用ReliefF算法分类和RReliefF算法回归。该算法最适合估算基于距离的监督模型，观测之间使用成对的距离来预测应答功能的重要性。举例来说，看到的功能参考页`relieff`。
`sequentialfs`	分类和回归	或者是所有类别或全部连续功能	选择功能顺序使用自定义的标准。定义一个函数，数据的措施的特性来选择特征和功能句柄传递到`sequentialfs`功能。您可以通过使用指定顺序向前选择或向后的顺序选择`'方向'`名称 - 值对的参数。`sequentialfs`评估使用交叉验证的标准。

*您也可以考虑fscnca和fsrnca作为嵌入式特征选择功能，因为他们返回一个训练有素的模型对象，你可以使用对象功能预测和失利。但是，您通常使用这些对象的功能来调整算法的调整参数。后选择功能使用fscnca要么fsrnca功能作为一个数据预处理步骤的一部分，你可以申请您的问题另一个分类或回归算法。

包装类型特征选择

功能万博1manbetx支持问题万博1manbetx支持的数据类型描述

功能	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`sequentialfs`	分类和回归	或者是所有类别或全部连续功能	选择功能顺序使用自定义的标准。定义一个函数实现监督学习算法或函数，学习算法的性能的措施，并通过功能句柄`sequentialfs`功能。您可以通过使用指定顺序向前选择或向后的顺序选择`'方向'`名称 - 值对的参数。`sequentialfs`评估使用交叉验证的标准。举例来说，看到的功能参考页`sequentialfs`而这些主题：特点选择子集比较预测能力选择功能划分为高维数据

sequentialfs

分类和回归

或者是所有类别或全部连续功能

选择功能顺序使用自定义的标准。定义一个函数实现监督学习算法或函数，学习算法的性能的措施，并通过功能句柄sequentialfs功能。您可以通过使用指定顺序向前选择或向后的顺序选择'方向'名称 - 值对的参数。sequentialfs评估使用交叉验证的标准。

举例来说，看到的功能参考页sequentialfs而这些主题：

嵌入式特征选择

功能	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`DeltaPredictor`一个物业`ClassificationDiscriminant`模型对象	线性判别分析分类	连续的特点	通过使用创建一个线性判别分析分类器`fitcdiscr`。训练的分类，返回`ClassificationDiscriminant`，存储在系数大小`DeltaPredictor`属性。您可以使用值`DeltaPredictor`作为预测重要措施。这个分类使用两个正则化参数γ和δ识别和删除冗余的预测。您可以通过获取这些参数的适当的值`cvshrink`功能或`'OptimizeHyperparameters'`名称 - 值对的参数。例如，请参见以下主题：正规化判别分析分类优化判别分析模型
`fitcecoc`同`templateLinear`	线性分类为多类学习高维数据	连续的特点	通过使用培养的线性分类模型`fitcecoc`和线性二进制学习者通过定义`templateLinear`。指定`“正规化”`的`templatelinear`如`'套索'`使用套索正规化。对于一个示例，请参见查找使用交叉验证好套索处罚。本实施例中通过评估与使用不同的强度值的模型来确定良好套索-罚强度`kfoldLoss`。您也可以使用评价模型`kfoldEdge`，`kfoldMargin`，`边缘`，`失利`，要么`余量`。
`fitclinear`	线性分类与高维数据的二进制学习	连续的特点	通过使用培养的线性分类模型`fitclinear`。指定`“正规化”`的`fitclinear`如`'套索'`使用套索正规化。对于一个示例，请参见查找使用交叉验证AUC好套索处罚。本示例确定通过评估与使用AUC值不同强度值的模型良好的套索-惩罚强度。计算通过使用交叉验证后验概率类`kfoldPredict`，并计算通过使用AUC值`perfcurve`。您也可以使用评价模型`kfoldEdge`，`kfoldLoss`，`kfoldMargin`，`边缘`，`失利`，`余量`，要么`预测`。
`fitrgp`	回归	分类和连续的特点	通过使用训练高斯过程回归（GPR）模型`fitrgp`。设置`'KernelFunction'`名称 - 值对的参数使用自动相关性确定（ARD）。可用的选项有`'ardsquaredexponential'`，`'ardexponential'`，`'ardmatern32'`，`'ardmatern52'`和`'ardrationalquadratic'`。通过采取消极了解到长度尺度的指数查找预测的权重，存储在`KernelInformation`属性。例如，请参见以下主题：指定LBFGS优化初始步长比较NCA和ARD特征选择
`fitrlinear`	线性回归高维数据	连续的特点	通过使用培养的线性回归模型`fitrlinear`。指定`“正规化”`的`fitrlinear`如`'套索'`使用套索正规化。例如，请参见以下主题：找到好的套索处罚的回归损失查找使用交叉验证好套索处罚
`套索`	线性回归	连续的特点	火车一元线性回归模型套索正规化使用`套索`。您可以通过使用指定套索对脊优化的重量`'Α'`名称 - 值对的参数。举例来说，看到的功能参考页`套索`而这些主题：套索正规化套索和弹性网络有交叉验证通过套索和并行计算的数据广
`lassoglm`	广义线性回归	连续的特点	培养出广义线性回归模型套索正规化使用`lassoglm`。您可以通过使用指定套索对脊优化的重量`'Α'`名称 - 值对的参数。有关详细信息，请参见功能参考页`lassoglm`而这些主题：广义线性模型的套索正规化正规化泊松回归正规化Logistic回归宽正规化数据并行
`oobPermutedPredictorImportance`**的`ClassificationBaggedEnsemble`	袋装决策树的集成分类（例如，随机森林）	分类和连续的特点	通过使用与培养学习者树袋装分类集成`fitcensemble`并指定`'方法'`如`'袋'`。然后，使用`oobPermutedPredictorImportance`计算乱袋，预测变量重要性估计在置换。该功能的措施如何影响模型的预测变量是在预测的响应。举例来说，看到的函数引用页面和专题`oobPermutedPredictorImportance`。
`oobPermutedPredictorImportance`**的`RegressionBaggedEnsemble`	回归袋装决策树的集合（例如，随机森林）	分类和连续的特点	通过培训袋装回归集成与树学习者`fitrensemble`并指定`'方法'`如`'袋'`。然后，使用`oobPermutedPredictorImportance`计算乱袋，预测变量重要性估计在置换。该功能的措施如何影响模型的预测变量是在预测的响应。举例来说，看到的功能参考页`oobPermutedPredictorImportance`和选择用于预测指标随机森林。
`predictorImportance`**的`ClassificationEnsemble`	与决策树的集成分类	分类和连续的特点	通过培训与树学习者分类集成`fitcensemble`。然后，使用`predictorImportance`到的计算估计预测变量重要性对于乐团通过总结在风险的变化，由于在每一个预测和分支节点的数目除以和分裂。举例来说，看到的功能参考页`predictorImportance`。
`predictorImportance`**的`ClassificationTree`	用决策树分类	分类和连续的特点	通过培训分类树`fitctree`。然后，使用`predictorImportance`到的计算估计预测变量重要性在树中，由于在每一个预测分裂总结在风险变化和分支节点的数目除以总和。举例来说，看到的功能参考页`predictorImportance`。
`predictorImportance`**的`RegressionEnsemble`	回归与决策树的合奏	分类和连续的特点	通过训练回归集成与树学习者`fitrensemble`。然后，使用`predictorImportance`到的计算估计预测变量重要性对于乐团通过总结在风险的变化，由于在每一个预测和分支节点的数目除以和分裂。举例来说，看到的功能参考页`predictorImportance`。
`predictorImportance`**的`RegressionTree`	回归与决策树	分类和连续的特点	通过训练回归树`fitrtree`。然后，使用`predictorImportance`到的计算估计预测变量重要性在树中，由于在每一个预测分裂总结的均方误差（MSE）的变化和分支节点的数目除以总和。举例来说，看到的功能参考页`predictorImportance`。
`stepwiseglm`	广义线性回归	分类和连续的特点	通过使用利用逐步回归拟合广义线性回归模型`stepwiseglm`。另外，您也可以通过使用适合的线性回归模型`fitglm`然后调整通过使用模型`步`。逐步回归是基于解释的响应变量的统计显着性的模型添加和删除方面的系统方法。有关详细信息，请参见功能参考页`stepwiseglm`而这些主题：广义线性模型采用逐步算法广义线性模型广义线性模型的工作流程
`stepwiselm`	线性回归	分类和连续的特点	通过使用利用逐步回归拟合线性回归模型`stepwiselm`。另外，您也可以通过使用适合的线性回归模型`fitlm`然后调整通过使用模型`步`。逐步回归是基于解释的响应变量的统计显着性的模型添加和删除方面的系统方法。有关详细信息，请参见功能参考页`stepwiselm`而这些主题：逐步回归线性回归与互动效应评估回归系数的意义用t统计量

**对于基于树的算法，指定'PredictorSelection'如“交互曲率”使用交互测试选择最佳分裂预测。的相互作用的测试是在许多不相关的变量的情况下识别重要的变量是有用的。此外，如果训练数据包括许多预测，然后指定'NumVariablesToSample'如'所有'为了训练。否则，软件可能无法选择一些预测，低估了它们的重要性。有关详细信息，请参阅fitctree，fitrtree和templateTree。