简介特征选择

本主题将介绍特征选择算法,并介绍了统计和机器学习工具箱™提供的功能选择功能。

特征选择算法

特征选择通过仅选择的测量的特征(预测变量)的子集来创建模型降低了数据的维数。特征选择算法搜索该最佳模型测量的响应,受约束,如需要或排除特征和子集的大小预测器的一个子集。特征选择的主要好处是提高预测性能,提供更快,更具成本效益的预测,并提供更好的理解数据的生成过程[1]。使用太多的功能,甚至可以降低预测的性能时,所有的功能都是相关的,包含关于响应变量的信息。

您可以分类特征选择算法分为三种类型:

  • 过滤器类型特征选择- 过滤器类型特征选择算法测量功能基于所述特征,诸如特征方差和特征相关的响应特性的重要性。您选择的重要特征数据预处理步骤的一部分,然后训练使用选定的功能模型。因此,滤波器类型特征选择不相关的训练算法。

  • 包装类型特征选择- 该包装型特征选择算法开始使用的特征的子集的训练,然后添加或删除使用选择标准的特性。选择标准直接衡量模型性能的变化,从添加或删除功能的效果。该算法的重复训练提高到一个算法的停止标准满足的典范。

  • 嵌入式特征选择- 嵌入型特征选择算法获悉功能为模型的学习过程中的重要性。一旦你训练的模型,你获得的在训练模型的特征的重要性。这种类型的算法选择的特点是做工精良与特定的学习过程。

此外,您可以根据算法行列与否顺序功能分类特征选择算法。最小冗余最大相关性(MRMR)算法和逐步回归是顺序特征选择算法的两个实例。有关详细信息,请参阅顺序特征选择

对于回归问题,您可以直观地通过创建部分依赖图(PDP)和个体条件期望(ICE)图比较预测变量的重要性。有关详细信息,请参阅plotPartialDependence

对于分类问题,在选择功能后,你可以训练两种模式(例如,一个完整的模型和预测的一个子集训练的模型),并通过比较模型的精度compareHoldouttestcholdout, 要么testckfold功能。

特征选择是最好的功能转换时的原有的特色和他们的单位是重要的和造型的目标是找出一个有影响力的子集。当类别特征都存在,和数值变换是不合适的,特征选择成为降维的主要手段。

功能选择功能

统计和机器学习工具箱的特征选择提供了多种功能。请根据您的问题和数据类型的功能,相应的功能选择功能。

过滤器类型特征选择

功能 万博1manbetx支持问题 万博1manbetx支持的数据类型 描述
fscchi2 分类 分类和连续的特点

检查每个预测变量是否是独立的响应变量的,通过使用单独的卡方检验,以及使用所述秩然后设有p卡方检验统计量 - 值。

举例来说,看到的功能参考页fscchi2

fscmrmr 分类 分类和连续的特点

秩设有依次使用最小冗余最大相关性(MRMR)算法

举例来说,看到的功能参考页fscmrmr

fscnca* 分类 连续的特点

通过使用邻域成分分析(NCA)的对角自适应确定特征权重。该算法最适合估算基于距离的监督模型,观测之间使用成对的距离来预测应答功能的重要性。

有关详细信息,请参见功能参考页fscnca而这些主题:

fsrftest 回归 分类和连续的特点

检查每个预测单独使用的重要性F使用 - 测试,然后排名功能p的 - 值F- 测试统计数据。每F-test测试的假设,即由预测变量的值分组的响应值是从群体绘制与针对替代假设总体手段并不都是相同的相同的平均。

举例来说,看到的功能参考页fsrftest

fsrnca* 回归 连续的特点

通过使用邻域成分分析(NCA)的对角自适应确定特征权重。该算法最适合估算基于距离的监督模型,观测之间使用成对的距离来预测应答功能的重要性。

有关详细信息,请参见功能参考页fsrnca而这些主题:

fsulaplacian 无监督学习 连续的特点

排名功能使用拉普拉斯积分

举例来说,看到的功能参考页fsulaplacian

relieff 分类和回归 或者是所有类别或全部连续功能

排名功能使用ReliefF算法分类和RReliefF算法回归。该算法最适合估算基于距离的监督模型,观测之间使用成对的距离来预测应答功能的重要性。

举例来说,看到的功能参考页relieff

sequentialfs 分类和回归 或者是所有类别或全部连续功能

选择功能顺序使用自定义的标准。定义一个函数,数据的措施的特性来选择特征和功能句柄传递到sequentialfs功能。您可以通过使用指定顺序向前选择或向后的顺序选择'方向'名称 - 值对的参数。sequentialfs评估使用交叉验证的标准。

*您也可以考虑fscncafsrnca作为嵌入式特征选择功能,因为他们返回一个训练有素的模型对象,你可以使用对象功能预测失利。但是,您通常使用这些对象的功能来调整算法的调整参数。后选择功能使用fscnca要么fsrnca功能作为一个数据预处理步骤的一部分,你可以申请您的问题另一个分类或回归算法。

包装类型特征选择

功能 万博1manbetx支持问题 万博1manbetx支持的数据类型 描述
sequentialfs 分类和回归 或者是所有类别或全部连续功能

选择功能顺序使用自定义的标准。定义一个函数实现监督学习算法或函数,学习算法的性能的措施,并通过功能句柄sequentialfs功能。您可以通过使用指定顺序向前选择或向后的顺序选择'方向'名称 - 值对的参数。sequentialfs评估使用交叉验证的标准。

举例来说,看到的功能参考页sequentialfs而这些主题:

嵌入式特征选择

功能 万博1manbetx支持问题 万博1manbetx支持的数据类型 描述
DeltaPredictor一个物业ClassificationDiscriminant模型对象 线性判别分析分类 连续的特点

通过使用创建一个线性判别分析分类器fitcdiscr。训练的分类,返回ClassificationDiscriminant,存储在系数大小DeltaPredictor属性。您可以使用值DeltaPredictor作为预测重要措施。这个分类使用两个正则化参数γ和δ识别和删除冗余的预测。您可以通过获取这些参数的适当的值cvshrink功能或'OptimizeHyperparameters'名称 - 值对的参数。

例如,请参见以下主题:

fitcecoctemplateLinear 线性分类为多类学习高维数据 连续的特点

通过使用培养的线性分类模型fitcecoc和线性二进制学习者通过定义templateLinear。指定“正规化”templatelinear'套索'使用套索正规化。

对于一个示例,请参见查找使用交叉验证好套索处罚。本实施例中通过评估与使用不同的强度值的模型来确定良好套索-罚强度kfoldLoss。您也可以使用评价模型kfoldEdgekfoldMargin边缘失利, 要么余量

fitclinear 线性分类与高维数据的二进制学习 连续的特点

通过使用培养的线性分类模型fitclinear。指定“正规化”fitclinear'套索'使用套索正规化。

对于一个示例,请参见查找使用交叉验证AUC好套索处罚。本示例确定通过评估与使用AUC值不同强度值的模型良好的套索-惩罚强度。计算通过使用交叉验证后验概率类kfoldPredict,并计算通过使用AUC值perfcurve。您也可以使用评价模型kfoldEdgekfoldLosskfoldMargin边缘失利余量, 要么预测

fitrgp 回归 分类和连续的特点

通过使用训练高斯过程回归(GPR)模型fitrgp。设置'KernelFunction'名称 - 值对的参数使用自动相关性确定(ARD)。可用的选项有'ardsquaredexponential''ardexponential''ardmatern32''ardmatern52''ardrationalquadratic'。通过采取消极了解到长度尺度的指数查找预测的权重,存储在KernelInformation属性。

例如,请参见以下主题:

fitrlinear 线性回归高维数据 连续的特点

通过使用培养的线性回归模型fitrlinear。指定“正规化”fitrlinear'套索'使用套索正规化。

例如,请参见以下主题:

套索 线性回归 连续的特点

火车一元线性回归模型套索正规化使用套索。您可以通过使用指定套索对脊优化的重量'Α'名称 - 值对的参数。

举例来说,看到的功能参考页套索而这些主题:

lassoglm 广义线性回归 连续的特点

培养出广义线性回归模型套索正规化使用lassoglm。您可以通过使用指定套索对脊优化的重量'Α'名称 - 值对的参数。

有关详细信息,请参见功能参考页lassoglm而这些主题:

oobPermutedPredictorImportance**的ClassificationBaggedEnsemble 袋装决策树的集成分类(例如,随机森林) 分类和连续的特点

通过使用与培养学习者树袋装分类集成fitcensemble并指定'方法''袋'。然后,使用oobPermutedPredictorImportance计算乱袋,预测变量重要性估计在置换。该功能的措施如何影响模型的预测变量是在预测的响应。

举例来说,看到的函数引用页面和专题oobPermutedPredictorImportance

oobPermutedPredictorImportance**的RegressionBaggedEnsemble 回归袋装决策树的集合(例如,随机森林) 分类和连续的特点

通过培训袋装回归集成与树学习者fitrensemble并指定'方法''袋'。然后,使用oobPermutedPredictorImportance计算乱袋,预测变量重要性估计在置换。该功能的措施如何影响模型的预测变量是在预测的响应。

举例来说,看到的功能参考页oobPermutedPredictorImportance选择用于预测指标随机森林

predictorImportance**的ClassificationEnsemble 与决策树的集成分类 分类和连续的特点

通过培训与树学习者分类集成fitcensemble。然后,使用predictorImportance到的计算估计预测变量重要性对于乐团通过总结在风险的变化,由于在每一个预测和分支节点的数目除以和分裂。

举例来说,看到的功能参考页predictorImportance

predictorImportance**的ClassificationTree 用决策树分类 分类和连续的特点

通过培训分类树fitctree。然后,使用predictorImportance到的计算估计预测变量重要性在树中,由于在每一个预测分裂总结在风险变化和分支节点的数目除以总和。

举例来说,看到的功能参考页predictorImportance

predictorImportance**的RegressionEnsemble 回归与决策树的合奏 分类和连续的特点

通过训练回归集成与树学习者fitrensemble。然后,使用predictorImportance到的计算估计预测变量重要性对于乐团通过总结在风险的变化,由于在每一个预测和分支节点的数目除以和分裂。

举例来说,看到的功能参考页predictorImportance

predictorImportance**的RegressionTree 回归与决策树 分类和连续的特点

通过训练回归树fitrtree。然后,使用predictorImportance到的计算估计预测变量重要性在树中,由于在每一个预测分裂总结的均方误差(MSE)的变化和分支节点的数目除以总和。

举例来说,看到的功能参考页predictorImportance

stepwiseglm 广义线性回归 分类和连续的特点

通过使用利用逐步回归拟合广义线性回归模型stepwiseglm。另外,您也可以通过使用适合的线性回归模型fitglm然后调整通过使用模型。逐步回归是基于解释的响应变量的统计显着性的模型添加和删除方面的系统方法。

有关详细信息,请参见功能参考页stepwiseglm而这些主题:

stepwiselm 线性回归 分类和连续的特点

通过使用利用逐步回归拟合线性回归模型stepwiselm。另外,您也可以通过使用适合的线性回归模型fitlm然后调整通过使用模型。逐步回归是基于解释的响应变量的统计显着性的模型添加和删除方面的系统方法。

有关详细信息,请参见功能参考页stepwiselm而这些主题:

**对于基于树的算法,指定'PredictorSelection'“交互曲率”使用交互测试选择最佳分裂预测。的相互作用的测试是在许多不相关的变量的情况下识别重要的变量是有用的。此外,如果训练数据包括许多预测,然后指定'NumVariablesToSample''所有'为了训练。否则,软件可能无法选择一些预测,低估了它们的重要性。有关详细信息,请参阅fitctreefitrtreetemplateTree

参考

[1] Guyon的,伊莎贝尔,和A. Elisseeff。“简介变量和特征选择”。杂志的机器学习研究的。卷。3,2003年,第1157至1182年。

也可以看看

相关话题