介绍了特征选择- MATLAB和Simulink MathWorks瑞士万博1manbetx - 万博1manbetx,s manbetx 845,万博尤文图斯

介绍了特征选择

这个主题提供了一个介绍特征选择算法和描述统计和机器学习的特征选择功能工具箱™。

特征选择算法

特征选择降低数据的维数,选择只有一个子集的测量功能(预测变量)来创建一个模型。特征选择算法搜索的一个子集预测优化模型测量响应,受到约束等要求或排除特性和子集的大小。特征选择的主要好处是改善预测性能,提供更快和更具有成本效益的预测,并提供一个更好的理解数据生成过程[1]。使用太多的特性可以降低预测性能即使所有相关特性和控制反应变量的信息。

你可以分类特征选择算法分为三种类型:

过滤器类型特征选择-过滤器类型特征选择算法措施功能重要性基于特性的特点,如方差特性和特性与响应之间的关系。您选择重要特性作为数据预处理步骤的一部分,然后火车模型使用选定的功能。因此,过滤类型特征选择算法是不相关的培训。
包装器类型特征选择——包装器类型特征选择算法开始训练使用功能的一个子集,然后添加或删除功能使用选择标准。选择标准直接措施模型性能的变化,结果从添加或删除功能。算法重复培训和提高模型直到其停止标准得到满足。
嵌入式特征选择——嵌入式特征选择算法学习功能重要性作为模型的学习过程的一部分。一旦你训练模型,获得特征训练模型的重要性。这种类型的算法选择特性,工作与一个特定的学习过程。

此外,您可以根据是否分类特征选择算法的算法排名顺序特性。最小冗余最大相关性(MRMR)算法和逐步回归是两个连续的特征选择算法的例子。有关详细信息,请参见连续的特征选择。

你可以比较直观地预测变量的重要性通过创建部分依赖情节(PDP)和个人条件期望(ICE)情节。有关详细信息,请参见plotPartialDependence。

对于分类问题,在选择功能,你可以训练两个模型(例如,一个完整的模型和模型训练与预测的一个子集)和比较模型的精度通过使用compareHoldout,testcholdout,或testckfold功能。

特征选择是更可取的特性转换时最初的特性和他们单位是重要的和建模的目标是确定一个有影响力的子集。当分类特性,数值转换是不恰当的,降维的特征选择成为主要的手段。

特征选择的功能

统计和机器学习工具箱提供了特征选择的几个函数。根据你的问题选择合适的特征选择函数和数据类型的特征。

过滤器类型特征选择

函数	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`fscchi2`	分类	分类和连续的特性	检查是否每个预测变量是独立于响应变量用个人卡方测试,然后使用等级特性p卡方检验统计数据的值。有关示例,请参见函数引用页面`fscchi2`。
`fscmrmr`	分类	分类和连续的特性	排名功能按顺序使用最小冗余最大相关性(MRMR)算法。有关示例,请参见函数引用页面`fscmrmr`。
`fscnca`*	分类	连续的特性	确定使用对角线附近组件的适应特征权值分析(NCA)。该算法适合评估功能基于距离监督模型的重要性,使用两两之间的距离观察预测响应。详情,请参阅函数引用页面`fscnca`和这些主题: 社区成分分析(NCA)特征选择调整正则化参数检测功能使用NCA分类
`fsrftest`	回归	分类和连续的特性	检查每个预测单独使用的重要性F以及,然后使用等级特性p值的F以及统计数据。每一个F以及测试的假设预测响应值分组的变量值都来自相同的人口意味着对备择假设人口意味着并非都是相同的。有关示例,请参见函数引用页面`fsrftest`。
`fsrmrmr`	回归	分类和连续的特性	排名功能按顺序使用最小冗余最大相关性(MRMR)算法。有关示例,请参见函数引用页面`fsrmrmr`。
`fsrnca`*	回归	连续的特性	确定使用对角线附近组件的适应特征权值分析(NCA)。该算法适合评估功能基于距离监督模型的重要性,使用两两之间的距离观察预测响应。详情,请参阅函数引用页面`fsrnca`和这些主题: 社区成分分析(NCA)特征选择健壮的特征选择使用NCA回归
`fsulaplacian`	无监督学习	连续的特性	排名功能使用拉普拉斯算子的分数。有关示例,请参见函数引用页面`fsulaplacian`。
`relieff`	分类和回归	所有分类或连续的所有功能	排名功能使用ReliefF算法和分类RReliefF回归算法。该算法适合评估功能基于距离监督模型的重要性,使用两两之间的距离观察预测响应。有关示例,请参见函数引用页面`relieff`。
`sequentialfs`	分类和回归	所有分类或连续的所有功能	选择功能按顺序使用自定义标准。定义一个函数来衡量数据选择特性的特点,并通过函数句柄`sequentialfs`函数。您可以指定顺序向前选择或顺序向后选择使用`“方向”`名称-值对的论点。`sequentialfs`使用交叉验证评估标准。

*您还可以考虑fscnca和fsrnca作为嵌入式特征选择函数,因为他们返回一个训练有素的模型对象,您可以使用对象的功能预测和损失。然而,你通常使用这些对象的函数来调整正则化参数的算法。在选择使用特性fscnca或fsrnca函数作为数据预处理步骤的一部分,您可以应用另一个分类或回归算法问题。

包装器类型特征选择

函数万博1manbetx支持问题万博1manbetx支持的数据类型描述

函数	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`sequentialfs`	分类和回归	所有分类或连续的所有功能	选择功能按顺序使用自定义标准。定义一个函数,实现了一种监督学习算法或一个函数学习算法的性能的措施,并通过函数句柄`sequentialfs`函数。您可以指定顺序向前选择或顺序向后选择使用`“方向”`名称-值对的论点。`sequentialfs`使用交叉验证评估标准。有关示例,请参见函数引用页面`sequentialfs`和这些主题: 选择比较预测能力的特征子集为高维数据分类选择特性

sequentialfs

分类和回归

所有分类或连续的所有功能

选择功能按顺序使用自定义标准。定义一个函数,实现了一种监督学习算法或一个函数学习算法的性能的措施,并通过函数句柄sequentialfs函数。您可以指定顺序向前选择或顺序向后选择使用“方向”名称-值对的论点。sequentialfs使用交叉验证评估标准。

有关示例,请参见函数引用页面sequentialfs和这些主题:

嵌入式特征选择

函数	万博1manbetx支持问题	万博1manbetx支持的数据类型	描述
`DeltaPredictor`财产的`ClassificationDiscriminant`模型对象	线性判别分析分类	连续的特性	创建一个线性判别分析分类器通过使用`fitcdiscr`。训练分类器,返回`ClassificationDiscriminant`,存储系数的大小`DeltaPredictor`财产。您可以使用的值`DeltaPredictor`作为预测的措施的重要性。这个分类器使用两个正则化参数γ和δ识别和消除冗余预测。你可以获得这些参数通过使用适当的值`cvshrink`函数或`“OptimizeHyperparameters”`名称-值对的论点。为例子,看到这些主题: 规范判别分析分类器优化判别分析模型
`fitcecoc`与`templateLinear`	线性分类与高维数据多级学习	连续的特性	火车通过使用线性分类模型`fitcecoc`和线性二进制学习者所定义的`templateLinear`。指定`“正规化”`的`templatelinear`作为`“套索”`使用套索正规化。例如,看到的找到好的套索惩罚使用交叉验证。这个例子中确定一个好的lasso-penalty强度通过评估模型具有不同强度值使用`kfoldLoss`。您还可以使用评价模型`kfoldEdge`,`kfoldMargin`,`边缘`,`损失`,或`保证金`。
`fitclinear`	线性分类与高维数据二进制学习	连续的特性	火车通过使用线性分类模型`fitclinear`。指定`“正规化”`的`fitclinear`作为`“套索”`使用套索正规化。例如,看到的找到好的使用旨在AUC套索处罚。这个例子中确定一个好的lasso-penalty强度通过评估模型具有不同强度值使用AUC值。计算概率通过旨在后类`kfoldPredict`,并通过计算AUC值`rocmetrics`。您还可以使用评价模型`kfoldEdge`,`kfoldLoss`,`kfoldMargin`,`边缘`,`损失`,`保证金`,或`预测`。
`fitrgp`	回归	分类和连续的特性	火车一个高斯过程回归(GPR)模型通过使用`fitrgp`。设置`“KernelFunction”`名称-值对参数使用自动相关性测定(ARD)。可用的选项是`“ardsquaredexponential”`,`“ardexponential”`,`“ardmatern32”`,`“ardmatern52”`,`“ardrationalquadratic”`。找到预测权重的指数的负面学习长度尺度,存储在`KernelInformation`财产。为例子,看到这些主题: 指定初始步长LBFGS优化比较NCA和ARD特征选择
`fitrlinear`	线性回归与高维数据	连续的特性	火车通过使用线性回归模型`fitrlinear`。指定`“正规化”`的`fitrlinear`作为`“套索”`使用套索正规化。为例子,看到这些主题: 找到好的套索惩罚使用回归损失找到好的套索惩罚使用交叉验证
`套索`	线性回归	连续的特性	火车一个线性回归模型套索正则化使用`套索`。您可以指定套索的重量与脊优化利用`“α”`名称-值对的论点。有关示例,请参见函数引用页面`套索`和这些主题: 套索正规化套索和交叉验证弹性网广泛的数据通过套索和并行计算
`lassoglm`	广义线性回归	连续的特性	火车一个广义线性回归模型套索正则化使用`lassoglm`。您可以指定套索的重量与脊优化利用`“α”`名称-值对的论点。详情,请参阅函数引用页面`lassoglm`和这些主题: 广义线性模型的套索正规化规范泊松回归规范逻辑回归调整宽数据并行
`oobPermutedPredictorImportance`* *的`ClassificationBaggedEnsemble`	袋装的系综分类决策树(例如,随机森林)	分类和连续的特性	火车与树学习者通过使用袋装分类合奏`fitcensemble`并指定`“方法”`作为`“包”`。然后,用`oobPermutedPredictorImportance`来计算Out-of-Bag,预测估计排列重要性。函数衡量影响力预测变量预测模型的响应。有关示例,请参见函数参考页面和话题`oobPermutedPredictorImportance`。
`oobPermutedPredictorImportance`* *的`RegressionBaggedEnsemble`	回归的合奏袋装决策树(例如,随机森林)	分类和连续的特性	火车与树学习者通过使用袋装回归合奏`fitrensemble`并指定`“方法”`作为`“包”`。然后,用`oobPermutedPredictorImportance`来计算Out-of-Bag,预测估计排列重要性。函数衡量影响力预测变量预测模型的响应。有关示例,请参见函数引用页面`oobPermutedPredictorImportance`和选择随机森林预测因子。
`predictorImportance`* *的`ClassificationEnsemble`	分类决策树的合奏	分类和连续的特性	训练一个分类树学习者通过使用合奏`fitcensemble`。然后,用`predictorImportance`计算的估计预测的重要性合奏的加法的变化由于分裂每个预测和风险之和除以分支节点的数量。有关示例,请参见函数引用页面`predictorImportance`。
`predictorImportance`* *的`ClassificationTree`	用决策树分类	分类和连续的特性	通过使用训练一个分类树`fitctree`。然后,用`predictorImportance`计算的估计预测的重要性树的加法的变化由于分裂每个预测和风险之和除以分支节点的数量。有关示例,请参见函数引用页面`predictorImportance`。
`predictorImportance`* *的`RegressionEnsemble`	回归的整体决策树	分类和连续的特性	火车与树学习者通过使用回归合奏`fitrensemble`。然后,用`predictorImportance`计算的估计预测的重要性合奏的加法的变化由于分裂每个预测和风险之和除以分支节点的数量。有关示例,请参见函数引用页面`predictorImportance`。
`predictorImportance`* *的`RegressionTree`	决策树的回归	分类和连续的特性	通过使用训练回归树`fitrtree`。然后,用`predictorImportance`计算的估计预测的重要性树的加法的变化均方误差(MSE)将在每一个预测和分裂之和除以分支节点的数量。有关示例,请参见函数引用页面`predictorImportance`。
`stepwiseglm`* * *	广义线性回归	分类和连续的特性	适合使用逐步回归利用广义线性回归模型`stepwiseglm`。或者,您可以通过使用线性回归模型`fitglm`然后通过调整模型`一步`。逐步回归是一个系统性的方法来添加和删除模型基于统计学意义的术语解释变量的响应。详情,请参阅函数引用页面`stepwiseglm`和这些主题: 广义线性模型使用分段算法广义线性模型广义线性模型的工作流
`stepwiselm`* * *	线性回归	分类和连续的特性	适合使用逐步回归通过使用线性回归模型`stepwiselm`。或者,您可以通过使用线性回归模型`fitlm`然后通过调整模型`一步`。逐步回归是一个系统性的方法来添加和删除模型基于统计学意义的术语解释变量的响应。详情,请参阅函数引用页面`stepwiselm`和这些主题: 逐步回归线性回归与交互作用评估使用t统计量回归系数的意义

* *的基于树的算法,指定“PredictorSelection”作为“interaction-curvature”使用交互试验选择最佳的预测。交互测试是有用的识别重要的变量的存在许多不相关的变量。同样,如果训练数据包含许多预测,然后指定“NumVariablesToSample”作为“所有”进行训练。否则,软件可能不选择一些预测,低估了它们的重要性。有关详细信息,请参见fitctree,fitrtree,templateTree。

* * *stepwiseglm和stepwiselm不是包装器类型函数,因为你无法使用它们作为另一个训练函数的包装器。然而,这两个函数使用包装器类型算法找到重要的功能。

引用

[1]盖恩,伊莎贝尔和Elisseeff。“介绍变量和特征选择。”机器学习研究杂志》上。3卷,2003年,页1157 - 1182。

另请参阅

rankfeatures(生物信息学工具箱)