主要内容

介绍了特征选择

这个主题提供了一个介绍特征选择算法和描述统计和机器学习的特征选择功能工具箱™。

特征选择算法

特征选择降低数据的维数,选择只有一个子集的测量功能(预测变量)来创建一个模型。特征选择算法搜索的一个子集预测优化模型测量响应,受到约束等要求或排除特性和子集的大小。特征选择的主要好处是改善预测性能,提供更快和更具有成本效益的预测,并提供一个更好的理解数据生成过程[1]。使用太多的特性可以降低预测性能即使所有相关特性和控制反应变量的信息。

你可以分类特征选择算法分为三种类型:

  • 过滤器类型特征选择-过滤器类型特征选择算法措施功能重要性基于特性的特点,如方差特性和特性与响应之间的关系。您选择重要特性作为数据预处理步骤的一部分,然后火车模型使用选定的功能。因此,过滤类型特征选择算法是不相关的培训。

  • 包装器类型特征选择——包装器类型特征选择算法开始训练使用功能的一个子集,然后添加或删除功能使用选择标准。选择标准直接措施模型性能的变化,结果从添加或删除功能。算法重复培训和提高模型直到其停止标准得到满足。

  • 嵌入式特征选择——嵌入式特征选择算法学习功能重要性作为模型的学习过程的一部分。一旦你训练模型,获得特征训练模型的重要性。这种类型的算法选择特性,工作与一个特定的学习过程。

此外,您可以根据是否分类特征选择算法的算法排名顺序特性。最小冗余最大相关性(MRMR)算法和逐步回归是两个连续的特征选择算法的例子。有关详细信息,请参见连续的特征选择

你可以比较直观地预测变量的重要性通过创建部分依赖情节(PDP)和个人条件期望(ICE)情节。有关详细信息,请参见plotPartialDependence

对于分类问题,在选择功能,你可以训练两个模型(例如,一个完整的模型和模型训练与预测的一个子集)和比较模型的精度通过使用compareHoldout,testcholdout,或testckfold功能。

特征选择是更可取的特性转换时最初的特性和他们单位是重要的和建模的目标是确定一个有影响力的子集。当分类特性,数值转换是不恰当的,降维的特征选择成为主要的手段。

特征选择的功能

统计和机器学习工具箱提供了特征选择的几个函数。根据你的问题选择合适的特征选择函数和数据类型的特征。

过滤器类型特征选择

函数 万博1manbetx支持问题 万博1manbetx支持的数据类型 描述
fscchi2 分类 分类和连续的特性

检查是否每个预测变量是独立于响应变量用个人卡方测试,然后使用等级特性p卡方检验统计数据的值。

有关示例,请参见函数引用页面fscchi2

fscmrmr 分类 分类和连续的特性

排名功能按顺序使用最小冗余最大相关性(MRMR)算法

有关示例,请参见函数引用页面fscmrmr

fscnca* 分类 连续的特性

确定使用对角线附近组件的适应特征权值分析(NCA)。该算法适合评估功能基于距离监督模型的重要性,使用两两之间的距离观察预测响应。

详情,请参阅函数引用页面fscnca和这些主题:

fsrftest 回归 分类和连续的特性

检查每个预测单独使用的重要性F以及,然后使用等级特性p值的F以及统计数据。每一个F以及测试的假设预测响应值分组的变量值都来自相同的人口意味着对备择假设人口意味着并非都是相同的。

有关示例,请参见函数引用页面fsrftest

fsrmrmr 回归 分类和连续的特性

排名功能按顺序使用最小冗余最大相关性(MRMR)算法

有关示例,请参见函数引用页面fsrmrmr

fsrnca* 回归 连续的特性

确定使用对角线附近组件的适应特征权值分析(NCA)。该算法适合评估功能基于距离监督模型的重要性,使用两两之间的距离观察预测响应。

详情,请参阅函数引用页面fsrnca和这些主题:

fsulaplacian 无监督学习 连续的特性

排名功能使用拉普拉斯算子的分数

有关示例,请参见函数引用页面fsulaplacian

relieff 分类和回归 所有分类或连续的所有功能

排名功能使用ReliefF算法和分类RReliefF回归算法。该算法适合评估功能基于距离监督模型的重要性,使用两两之间的距离观察预测响应。

有关示例,请参见函数引用页面relieff

sequentialfs 分类和回归 所有分类或连续的所有功能

选择功能按顺序使用自定义标准。定义一个函数来衡量数据选择特性的特点,并通过函数句柄sequentialfs函数。您可以指定顺序向前选择或顺序向后选择使用“方向”名称-值对的论点。sequentialfs使用交叉验证评估标准。

*您还可以考虑fscncafsrnca作为嵌入式特征选择函数,因为他们返回一个训练有素的模型对象,您可以使用对象的功能预测损失。然而,你通常使用这些对象的函数来调整正则化参数的算法。在选择使用特性fscncafsrnca函数作为数据预处理步骤的一部分,您可以应用另一个分类或回归算法问题。

包装器类型特征选择

函数 万博1manbetx支持问题 万博1manbetx支持的数据类型 描述
sequentialfs 分类和回归 所有分类或连续的所有功能

选择功能按顺序使用自定义标准。定义一个函数,实现了一种监督学习算法或一个函数学习算法的性能的措施,并通过函数句柄sequentialfs函数。您可以指定顺序向前选择或顺序向后选择使用“方向”名称-值对的论点。sequentialfs使用交叉验证评估标准。

有关示例,请参见函数引用页面sequentialfs和这些主题:

嵌入式特征选择

函数 万博1manbetx支持问题 万博1manbetx支持的数据类型 描述
DeltaPredictor财产的ClassificationDiscriminant模型对象 线性判别分析分类 连续的特性

创建一个线性判别分析分类器通过使用fitcdiscr。训练分类器,返回ClassificationDiscriminant,存储系数的大小DeltaPredictor财产。您可以使用的值DeltaPredictor作为预测的措施的重要性。这个分类器使用两个正则化参数γ和δ识别和消除冗余预测。你可以获得这些参数通过使用适当的值cvshrink函数或“OptimizeHyperparameters”名称-值对的论点。

为例子,看到这些主题:

fitcecoctemplateLinear 线性分类与高维数据多级学习 连续的特性

火车通过使用线性分类模型fitcecoc和线性二进制学习者所定义的templateLinear。指定“正规化”templatelinear作为“套索”使用套索正规化。

例如,看到的找到好的套索惩罚使用交叉验证。这个例子中确定一个好的lasso-penalty强度通过评估模型具有不同强度值使用kfoldLoss。您还可以使用评价模型kfoldEdge,kfoldMargin,边缘,损失,或保证金

fitclinear 线性分类与高维数据二进制学习 连续的特性

火车通过使用线性分类模型fitclinear。指定“正规化”fitclinear作为“套索”使用套索正规化。

例如,看到的找到好的使用旨在AUC套索处罚。这个例子中确定一个好的lasso-penalty强度通过评估模型具有不同强度值使用AUC值。计算概率通过旨在后类kfoldPredict,并通过计算AUC值rocmetrics。您还可以使用评价模型kfoldEdge,kfoldLoss,kfoldMargin,边缘,损失,保证金,或预测

fitrgp 回归 分类和连续的特性

火车一个高斯过程回归(GPR)模型通过使用fitrgp。设置“KernelFunction”名称-值对参数使用自动相关性测定(ARD)。可用的选项是“ardsquaredexponential”,“ardexponential”,“ardmatern32”,“ardmatern52”,“ardrationalquadratic”。找到预测权重的指数的负面学习长度尺度,存储在KernelInformation财产。

为例子,看到这些主题:

fitrlinear 线性回归与高维数据 连续的特性

火车通过使用线性回归模型fitrlinear。指定“正规化”fitrlinear作为“套索”使用套索正规化。

为例子,看到这些主题:

套索 线性回归 连续的特性

火车一个线性回归模型套索正则化使用套索。您可以指定套索的重量与脊优化利用“α”名称-值对的论点。

有关示例,请参见函数引用页面套索和这些主题:

lassoglm 广义线性回归 连续的特性

火车一个广义线性回归模型套索正则化使用lassoglm。您可以指定套索的重量与脊优化利用“α”名称-值对的论点。

详情,请参阅函数引用页面lassoglm和这些主题:

oobPermutedPredictorImportance* *的ClassificationBaggedEnsemble 袋装的系综分类决策树(例如,随机森林) 分类和连续的特性

火车与树学习者通过使用袋装分类合奏fitcensemble并指定“方法”作为“包”。然后,用oobPermutedPredictorImportance来计算Out-of-Bag,预测估计排列重要性。函数衡量影响力预测变量预测模型的响应。

有关示例,请参见函数参考页面和话题oobPermutedPredictorImportance

oobPermutedPredictorImportance* *的RegressionBaggedEnsemble 回归的合奏袋装决策树(例如,随机森林) 分类和连续的特性

火车与树学习者通过使用袋装回归合奏fitrensemble并指定“方法”作为“包”。然后,用oobPermutedPredictorImportance来计算Out-of-Bag,预测估计排列重要性。函数衡量影响力预测变量预测模型的响应。

有关示例,请参见函数引用页面oobPermutedPredictorImportance选择随机森林预测因子

predictorImportance* *的ClassificationEnsemble 分类决策树的合奏 分类和连续的特性

训练一个分类树学习者通过使用合奏fitcensemble。然后,用predictorImportance计算的估计预测的重要性合奏的加法的变化由于分裂每个预测和风险之和除以分支节点的数量。

有关示例,请参见函数引用页面predictorImportance

predictorImportance* *的ClassificationTree 用决策树分类 分类和连续的特性

通过使用训练一个分类树fitctree。然后,用predictorImportance计算的估计预测的重要性树的加法的变化由于分裂每个预测和风险之和除以分支节点的数量。

有关示例,请参见函数引用页面predictorImportance

predictorImportance* *的RegressionEnsemble 回归的整体决策树 分类和连续的特性

火车与树学习者通过使用回归合奏fitrensemble。然后,用predictorImportance计算的估计预测的重要性合奏的加法的变化由于分裂每个预测和风险之和除以分支节点的数量。

有关示例,请参见函数引用页面predictorImportance

predictorImportance* *的RegressionTree 决策树的回归 分类和连续的特性

通过使用训练回归树fitrtree。然后,用predictorImportance计算的估计预测的重要性树的加法的变化均方误差(MSE)将在每一个预测和分裂之和除以分支节点的数量。

有关示例,请参见函数引用页面predictorImportance

stepwiseglm* * * 广义线性回归 分类和连续的特性

适合使用逐步回归利用广义线性回归模型stepwiseglm。或者,您可以通过使用线性回归模型fitglm然后通过调整模型一步。逐步回归是一个系统性的方法来添加和删除模型基于统计学意义的术语解释变量的响应。

详情,请参阅函数引用页面stepwiseglm和这些主题:

stepwiselm* * * 线性回归 分类和连续的特性

适合使用逐步回归通过使用线性回归模型stepwiselm。或者,您可以通过使用线性回归模型fitlm然后通过调整模型一步。逐步回归是一个系统性的方法来添加和删除模型基于统计学意义的术语解释变量的响应。

详情,请参阅函数引用页面stepwiselm和这些主题:

* *的基于树的算法,指定“PredictorSelection”作为“interaction-curvature”使用交互试验选择最佳的预测。交互测试是有用的识别重要的变量的存在许多不相关的变量。同样,如果训练数据包含许多预测,然后指定“NumVariablesToSample”作为“所有”进行训练。否则,软件可能不选择一些预测,低估了它们的重要性。有关详细信息,请参见fitctree,fitrtree,templateTree

* * *stepwiseglmstepwiselm不是包装器类型函数,因为你无法使用它们作为另一个训练函数的包装器。然而,这两个函数使用包装器类型算法找到重要的功能。

引用

[1]盖恩,伊莎贝尔和Elisseeff。“介绍变量和特征选择。”机器学习研究杂志》上。3卷,2003年,页1157 - 1182。

另请参阅

(生物信息学工具箱)

相关的话题