特征选择简介
本主题介绍了特征选择算法,并描述了统计和机器学习工具箱™中可用的特征选择函数。
特征选择算法
特征选择通过只选择测量特征(预测变量)的子集来创建模型,从而降低数据的维数。特征选择算法搜索预测因子的子集,这些预测因子对测量的响应进行了优化建模,受到诸如必需或排除的特征以及子集的大小等约束。特征选择的主要好处是提高预测性能,提供更快、更经济的预测器,并更好地理解数据生成过程[1].使用太多的特征会降低预测性能,即使所有特征都是相关的,并且包含关于响应变量的信息。
你可以将特征选择算法分为三种:
滤波器类型特征选择-过滤型特征选择算法根据特征的特征来衡量特征的重要性,如特征方差和特征与响应的相关性。选择重要的特征作为数据预处理步骤的一部分,然后使用所选特征训练模型。因此,滤波器类型特征选择与训练算法不相关。
包装器类型特征选择-包装器类型特征选择算法开始使用特征子集进行训练,然后使用选择标准添加或删除特征。选择标准直接衡量添加或删除特征所导致的模型性能变化。该算法重复训练和改进模型,直到满足停止条件。
嵌入式类型特征选择-嵌入式类型特征选择算法学习特征的重要性作为模型学习过程的一部分。一旦你训练了一个模型,你就会得到训练过的模型中特征的重要性。这种类型的算法选择适合特定学习过程的特征。
此外,您还可以根据算法是否按顺序对特征进行排序来对特征选择算法进行分类。最小冗余最大相关性(MRMR)算法和逐步回归是序列特征选择算法的两个例子。详细信息请参见顺序特征选择.
通过创建部分依赖图(PDP)和个人条件期望图(ICE),可以直观地比较预测变量的重要性。详细信息请参见plotPartialDependence
.
对于分类问题,在选择特征后,可以训练两个模型(例如,一个完整模型和一个用预测器子集训练的模型),并使用compareHoldout
,testcholdout
,或testckfold
功能。
当原始特征及其单元很重要且建模目标是识别一个有影响的子集时,特征选择优于特征转换。当存在分类特征,且数值变换不合适时,特征选择就成为降维的主要手段。
特征选择功能
统计和机器学习工具箱提供了几个功能的特征选择。根据您的问题和特征的数据类型选择适当的特征选择函数。
滤波器类型特征选择
函数 | 万博1manbetx支持问题 | 万博1manbetx支持数据类型 | 描述 |
---|---|---|---|
fscchi2 |
分类 | 范畴性和连续性特征 | 使用单独的卡方检验检查每个预测变量是否独立于响应变量,然后使用卡方检验对特征进行排序p-卡方检验统计值。 有关示例,请参见函数参考页 |
fscmrmr |
分类 | 范畴性和连续性特征 | 属性对特征进行排序最小冗余最大相关性(MRMR)算法. 有关示例,请参见函数参考页 |
fscnca * |
分类 | 连续的特性 | 通过使用对角线自适应邻域分量分析(NCA)确定特征权重。该算法最适合用于估计基于距离的监督模型的特征重要性,该模型使用观察值之间的成对距离来预测响应。 具体操作请参见功能参考页面 |
fsrftest |
回归 | 范畴性和连续性特征 | 检查每个预测的重要性单独使用F-test,然后使用p的-值F以及统计数据。每一个F-test检验一个假设,即由预测变量值分组的响应值来自具有相同均值的总体,而另一个假设是总体均值不完全相同。 有关示例,请参见函数参考页 |
fsrmrmr |
回归 | 范畴性和连续性特征 | 属性对特征进行排序最小冗余最大相关性(MRMR)算法. 有关示例,请参见函数参考页 |
fsrnca * |
回归 | 连续的特性 | 通过使用对角线自适应邻域分量分析(NCA)确定特征权重。该算法最适合用于估计基于距离的监督模型的特征重要性,该模型使用观察值之间的成对距离来预测响应。 具体操作请参见功能参考页面 |
fsulaplacian |
无监督学习 | 连续的特性 | 使用拉普拉斯算子的分数. 有关示例,请参见函数参考页 |
relieff |
分类与回归 | 要么全部范畴特征,要么全部连续特征 | 使用ReliefF算法的分类和RReliefF回归算法。该算法最适合用于估计基于距离的监督模型的特征重要性,该模型使用观察值之间的成对距离来预测响应。 有关示例,请参见函数参考页 |
sequentialfs |
分类与回归 | 要么全部范畴特征,要么全部连续特征 | 使用自定义条件按顺序选择特征。定义一个函数,该函数测量数据的特征以选择特征,并将函数句柄传递给 |
你也可以考虑fscnca
而且fsrnca
作为嵌入类型的特征选择函数,因为它们返回一个训练过的模型对象,并且您可以使用对象函数预测
而且损失
.但是,通常使用这些对象函数来调优算法的正则化参数。选择功能后使用fscnca
或fsrnca
函数作为数据预处理步骤的一部分,您可以为您的问题应用另一种分类或回归算法。
包装器类型特征选择
函数 | 万博1manbetx支持问题 | 万博1manbetx支持数据类型 | 描述 |
---|---|---|---|
sequentialfs |
分类与回归 | 要么全部范畴特征,要么全部连续特征 | 使用自定义条件按顺序选择特征。定义实现监督学习算法的函数或度量学习算法性能的函数,并将函数句柄传递给 有关示例,请参见函数参考页 |
嵌入式类型特征选择
函数 | 万博1manbetx支持问题 | 万博1manbetx支持数据类型 | 描述 |
---|---|---|---|
DeltaPredictor 的属性ClassificationDiscriminant 模型对象 |
线性判别分析分类 | 连续的特性 | 创建一个线性判别分析分类器 有关示例,请参阅这些主题: |
fitcecoc 与templateLinear |
用于高维数据多类学习的线性分类 | 连续的特性 | 训练线性分类模型 有关示例,请参见使用交叉验证找到好的套索惩罚.本例通过评估具有不同强度值的模型来确定一个良好的套索惩罚强度 |
fitclinear |
高维数据二值学习的线性分类 | 连续的特性 | 训练线性分类模型 有关示例,请参见使用交叉验证AUC找到好的套索惩罚.本例通过使用AUC值评估具有不同强度值的模型来确定一个良好的套索惩罚强度。计算交叉验证的后验类概率 |
fitrgp |
回归 | 范畴性和连续性特征 | 训练高斯过程回归(GPR)模型 有关示例,请参阅这些主题: |
fitrlinear |
高维数据的线性回归 | 连续的特性 | 训练线性回归模型 有关示例,请参阅这些主题: |
套索 |
线性回归 | 连续的特性 | 训练线性回归模型套索使用正则化 有关示例,请参见函数参考页 |
lassoglm |
广义线性回归 | 连续的特性 | 训练广义线性回归模型套索使用正则化 具体操作请参见功能参考页面 |
oobPermutedPredictorImportance * *的ClassificationBaggedEnsemble |
使用袋装决策树集合进行分类(例如,随机森林) | 范畴性和连续性特征 | 用树学习器训练袋装分类集合 有关示例,请参见函数参考页和主题 |
oobPermutedPredictorImportance * *的RegressionBaggedEnsemble |
使用袋装决策树集合的回归(例如,随机森林) | 范畴性和连续性特征 | 用树学习器训练袋装回归集合 有关示例,请参见函数参考页 |
predictorImportance * *的ClassificationEnsemble |
用决策树集合进行分类 | 范畴性和连续性特征 | 用树学习器训练分类集合 有关示例,请参见函数参考页 |
predictorImportance * *的ClassificationTree |
用决策树进行分类 | 范畴性和连续性特征 | 训练分类树 有关示例,请参见函数参考页 |
predictorImportance * *的RegressionEnsemble |
使用决策树集合的回归 | 范畴性和连续性特征 | 用树学习器训练一个回归集合 有关示例,请参见函数参考页 |
predictorImportance * *的RegressionTree |
用决策树进行回归 | 范畴性和连续性特征 | 使用训练回归树 有关示例,请参见函数参考页 |
stepwiseglm *** |
广义线性回归 | 范畴性和连续性特征 | 用逐步回归拟合广义线性回归模型 具体操作请参见功能参考页面 |
stepwiselm *** |
线性回归 | 范畴性和连续性特征 | 用逐步回归拟合线性回归模型 具体操作请参见功能参考页面 |
**对于基于树的算法,请指定“PredictorSelection”
作为“interaction-curvature”
使用交互测试来选择最佳的分裂预测器。交互测试在存在许多不相关变量时识别重要变量是有用的。此外,如果训练数据包含许多预测因子,则指定“NumVariablesToSample”
作为“所有”
进行训练。否则,软件可能不会选择某些预测因子,从而低估了它们的重要性。详细信息请参见fitctree
,fitrtree
,templateTree
.
***stepwiseglm
而且stepwiselm
不是包装器类型函数,因为不能将它们用作另一个训练函数的包装器。但是,这两个函数使用包装器类型算法来查找重要的特性。
参考文献
盖恩、伊莎贝尔和A.埃利塞夫。“变量和特征选择的介绍。”机器学习研究杂志。Vol. 3, 2003, pp. 1157-1182。
另请参阅
rankfeatures
(生物信息学工具箱)