介绍了特征选择
这个主题提供了一个介绍特征选择算法和描述统计和机器学习的特征选择功能工具箱™。
特征选择算法
特征选择降低数据的维数,选择只有一个子集的测量功能(预测变量)来创建一个模型。特征选择算法搜索的一个子集预测优化模型测量响应,受到约束等要求或排除特性和子集的大小。特征选择的主要好处是改善预测性能,提供更快和更具有成本效益的预测,并提供一个更好的理解数据生成过程[1]。使用太多的特性可以降低预测性能即使所有相关特性和控制反应变量的信息。
你可以分类特征选择算法分为三种类型:
此外,您可以根据是否分类特征选择算法的算法排名顺序特性。最小冗余最大相关性(MRMR)算法和逐步回归是两个连续的特征选择算法的例子。有关详细信息,请参见连续的特征选择。
你可以比较直观地预测变量的重要性通过创建部分依赖情节(PDP)和个人条件期望(ICE)情节。有关详细信息,请参见plotPartialDependence
。
对于分类问题,在选择功能,你可以训练两个模型(例如,一个完整的模型和模型训练与预测的一个子集)和比较模型的精度通过使用compareHoldout
,testcholdout
,或testckfold
功能。
特征选择是更可取的特性转换时最初的特性和他们单位是重要的和建模的目标是确定一个有影响力的子集。当分类特性,数值转换是不恰当的,降维的特征选择成为主要的手段。
特征选择的功能
统计和机器学习工具箱提供了特征选择的几个函数。根据你的问题选择合适的特征选择函数和数据类型的特征。
过滤器类型特征选择
函数 | 万博1manbetx支持问题 | 万博1manbetx支持的数据类型 | 描述 |
---|---|---|---|
fscchi2 |
分类 | 分类和连续的特性 | 检查是否每个预测变量是独立于响应变量用个人卡方测试,然后使用等级特性p卡方检验统计数据的值。 有关示例,请参见函数引用页面 |
fscmrmr |
分类 | 分类和连续的特性 | 排名功能按顺序使用最小冗余最大相关性(MRMR)算法。 有关示例,请参见函数引用页面 |
fscnca * |
分类 | 连续的特性 | 确定使用对角线附近组件的适应特征权值分析(NCA)。该算法适合评估功能基于距离监督模型的重要性,使用两两之间的距离观察预测响应。 详情,请参阅函数引用页面 |
fsrftest |
回归 | 分类和连续的特性 | 检查每个预测单独使用的重要性F以及,然后使用等级特性p值的F以及统计数据。每一个F以及测试的假设预测响应值分组的变量值都来自相同的人口意味着对备择假设人口意味着并非都是相同的。 有关示例,请参见函数引用页面 |
fsrmrmr |
回归 | 分类和连续的特性 | 排名功能按顺序使用最小冗余最大相关性(MRMR)算法。 有关示例,请参见函数引用页面 |
fsrnca * |
回归 | 连续的特性 | 确定使用对角线附近组件的适应特征权值分析(NCA)。该算法适合评估功能基于距离监督模型的重要性,使用两两之间的距离观察预测响应。 详情,请参阅函数引用页面 |
fsulaplacian |
无监督学习 | 连续的特性 | 排名功能使用拉普拉斯算子的分数。 有关示例,请参见函数引用页面 |
relieff |
分类和回归 | 所有分类或连续的所有功能 | 排名功能使用ReliefF算法和分类RReliefF回归算法。该算法适合评估功能基于距离监督模型的重要性,使用两两之间的距离观察预测响应。 有关示例,请参见函数引用页面 |
sequentialfs |
分类和回归 | 所有分类或连续的所有功能 | 选择功能按顺序使用自定义标准。定义一个函数来衡量数据选择特性的特点,并通过函数句柄 |
*您还可以考虑fscnca
和fsrnca
作为嵌入式特征选择函数,因为他们返回一个训练有素的模型对象,您可以使用对象的功能预测
和损失
。然而,你通常使用这些对象的函数来调整正则化参数的算法。在选择使用特性fscnca
或fsrnca
函数作为数据预处理步骤的一部分,您可以应用另一个分类或回归算法问题。
包装器类型特征选择
函数 | 万博1manbetx支持问题 | 万博1manbetx支持的数据类型 | 描述 |
---|---|---|---|
sequentialfs |
分类和回归 | 所有分类或连续的所有功能 | 选择功能按顺序使用自定义标准。定义一个函数,实现了一种监督学习算法或一个函数学习算法的性能的措施,并通过函数句柄 有关示例,请参见函数引用页面 |
嵌入式特征选择
函数 | 万博1manbetx支持问题 | 万博1manbetx支持的数据类型 | 描述 |
---|---|---|---|
DeltaPredictor 财产的ClassificationDiscriminant 模型对象 |
线性判别分析分类 | 连续的特性 | 创建一个线性判别分析分类器通过使用 为例子,看到这些主题: |
fitcecoc 与templateLinear |
线性分类与高维数据多级学习 | 连续的特性 | 火车通过使用线性分类模型 例如,看到的找到好的套索惩罚使用交叉验证。这个例子中确定一个好的lasso-penalty强度通过评估模型具有不同强度值使用 |
fitclinear |
线性分类与高维数据二进制学习 | 连续的特性 | 火车通过使用线性分类模型 例如,看到的找到好的使用旨在AUC套索处罚。这个例子中确定一个好的lasso-penalty强度通过评估模型具有不同强度值使用AUC值。计算概率通过旨在后类 |
fitrgp |
回归 | 分类和连续的特性 | 火车一个高斯过程回归(GPR)模型通过使用 为例子,看到这些主题: |
fitrlinear |
线性回归与高维数据 | 连续的特性 | 火车通过使用线性回归模型 为例子,看到这些主题: |
套索 |
线性回归 | 连续的特性 | 火车一个线性回归模型套索正则化使用 有关示例,请参见函数引用页面 |
lassoglm |
广义线性回归 | 连续的特性 | 火车一个广义线性回归模型套索正则化使用 详情,请参阅函数引用页面 |
oobPermutedPredictorImportance * *的ClassificationBaggedEnsemble |
袋装的系综分类决策树(例如,随机森林) | 分类和连续的特性 | 火车与树学习者通过使用袋装分类合奏 有关示例,请参见函数参考页面和话题 |
oobPermutedPredictorImportance * *的RegressionBaggedEnsemble |
回归的合奏袋装决策树(例如,随机森林) | 分类和连续的特性 | 火车与树学习者通过使用袋装回归合奏 有关示例,请参见函数引用页面 |
predictorImportance * *的ClassificationEnsemble |
分类决策树的合奏 | 分类和连续的特性 | 训练一个分类树学习者通过使用合奏 有关示例,请参见函数引用页面 |
predictorImportance * *的ClassificationTree |
用决策树分类 | 分类和连续的特性 | 通过使用训练一个分类树 有关示例,请参见函数引用页面 |
predictorImportance * *的RegressionEnsemble |
回归的整体决策树 | 分类和连续的特性 | 火车与树学习者通过使用回归合奏 有关示例,请参见函数引用页面 |
predictorImportance * *的RegressionTree |
决策树的回归 | 分类和连续的特性 | 通过使用训练回归树 有关示例,请参见函数引用页面 |
stepwiseglm * * * |
广义线性回归 | 分类和连续的特性 | 适合使用逐步回归利用广义线性回归模型 详情,请参阅函数引用页面 |
stepwiselm * * * |
线性回归 | 分类和连续的特性 | 适合使用逐步回归通过使用线性回归模型 详情,请参阅函数引用页面 |
* *的基于树的算法,指定“PredictorSelection”
作为“interaction-curvature”
使用交互试验选择最佳的预测。交互测试是有用的识别重要的变量的存在许多不相关的变量。同样,如果训练数据包含许多预测,然后指定“NumVariablesToSample”
作为“所有”
进行训练。否则,软件可能不选择一些预测,低估了它们的重要性。有关详细信息,请参见fitctree
,fitrtree
,templateTree
。
* * *stepwiseglm
和stepwiselm
不是包装器类型函数,因为你无法使用它们作为另一个训练函数的包装器。然而,这两个函数使用包装器类型算法找到重要的功能。
引用
[1]盖恩,伊莎贝尔和Elisseeff。“介绍变量和特征选择。”机器学习研究杂志》上。3卷,2003年,页1157 - 1182。
另请参阅
rankfeatures
(生物信息学工具箱)