本主题将介绍特征选择算法,并介绍了统计和机器学习工具箱™提供的功能选择功能。
特征选择通过仅选择的测量的特征(预测变量)的子集来创建模型降低了数据的维数。特征选择算法搜索该最佳模型测量的响应,受约束,如需要或排除特征和子集的大小预测器的一个子集。特征选择的主要好处是提高预测性能,提供更快,更具成本效益的预测,并提供更好的理解数据的生成过程[1]。使用太多的功能,甚至可以降低预测的性能时,所有的功能都是相关的,包含关于响应变量的信息。
您可以分类特征选择算法分为三种类型:
过滤器类型特征选择- 过滤器类型特征选择算法测量功能基于所述特征,诸如特征方差和特征相关的响应特性的重要性。您选择的重要特征数据预处理步骤的一部分,然后训练使用选定的功能模型。因此,滤波器类型特征选择不相关的训练算法。
包装类型特征选择- 该包装型特征选择算法开始使用的特征的子集的训练,然后添加或删除使用选择标准的特性。选择标准直接衡量模型性能的变化,从添加或删除功能的效果。该算法的重复训练提高到一个算法的停止标准满足的典范。
嵌入式特征选择- 嵌入型特征选择算法获悉功能为模型的学习过程中的重要性。一旦你训练的模型,你获得的在训练模型的特征的重要性。这种类型的算法选择的特点是做工精良与特定的学习过程。
此外,您可以根据算法行列与否顺序功能分类特征选择算法。最小冗余最大相关性(MRMR)算法和逐步回归是顺序特征选择算法的两个实例。有关详细信息,请参阅顺序特征选择。
对于回归问题,您可以直观地通过创建部分依赖图(PDP)和个体条件期望(ICE)图比较预测变量的重要性。有关详细信息,请参阅plotPartialDependence
。
对于分类问题,在选择功能后,你可以训练两种模式(例如,一个完整的模型和预测的一个子集训练的模型),并通过比较模型的精度compareHoldout
,testcholdout
, 要么testckfold
功能。
特征选择是最好的功能转换时的原有的特色和他们的单位是重要的和造型的目标是找出一个有影响力的子集。当类别特征都存在,和数值变换是不合适的,特征选择成为降维的主要手段。
统计和机器学习工具箱的特征选择提供了多种功能。请根据您的问题和数据类型的功能,相应的功能选择功能。
功能 | 万博1manbetx支持问题 | 万博1manbetx支持的数据类型 | 描述 |
---|---|---|---|
fscchi2 |
分类 | 分类和连续的特点 | 检查每个预测变量是否是独立的响应变量的,通过使用单独的卡方检验,以及使用所述秩然后设有p卡方检验统计量 - 值。 举例来说,看到的功能参考页 |
fscmrmr |
分类 | 分类和连续的特点 | 秩设有依次使用最小冗余最大相关性(MRMR)算法。 举例来说,看到的功能参考页 |
fscnca * |
分类 | 连续的特点 | 通过使用邻域成分分析(NCA)的对角自适应确定特征权重。该算法最适合估算基于距离的监督模型,观测之间使用成对的距离来预测应答功能的重要性。 有关详细信息,请参见功能参考页 |
fsrftest |
回归 | 分类和连续的特点 | 检查每个预测单独使用的重要性F使用 - 测试,然后排名功能p的 - 值F- 测试统计数据。每F-test测试的假设,即由预测变量的值分组的响应值是从群体绘制与针对替代假设总体手段并不都是相同的相同的平均。 举例来说,看到的功能参考页 |
fsrnca * |
回归 | 连续的特点 | 通过使用邻域成分分析(NCA)的对角自适应确定特征权重。该算法最适合估算基于距离的监督模型,观测之间使用成对的距离来预测应答功能的重要性。 有关详细信息,请参见功能参考页 |
fsulaplacian |
无监督学习 | 连续的特点 | 排名功能使用拉普拉斯积分。 举例来说,看到的功能参考页 |
relieff |
分类和回归 | 或者是所有类别或全部连续功能 | 排名功能使用ReliefF算法分类和RReliefF算法回归。该算法最适合估算基于距离的监督模型,观测之间使用成对的距离来预测应答功能的重要性。 举例来说,看到的功能参考页 |
sequentialfs |
分类和回归 | 或者是所有类别或全部连续功能 | 选择功能顺序使用自定义的标准。定义一个函数,数据的措施的特性来选择特征和功能句柄传递到 |
*您也可以考虑fscnca
和fsrnca
作为嵌入式特征选择功能,因为他们返回一个训练有素的模型对象,你可以使用对象功能预测
和失利
。但是,您通常使用这些对象的功能来调整算法的调整参数。后选择功能使用fscnca
要么fsrnca
功能作为一个数据预处理步骤的一部分,你可以申请您的问题另一个分类或回归算法。
功能 | 万博1manbetx支持问题 | 万博1manbetx支持的数据类型 | 描述 |
---|---|---|---|
sequentialfs |
分类和回归 | 或者是所有类别或全部连续功能 | 选择功能顺序使用自定义的标准。定义一个函数实现监督学习算法或函数,学习算法的性能的措施,并通过功能句柄 举例来说,看到的功能参考页 |
功能 | 万博1manbetx支持问题 | 万博1manbetx支持的数据类型 | 描述 |
---|---|---|---|
DeltaPredictor 一个物业ClassificationDiscriminant 模型对象 |
线性判别分析分类 | 连续的特点 | 通过使用创建一个线性判别分析分类器 例如,请参见以下主题: |
fitcecoc 同templateLinear |
线性分类为多类学习高维数据 | 连续的特点 | 通过使用培养的线性分类模型 对于一个示例,请参见查找使用交叉验证好套索处罚。本实施例中通过评估与使用不同的强度值的模型来确定良好套索-罚强度 |
fitclinear |
线性分类与高维数据的二进制学习 | 连续的特点 | 通过使用培养的线性分类模型 对于一个示例,请参见查找使用交叉验证AUC好套索处罚。本示例确定通过评估与使用AUC值不同强度值的模型良好的套索-惩罚强度。计算通过使用交叉验证后验概率类 |
fitrgp |
回归 | 分类和连续的特点 | 通过使用训练高斯过程回归(GPR)模型 例如,请参见以下主题: |
fitrlinear |
线性回归高维数据 | 连续的特点 | 通过使用培养的线性回归模型 例如,请参见以下主题: |
套索 |
线性回归 | 连续的特点 | 火车一元线性回归模型套索正规化使用 举例来说,看到的功能参考页 |
lassoglm |
广义线性回归 | 连续的特点 | 培养出广义线性回归模型套索正规化使用 有关详细信息,请参见功能参考页 |
oobPermutedPredictorImportance **的ClassificationBaggedEnsemble |
袋装决策树的集成分类(例如,随机森林) | 分类和连续的特点 | 通过使用与培养学习者树袋装分类集成 举例来说,看到的函数引用页面和专题 |
oobPermutedPredictorImportance **的RegressionBaggedEnsemble |
回归袋装决策树的集合(例如,随机森林) | 分类和连续的特点 | 通过培训袋装回归集成与树学习者 举例来说,看到的功能参考页 |
predictorImportance **的ClassificationEnsemble |
与决策树的集成分类 | 分类和连续的特点 | 通过培训与树学习者分类集成 举例来说,看到的功能参考页 |
predictorImportance **的ClassificationTree |
用决策树分类 | 分类和连续的特点 | 通过培训分类树 举例来说,看到的功能参考页 |
predictorImportance **的RegressionEnsemble |
回归与决策树的合奏 | 分类和连续的特点 | 通过训练回归集成与树学习者 举例来说,看到的功能参考页 |
predictorImportance **的RegressionTree |
回归与决策树 | 分类和连续的特点 | 通过训练回归树 举例来说,看到的功能参考页 |
stepwiseglm |
广义线性回归 | 分类和连续的特点 | 通过使用利用逐步回归拟合广义线性回归模型 有关详细信息,请参见功能参考页 |
stepwiselm |
线性回归 | 分类和连续的特点 | 通过使用利用逐步回归拟合线性回归模型 有关详细信息,请参见功能参考页 |
**对于基于树的算法,指定'PredictorSelection'
如“交互曲率”
使用交互测试选择最佳分裂预测。的相互作用的测试是在许多不相关的变量的情况下识别重要的变量是有用的。此外,如果训练数据包括许多预测,然后指定'NumVariablesToSample'
如'所有'
为了训练。否则,软件可能无法选择一些预测,低估了它们的重要性。有关详细信息,请参阅fitctree
,fitrtree
和templateTree
。
[1] Guyon的,伊莎贝尔,和A. Elisseeff。“简介变量和特征选择”。杂志的机器学习研究的。卷。3,2003年,第1157至1182年。