主要内容

模型建立与评估

特征选择、特征工程、模型选择、超参数优化、交叉验证、预测性能评估和分类精度比较测试

在构建高质量的预测分类模型时,选择正确的特征(或预测器)和调优超参数(未估计的模型参数)非常重要。

特征选择和超参数调优可以产生多个模型。你可以比较k-fold误分类率,受试者工作特征(ROC)曲线,或模型之间的混淆矩阵。或者,进行统计测试,以检测一个分类模型是否显著优于另一个分类模型。

要在训练分类模型之前设计新特征,请使用gencfeatures

要以交互方式构建和评估分类模型,请使用分类学习者应用程序。

若要自动选择具有调优超参数的模型,请使用fitcauto.这个函数尝试选择具有不同超参数值的分类模型类型,并返回预期在新数据上表现良好的最终模型。使用fitcauto当你不确定哪种分类器类型最适合你的数据时。

要调优特定模型的超参数,请选择超参数值并使用这些值交叉验证模型。例如,要调优SVM模型,请选择一组框约束和内核尺度,然后为每对值交叉验证模型。某些统计和机器学习工具箱™分类功能通过贝叶斯优化、网格搜索或随机搜索提供自动超参数调优。然而,用于实现贝叶斯优化的主要函数,bayesopt,在其他应用程序中使用足够灵活。看到贝叶斯优化流程

要解释分类模型,可以使用石灰沙普利,plotPartialDependence

应用程序

分类学习者 训练模型使用监督机器学习对数据进行分类

功能

全部展开

fscchi2 使用卡方检验进行单变量特征排序分类
fscmrmr 采用最小冗余最大相关性(MRMR)算法对特征进行分类排序
fscnca 使用邻域成分分析进行特征选择分类
oobPermutedPredictorImportance 通过对随机森林分类树的袋外预测器观测的排列估计预测器重要性
predictorImportance 分类树预测因子重要性的估计
predictorImportance 决策树分类集合中预测因子重要性的估计
sequentialfs 使用自定义标准的顺序特征选择
relieff 使用ReliefF或RReliefF算法对预测因子的重要性进行排序
gencfeatures 执行自动特征工程进行分类
描述 描述生成的特性
变换 使用生成的特征转换新数据
fitcauto 利用优化的超参数自动选择分类模型
bayesopt 使用贝叶斯优化选择最优的机器学习超参数
hyperparameters 优化拟合函数的变量描述
optimizableVariable 变量描述bayesopt或其他优化器
crossval 使用交叉验证估计损失
cvpartition 为交叉验证划分数据
重新分区 重新划分数据以进行交叉验证
测验 交叉验证的测试指标
培训 交叉验证的训练指标

局部可解释模型不可知解释(LIME)

石灰 局部可解释模型不可知解释(LIME)
适合 局部可解释模型不可知解释(LIME)拟合简单模型
情节 局部可解释模型不可知解释(LIME)的图结果

沙普利值

沙普利 沙普利值
适合 计算查询点的Shapley值
情节 Plot Shapley价值观

部分依赖

partialDependence 计算部分依赖关系
plotPartialDependence 创建部分依赖图(PDP)和个别条件期望图(ICE)
confusionchart 为分类问题创建混淆矩阵图
confusionmat 计算分类问题的混淆矩阵
perfcurve 接收者工作特征(ROC)曲线或分类器输出的其他性能曲线
testcholdout 比较两种分类模型的预测精度
testckfold 通过重复交叉验证比较两种分类模型的准确性

对象

全部展开

FeatureSelectionNCAClassification 基于邻域成分分析(NCA)的分类特征选择
FeatureTransformer 生成的特征转换
BayesianOptimization 贝叶斯优化结果

主题

分类学习者App

在分类学习App中训练分类模型

用于训练、比较和改进分类模型的工作流,包括自动、手动和并行训练。

评估分类学习者中的分类器性能

比较模型精度分数,通过绘制类预测来可视化结果,并在混淆矩阵中检查每个类的性能。

使用分类学习App进行特征选择和特征转换

使用图表识别有用的预测因子,手动选择要包含的特征,并使用分类学习器中的PCA转换特征。

特征选择

特征选择简介

了解特征选择算法,并探索可用于特征选择的功能。

顺序特征选择

本主题介绍了顺序特征选择,并提供了使用自定义标准和顺序选择特征的示例sequentialfs函数。

邻域成分分析(NCA)特征选择

邻域成分分析(NCA)是一种以最大化回归和分类算法预测精度为目标的特征选择的非参数方法。

调整正则化参数,使用NCA进行分类

这个例子展示了如何调优正则化参数fscnca使用交叉验证。

正则化判别分析分类器

在不影响模型预测能力的情况下,通过删除预测器来创建更健壮、更简单的模型。

为高维数据分类选择特征

这个例子展示了如何选择特征来分类高维数据。

工程特性

分类自动化特征工程

使用gencfeatures在训练分类模型之前设计新特征。在对新数据进行预测之前,对新数据集应用相同的特征转换。

自动模型选择

贝叶斯优化自动分类器选择

使用fitcauto给出训练预测器和响应数据,自动尝试选择具有不同超参数值的分类模型类型。

Hyperparameter优化

贝叶斯优化流程

使用拟合函数或调用来执行贝叶斯优化bayesopt直接。

贝叶斯优化的变量

为贝叶斯优化创建变量。

贝叶斯优化目标函数

创建贝叶斯优化的目标函数。

贝叶斯优化中的约束

为贝叶斯优化设置不同类型的约束。

利用bayesopt优化交叉验证的SVM分类器

使用贝叶斯优化最小化交叉验证损失。

利用贝叶斯优化SVM分类器的拟合

使交叉验证损失最小化OptimizeParameters拟合函数中的名称-值对。

贝叶斯优化图函数

可视化地监视贝叶斯优化。

贝叶斯优化输出函数

监视贝叶斯优化。

贝叶斯优化算法

理解贝叶斯优化的底层算法。

并行贝叶斯优化

贝叶斯优化如何并行工作。

模型的解释

解释机器学习模型

解释模型预测石灰沙普利,plotPartialDependence

机器学习模型的Shapley值

使用两种算法计算机器学习模型的Shapley值:kernelSHAP和kernelSHAP的扩展。

交叉验证

使用并行计算实现交叉验证

使用并行计算加速交叉验证。

分类性能评估

性能曲线

使用接收器工作特性曲线检查分类算法在特定测试数据集上的性能。