主要内容

保证金

神经网络分类器的分类边缘

    描述

    例子

    =利润(Mdl资源描述ResponseVarName返回分类的利润率用于训练的神经网络分类器Mdl使用表中的预测数据资源描述的类标签ResponseVarName表变量。

    作为数字向量返回,其第Th项对应于th观察资源描述

    =利润(Mdl资源描述Y返回分类器的分类边距Mdl使用表中的预测数据资源描述以及vector中的类标签Y

    =利润(MdlXY返回训练的神经网络分类器的分类边缘Mdl使用预测数据X和相应的类标签Y

    作为数字向量返回,其第Th项对应于th观察X

    =利润(MdlXY“ObservationsIn”,指定预测器数据观察维度“行”(默认)或“列”.例如,指定“ObservationsIn”、“列”指示预测器数据中的列与观测值对应。

    例子

    全部折叠

    计算神经网络分类器的测试集分类边缘。

    加载病人数据集。从数据集创建一个表。每一行对应一个病人,每一列对应一个诊断变量。使用吸烟者变量作为响应变量,其余变量作为预测变量。

    负载病人台=表(舒张压、收缩压、性别、身高、体重、年龄、吸烟);

    将数据分离到一个训练集tblTrain和一个测试集tblTest通过使用分层的抵抗层分区。该软件为测试数据集保留大约30%的观察值,并将其余的观察值用于训练数据集。

    rng (“默认”分区的再现性c = cvpartition(资源描述。抽烟,“坚持”, 0.30);trainingIndices =培训(c);testIndices =测试(c);tblTrain =(资源(trainingIndices:);tblTest =(资源(testIndices:);

    使用训练集训练神经网络分类器。指定吸烟者列的tblTrain作为响应变量。指定以标准化数值预测器。

    Mdl = fitcnet (tblTrain,“抽烟”...“标准化”,真正的);

    计算测试集分类边缘。因为测试集只包含30个观察值,所以使用条形图显示边缘。

    m =利润率(Mdl tblTest,“抽烟”);酒吧(m)包含(“观察”) ylabel (“保证金”)标题(“测试集利润率”

    只有第6项和第28项观测值的边际值为负,这表明该模型总体表现良好。

    通过比较测试集分类边缘、边缘、错误和预测来进行特征选择。将使用所有预测器训练的模型的测试集度量与仅使用预测器子集训练的模型的测试集度量进行比较。

    加载示例文件fisheriris.csv,其中包括鸢尾资料,包括萼片长度,萼片宽度,花瓣长度,花瓣宽度和种类型。将文件读入表中。

    fishertable = readtable (“fisheriris.csv”);

    将数据分离到一个训练集trainTbl和一个测试集testTbl通过使用分层的抵抗层分区。该软件为测试数据集保留大约30%的观察值,并将其余的观察值用于训练数据集。

    rng (“默认”) c = cvpartition(钓鱼台。物种,“坚持”, 0.3);trainTbl = fishertable(培训(c):);testTbl = fishertable(测试(c):);

    使用训练集中的所有预测器训练一个神经网络分类器,并使用所有的预测器训练另一个分类器PetalWidth.对于这两个模型,指定物种作为响应变量,并标准化预测器。

    allMdl = fitcnet (trainTbl,“物种”“标准化”,真正的);subsetMdl = fitcnet (trainTbl,“种~ SepalLength + SepalWidth + PetalLength”...“标准化”,真正的);

    计算两个模型的测试集分类裕度。因为测试集只包含45个观察值,所以使用柱状图显示边缘。

    对于每个观察,分类边缘是真实类别的分类评分与错误类别的最大评分之间的差值。因为神经网络分类器返回的分类分数是后验概率,接近1的边缘值表示有信心分类,负边缘值表示错误分类。

    tiledlayout (2, 1)%顶轴ax₁= nexttile;allMargins =利润率(allMdl testTbl);栏(ax₁,allMargins)包含(ax₁“观察”) ylabel (ax₁,“保证金”)标题(ax₁,“预测”%底部轴ax2 = nexttile;subsetMargins =利润率(subsetMdl testTbl);栏(ax2 subsetMargins)包含(ax2,“观察”) ylabel (ax2,“保证金”)标题(ax2,“子集预测”

    比较两个模型的测试集分类边缘,或分类边缘的平均值。

    allEdge =边缘(allMdl testTbl)
    allEdge = 0.8198
    subsetEdge =边缘(subsetMdl testTbl)
    subsetEdge = 0.9556

    基于测试集分类边缘和边缘,在预测器子集上训练的模型似乎优于在所有预测器上训练的模型。

    比较两种模型的测试集分类误差。

    allError =损失(allMdl testTbl);allAccuracy = 1-allError
    allAccuracy = 0.9111
    subsetError =损失(subsetMdl testTbl);subsetAccuracy = 1-subsetError
    subsetAccuracy = 0.9778

    同样,只使用预测器的一个子集训练的模型似乎比使用所有预测器训练的模型表现得更好。

    使用混淆矩阵可视化测试集分类结果。

    allLabels =预测(allMdl testTbl);图confusionchart (testTbl.Species allLabels)标题(“预测”

    subsetLabels =预测(subsetMdl testTbl);图confusionchart (testTbl.Species subsetLabels)标题(“子集预测”

    使用所有预测器训练的模型将测试集观察值中的四个错误分类。使用预测器子集训练的模型只对一个测试集的观测结果进行了错误分类。

    给定两个模型的测试集性能,考虑使用使用所有预测器训练的模型,除了PetalWidth

    输入参数

    全部折叠

    训练的神经网络分类器,指定为ClassificationNeuralNetwork模型对象或CompactClassificationNeuralNetwork返回的模型对象fitcnet紧凑的,分别。

    样本数据,指定为表。每一行的资源描述对应一个观察值,每一列对应一个预测变量。可选地,资源描述可以包含响应变量的附加列。资源描述必须包含所有用于训练的预测因子吗Mdl.除了字符向量的单元格数组之外,不允许使用多列变量和单元格数组。

    • 如果资源描述包含用于训练的响应变量Mdl,则不需要指定ResponseVarNameY

    • 如果你训练Mdl使用表中包含的样例数据,然后输入数据保证金也必须在表中。

    • 如果你设置“标准化”,真的fitcnet当训练Mdl,然后软件使用相应的平均值和标准差对预测数据的数字列进行标准化。

    数据类型:表格

    中的响应变量名,指定为变量名资源描述.如果资源描述包含用于训练的响应变量Mdl,则不需要指定ResponseVarName

    如果您指定ResponseVarName,则必须将其指定为字符向量或字符串标量。例如,如果响应变量存储为资源描述。Y,然后指定ResponseVarName作为“Y”.否则,软件将对所有列进行处理资源描述,包括资源描述。Y预测因子。

    response变量必须是一个分类数组、字符数组或字符串数组;逻辑或数字向量;或者字符向量的单元格数组。如果响应变量是一个字符数组,那么每个元素必须对应数组的一行。

    数据类型:字符|字符串

    类标签,指定为类别数组、字符数组或字符串数组;逻辑或数字向量;或字符向量的单元格数组。

    • 的数据类型Y必须与的数据类型相同Mdl。一会(该软件将字符串数组视为字符向量的单元格数组。)

    • 不同的阶级Y一定是?的子集Mdl。一会

    • 如果Y是字符数组,则每个元素必须与数组的一行相对应。

    • 的长度Y必须等于观测的次数X资源描述

    数据类型:分类|字符|字符串|逻辑|||细胞

    预测器数据,指定为数字矩阵。默认情况下,保证金假设每一行X对应一个观察值,每一列对应一个预测变量。

    请注意

    如果您对预测器矩阵进行定位,使观察结果与列对应并指定“ObservationsIn”、“列”,那么您可能会经历计算时间的显著减少。

    的长度Y观察的次数X必须是相等的。

    如果你设置“标准化”,真的fitcnet当训练Mdl,然后软件使用相应的平均值和标准差对预测数据的数字列进行标准化。

    数据类型:|

    预测器数据观测维数,指定为“行”“列”

    请注意

    如果您对预测器矩阵进行定位,使观察结果与列对应并指定“ObservationsIn”、“列”,那么您可能会经历计算时间的显著减少。你不能指定“ObservationsIn”、“列”用于表中的预测器数据。

    数据类型:字符|字符串

    更多关于

    全部折叠

    分类的优势

    分类的优势平均值是多少分类的利润率

    在多个分类器中进行选择的一种方法是,例如执行特征选择,选择产生最大边的分类器。

    分类保证金

    分类保证金二元分类是,对于每个观察,真实类的分类分数与虚假类的分类分数之间的差值。的分类保证金多类分类是真实类的分类分数与错误类的最大分类分数的差值。

    如果边界在相同的尺度上(即,得分值基于相同的得分转换),那么它们将作为分类置信度度量。在众多分类公司中,那些利润率更高的公司表现更好。

    介绍了R2021a