主要内容

resubEdge

朴素贝叶斯分类器的再替换分类边

描述

例子

e= resubEdge (Mdl返回resubstitution分类的优势e)的朴素贝叶斯分类器Mdl使用存储在Mdl。X和相应的类标签存储在Mdl。Y

分类边是一个标量值,代表的加权平均值分类的利润率

例子

全部折叠

估计朴素贝叶斯分类器的再替换边(样本内平均分类边)。

加载fisheriris数据集。创建X作为一个数字矩阵,包含四个花瓣测量150鸢尾。创建Y作为字符向量的细胞阵列,包含相应的虹膜种类。

负载fisheririsX =量;Y =物种;rng (“默认”%的再现性

使用预测器训练朴素贝叶斯分类器X和类标签Y.推荐的做法是指定类名。fitcnb假设每个预测器都是有条件的正态分布。

Mdl = fitcnb (X, Y,“类名”, {“setosa”“多色的”“virginica”})
Mdl = ClassificationNaiveBayes ResponseName: 'Y' CategoricalPredictors: [] ClassNames: {'setosa' 'versicolor' 'virginica'} ScoreTransform: 'none' NumObservations: 150 DistributionNames: {'normal' ' 'normal' ' 'normal'} DistributionParameters: {3x4 cell}属性,方法

Mdl是一个培训ClassificationNaiveBayes分类器。

估计再替换边。

e = resubEdge (Mdl)
e = 0.8944

训练样本边缘的平均值近似为0.89.这一结果表明分类器对样本内观察值的标记具有较高的置信度。

分类器边缘测量分类器边缘的平均值。进行特征选择的一种方法是比较来自多个模型的训练样本边缘。仅根据这个准则,具有最高边的分类器就是最好的分类器。

加载电离层数据集。删除前两个预测稳定性的指标。

负载电离层X = X(:, 3:结束);

定义这两个数据集:

  • fullX包含所有预测。

  • partX包含10个最重要的预测因素。

fullX = X;idx = fscmrmr (X, Y);partX = X (:, idx (1:10));

为每个预测器集训练朴素贝叶斯分类器。

FullMdl = fitcnb (fullX Y);PartMdl = fitcnb (partX Y);

FullMdlPartMdl被训练ClassificationNaiveBayes分类器。

估计每个分类器的训练样本边缘。

fullEdge = resubEdge (FullMdl)
fullEdge = 0.6554
partEdge = resubEdge (PartMdl)
partEdge = 0.7796

在10个最重要的预测器上训练的分类器的边缘更大。这一结果表明,仅使用这些预测器训练的分类器具有更好的样本内拟合。

输入参数

全部折叠

完整的、训练有素的朴素贝叶斯分类器,指定为ClassificationNaiveBayes模型的训练,fitcnb

更多关于

全部折叠

分类的优势

分类的优势为分类边界的加权平均值。

如果您提供权重,那么软件将其归一化,使其与各自类别的先验概率相加。该软件使用归一化的权重来计算加权平均值。

当在多个分类器中选择要执行的任务,如特征部分,选择产生最高边缘的分类器。

分类的利润率

分类保证金每次观察的结果是真实班级的分数与错误班级的最高分数之间的差值。边际提供了一种分类置信度测度;在多个分类器中,那些产生较大利润(在同一规模上)的分类器更好。

后验概率

后验概率是在给定数据的情况下,某一观察结果属于某一类的概率。

对于朴素贝叶斯,分类的后验概率k对于给定的观测(x1、……xP)是

P Y k | x 1 .. x P P X 1 ... X P | y k π Y k P X 1 ... X P

地点:

  • P X 1 ... X P | y k 在课堂上给出预测器的条件关节密度吗kMdl。DistributionNames存储预测器的分布名称。

  • πYk)为类先验概率分布。Mdl。Prior存储先验分布。

  • P X 1 .. X P 为预测者的联合密度。这些类是离散的,所以 P X 1 ... X P k 1 K P X 1 ... X P | y k π Y k

先验概率

先验概率某一类的相对频率是该一类观察结果在总体中出现的相对频率。

分类分

天真的贝叶斯分数为给定观测值的类别后验概率。

介绍了R2014b