ClassificationniveBayes类

超类:CompactClassificationNaiveBayes

天真的贝叶斯分类

描述

ClassificationniveBayes.是A.朴素贝叶斯用于多人学习的分类器。使用Fitcnb.和训练a的训练数据ClassificationniveBayes.分类器。

训练有素ClassificationniveBayes.分类器存储培训数据,参数值,数据分发和先前概率。您可以将这些分类器用过:

  • 估计重述预测。有关详细信息,请参阅重新预订

  • 预测新数据的标签或后验概率。有关详细信息,请参阅预测

建筑

创建A.ClassificationniveBayes.通过使用Fitcnb.

属性

展开所有

分类预测索引指定为正整数的向量。分类预测器包含与包含分类预测器的预测器数据列对应的索引值。如果没有任何预测器是绝对的,则此属性为空([])。

数据类型:单身|双人间

多变量多项级水平,指定为数字向量的单元格向量。CategoricalLevels长度等于预测器的数量(尺寸(x,2))。

的细胞CategoricalLevels对应于您指定为的预测器'mvmn'(即,在培训期间具有多变量多元分布)。不对应于多变量多变量分布的细胞是空的([])。

如果预测器j是多元多项式吗类别物流{j}是预测器的所有不同值的列表j在样品中(年代从唯一(x(:,j)))。

数据类型:细胞

不同的类名称,指定为分类或字符阵列,逻辑或数字矢量或字符向量的单元格向量。

Classnames.是与之相同的数据类型y,并有K.字符数组的元素或行。(该软件将字符串数组视为字符向量的单元格阵列。)

数据类型:分类|char|逻辑|单身|双人间|细胞

误分类成本,指定为K.-K.方矩阵。

的价值成本(i, j)是将一个点分类为课程的成本j如果它的真实课程是.行和列的顺序成本对应于类的顺序Classnames.

的价值成本不影响培训。你可以重置成本训练后Mdl使用点符号,例如:mdl.cost = [0 0.5;1 0];

数据类型:双人间|单身

预测器分布Fitcnb.用于模拟预测器,指定为字符向量或字符向量阵列。

此表总结了可用的分布。

价值 描述
'仁' 内核平滑密度估计。
“锰” 多项式袋 - 令牌模型.表示所有预测器都具有这种分布。
'mvmn' 多变量多项式分布。
'正常' 正常(高斯)分布。

如果分布是一个1-by-P.字符向量的单元格数组,然后软件模型功能j使用元素中的分布j细胞阵列。

数据类型:char|细胞

分布参数估计,指定为单元阵列。分发参数是A.K.-D.细胞阵列,其中细胞(K.D.)包含预测器的实例的分发参数估计D.在课堂上K..行的顺序对应于属性中类的顺序Classnames.,并且预测器的顺序对应于列的顺序X.

如果是课程K.没有对预测器的观察吗j那么分配{K.j}是空的([])。

元素分发参数取决于预测器的分布。此表描述了值分发参数{K.j}

分布的预测j 价值
内核 A.k模型。使用单元索引和点表示法显示属性。例如,为了在第三类中显示预测器2的核心密度的估计带宽,使用mdl.distributionParameters {3,2} .BandWidth
表示该标记的概率的标量j出现在课堂上K..有关详细信息,请参阅算法
mvmn 一个数字向量,包含每个可能级别的预测器的概率j在课堂上K..该软件通过所有独特的预测器的排序顺序排序概率j(存放在物业内CategoricalLevels)。有关更多详细信息,请参阅算法
正常 一个2乘1的数字向量。第一个元素是样本均值,第二个元素是样本标准差。

数据类型:细胞

扩展的预测器名称,存储为字符向量的单元格数组。

如果模型使用对分类变量的编码,那么ExpandedPredictorNames.包括描述扩展变量的名称。否则,ExpandedPredictorNames.是一样的预测

数据类型:细胞

封立参数的交叉验证优化的描述,指定为aBayesianOptimization对象或包含超参数和关联值的表。该属性是非空的'OptimizeHyperParameters'在创建模型时,名称-值对参数是非空的。的价值HyperParameterOptimationResults.取决于优化器田野HyperparameterOptimizationOptions结构,如表中所述。

价值优化器田野 价值HyperParameterOptimationResults.
'Bayesopt'(默认) 类的对象BayesianOptimization
'gridsearch''randomsearch' 使用的超参数表,观察到的客观函数值(交叉验证丢失),以及从最低(最佳)到最高(最差)的观测等级

内核更平滑的类型,指定为字符向量或字符向量的单元数组。内核长度等于预测器的数量(尺寸(x,2))。内核{j}对应于预测器j,并包含一个字符向量,描述内核类型更平滑的类型。此表描述了支持的内核更平滑的类型。万博1manbetx让我们{表示指示灯函数。

价值 内核 惯例
'盒子' 盒子(制服)

F. X. = 0.5 { | X. | ≤. 1 }

'Epanechnikov' Epanechnikov.

F. X. = 0.75 1 - X. 2 { | X. | ≤. 1 }

'正常' 高斯

F. X. = 1 2 π exp. - 0.5 X. 2

'三角形' 三角形

F. X. = 1 - | X. | { | X. | ≤. 1 }

如果一个单元格为空([]),则该软件没有将内核分布与相应的预测器匹配。

数据类型:char|细胞

用于训练分类器的参数值(例如名称值对参数值),指定为对象。此表总结了属性模特分析者.属性对应于为训练分类器而设置的名称-值对参数值。

财产 目的
分发名称 数据分发或分布。这与属性相同分发名称
内核 内核更平滑的类型。这与属性相同内核
方法 训练方法。对于天真的贝叶斯,价值是'天真宝贝'
万博1manbetx 内核平滑密度支持。万博1manbetx这与属性相同万博1manbetx
type 学习类型。对于分类,价值是'分类'
宽度 内核平滑窗口宽度。这与属性相同宽度

访问字段模特分析者使用点符号。例如,使用万博1manbetxmdl.modelparameters.万博1manbetxsupport.

培训观测数量指定为数字标量。

如果X.y那时包含缺失值numobservations.可能小于长度y

数据类型:双人间

预测名称,指定为字符向量的单元数组。元素的顺序预测对应于订单X.

数据类型:细胞

类前面的概率,指定为数字行向量。之前是一个1-by-K.向量,其元素的顺序对应于元素Classnames.

Fitcnb.使用名称值对参数标准化您设置的先前概率“先前”那么总和(先前)=1

的价值之前不会改变最佳拟合模型。因此,您可以重置之前训练后Mdl使用点符号,例如:mdl.prior = [0.2 0.8];

数据类型:双人间|单身

响应名称,指定为字符向量。

数据类型:char

分类分数转换功能,指定为字符向量或功能句柄。

将分数转换功能更改为例如,函数,使用点表示法。

  • 对于内置功能,请输入此代码并替换函数使用表中的值。

    mdl.scoretransform ='函数”;

    价值 描述
    “doublelogit” 1 /(1 +E.-2X.
    'invlogit' 日志(X./(1 -X.))
    'ismax' 将具有最大分数的类设置为1的分数,并将所有其他类的分数设置为0
    'logit' 1 /(1 +E.-X.
    '没有''身份' X.(转换)
    '签名' -1 for.X.< 0
    0X.= 0
    1X.> 0
    '对称' 2X.- 1
    'ymmetricismax' 将具有最大分数为1的类设置分数,并将所有其他类的分数设置为-1
    'symmetriclogit' 2 / (1 +E.-X.) - 1

  • 对于一个MATLAB®函数或您定义的函数,输入其函数句柄。

    Mdl。ScoreTransform = @函数;

    函数应该接受矩阵(原始分数)并返回相同大小的矩阵(转换的分数)。

数据类型:char|function_handle.

核平滑密度支持,指定为细胞向量。万博1manbetx万博1manbetx长度等于预测器的数量(尺寸(x,2))。细胞代表施加核密度的区域。

此表介绍了支持的选项。万博1manbetx

价值 描述
1-by-2数字行向量 例如,[L,U],在哪里L.是针对密度支持的有限下限和上限。万博1manbetx
'积极' 密度支持都是正的实值。万博1manbetx
“无限” 密度支持都是真实值。万博1manbetx

如果一个单元格为空([]),则该软件没有将内核分布与相应的预测器匹配。

观察权重,指定为数字矢量。

长度W.numobservations.

Fitcnb.将为名称-值对参数设置的值规范化'重量'使特定类别中的权重到该类的先前概率。

数据类型:双人间

内核更平滑的窗口宽度,指定为数字矩阵。宽度是A.K.-P.矩阵,其中K.是数据中的类数,以及P.是预测器的数量(尺寸(x,2))。

宽度(K.j是预测器的内核平滑密度的内核更平滑的窗口宽度j内部类K.在列j表明该软件不适合预测因素j使用核心密度。

非标准化预测器数据,指定为数字矩阵。X.numobservations.行和P.列。

每一行的X.对应于一个观察,并且每列对应于一个变量。

软件排除由于缺失值删除的行X.

数据类型:双人间

观察到的类标签,指定为分类或字符数组,逻辑或数字矢量或字符向量的单元格数组。y与输入参数相同的数据类型yFitcnb.(该软件将字符串数组视为字符向量的单元格阵列。)

每一行的y表示观察到的相应行分类X.

该软件因来自的值缺失而排除了删除的元素y

数据类型:分类|char|逻辑|单身|双人间|细胞

方法

紧凑 紧凑朴素贝叶斯分类器
横梁 交叉验证的天真贝叶斯分类器
重新提交 朴素贝叶斯分类器边的再替换分类
resubLoss 朴素贝叶斯分类器的再替换分类损失
重新提交 朴素贝叶斯分类器的再替换分类裕度
重新预订 预测幼稚贝叶斯分类器的重新提交标签

继承的方法

边缘 朴素贝叶斯分类器的分类边缘
logP 天真贝叶斯分类器的无条件概率密度
损失 天真贝叶斯分类器的分类错误
边缘 天真贝叶斯分类器的分类利润
预测 使用Naive Bayes分类模型预测标签

复制语义

价值。要了解值类如何影响复制操作,请参见复制对象(MATLAB)。

例子

全部折叠

为Fisher的Iris数据构建一个天真的贝母分类器。此外,培训后指定现有概率。

负载Fisher的虹膜数据。

加载fisheririsx = meas;y =物种;

X.是一个数字矩阵,其包含150个虹膜的四个花瓣测量。y是包含相应的IRIS物种的字符向量的单元阵列。

训练一个天真的贝叶斯分类器。

mdl = fitcnb(x,y)
mdl = classificationnaivebayes racatectename:'y'pationoricalpricictors:[] classnames:{'setosa''versicolor''virginica'} scoreTransform:'none'numobservations:150分发名称:{'正常''正常''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''':{3x4 Cell}属性,方法

Mdl是训练有素的ClassificationniveBayes.分类器,它的一些属性显示在命令窗口中。默认情况下,软件将每个预测器视为独立的,并使用正态分布拟合它们。

访问属性Mdl,使用点表示法。

Mdl。Classnames.
ans =3 x1细胞{'setosa'} {'versicolor'} {'virginica'}
Mdl。P.rior
ans =1×30.3333 0.3333 0.3333

Mdl。P.rior包含类先验概率,可以使用名称-值对参数设置“先前”Fitcnb..课程的顺序对应于类中的顺序Mdl。Classnames..默认情况下,先前概率是数据中类的相应相对频率。

您还可以在训练后重新设置先验概率。例如,将先验概率分别设置为0.5、0.2和0.3。

mdl.prior = [0.5 0.2 0.3];

你可以通过Mdl到例如预测标记新测量,或横梁交叉验证分类器。

更多关于

展开所有

算法

  • 如果您指定“DistributionNames”、“锰”训练时Mdl使用Fitcnb.,然后软件使用的是使用多项分布袋 - 令牌模型.该软件存储令牌的概率j出现在课堂上K.在物业中分发参数{K.j}.使用添加剂平滑[2],估计的概率是

    P. 令牌 j | 班级 K. = 1 + C. j | K. P. + C. K.

    在哪里:

    • C. j | K. = N K. σ. y 班级 K. X. j W. σ. y 班级 K. W. ; 令牌的加权出现次数是多少j在课堂上K.

    • NK.是课堂上的观察数K.

    • W. 是观察的重量.该软件在类中将权重标准化,使得它们总和到该类的先前概率。

    • C. K. = σ. j = 1 P. C. j | K. ; 这是课堂上所有令牌的总重量次数K.

  • 如果您指定'分发名称','mvmn'训练时Mdl使用Fitcnb.然后:

    1. 对于每个预测器,软件会收集一个独特关卡的列表,并将排序后的列表存储在其中CategoricalLevels,并将每一层视为一个容器。每个预测器/类组合是一个独立的,独立的多项随机变量。

    2. 为预测j在课堂上K.,软件使用存储在中的列表计算每个分类级别的实例类别物流{j}

    3. 该软件存储预测器的概率j,在课堂上K.,有水平L.在物业中分发参数{K.j},为所有层次类别物流{j}.使用添加剂平滑[2],估计的概率是

      P. 预测指标 j = L. | 班级 K. = 1 + m j | K. L. m j + m K.

      在哪里:

      • m j | K. L. = N K. σ. y 班级 K. { X. j = L. } W. σ. y 班级 K. W. ; 这是预测器的重量观察数j=L.在课堂上K.

      • NK.是课堂上的观察数K.

      • { X. j = L. } = 1 如果X.ij=L.,否则为0。

      • W. 是观察的重量.该软件在类中将权重标准化,使得它们总和到该类的先前概率。

      • mj是预测器中的不同水平的数量j

      • mK.是课堂上的重量的观察数K.

参考资料

[1] Hastie,T.,R. Tibshirani和J. Friedman。统计学习的要素,第二版。纽约:施普林格,2008年。

[2] Manning, c.d., P. Raghavan, M. Schütze。信息检索介绍,纽约:剑桥大学出版社,2008。

扩展能力