主要内容

templateNaiveBayes

朴素贝叶斯分类器模板

描述

例子

t= templateNaiveBayes ()返回一个朴素贝叶斯适合训练纠错输出代码(ECOC)多类模型的模板。

如果指定默认模板,则软件在训练期间对所有输入参数使用默认值。

指定t作为一名fitcecoc

例子

t= templateNaiveBayes (名称,值返回带有由一个或多个名称-值对参数指定的附加选项的模板。所有的属性t是空的,除了您指定使用名称,值对参数。

例如,您可以为预测器指定分布。

如果你显示t,则所有选项显示为空([]),但使用名称-值对参数指定的除外。在培训期间,软件对空选项使用默认值。

例子

全部折叠

使用templateNaiveBayes指定默认的朴素贝叶斯模板。

t = templateNaiveBayes ()
t =拟合模板进行分类。DistributionNames: [1x0 double] Kernel: [] 万博1manbetxSupport: [] Width: [] Version: 1 Method: 'NaiveBayes' Type: 'classification'

模板对象的所有属性都为空,除了方法类型.当你通过t对于训练函数,软件用它们各自的默认值填充空属性。例如,软件填充DistributionNames属性带有1-by-D带有字符向量的单元格数组“正常”在每个单元格中D是预测器的数量。其他默认值请参见fitcnb

t是一个幼稚的贝叶斯学习者的计划,当您指定它时,不会发生计算。你可以通过tfitcecoc为ECOC多类学习指定朴素贝叶斯二元学习者。

创建一个非默认的朴素贝叶斯模板用于fitcecoc

载入费雪的虹膜数据集。

负载fisheriris

为朴素贝叶斯二元分类器创建一个模板,并为所有预测器指定内核分布。

t = templateNaiveBayes (“DistributionNames”“内核”
t =拟合模板进行分类。DistributionNames: 'kernel' kernel: [] 万博1manbetxSupport: [] Width: [] Version: 1 Method: 'NaiveBayes' Type: 'classification'

模板对象的所有属性都为空,除了DistributionNames方法,类型.当你通过t对于训练函数,软件用它们各自的默认值填充空属性。

指定t作为ECOC多类模型的二元学习者。

Mdl = fitcecoc(量、种类、“学习者”t);

默认情况下,软件会进行训练Mdl使用一对一编码设计。

显示样本内(再替换)误分类错误。

L = resubLoss (Mdl,“LossFun”“classiferror”
L = 0.0333

输入参数

全部折叠

名称-值参数

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

例子:“DistributionNames”、“锰”指定将所有预测器视为多项模型的令牌计数。

数据分布fitcnb用于对数据建模,指定为逗号分隔的对,由“DistributionNames”以及字符向量或字符串标量、字符串数组或字符向量单元格数组。

价值 描述
“内核” 核平滑密度估计。
“锰” 多项分布。如果您指定,则所有特征都是多项式分布的组成部分。因此,不能包含“锰”作为字符串数组或字符向量的单元格数组的元素。有关详细信息,请参见算法
“mvmn” 多元多项式分布。有关详细信息,请参见算法
“正常” 正态(高斯)分布。

如果指定字符向量或字符串标量,则软件将使用该分布建模所有特征。如果你指定一个1乘-P字符串数组或单元格数组的字符向量,然后软件模型的特征j使用元素中的分布j的数组。

默认情况下,软件将所有指定的预测器设置为分类预测器(使用CategoricalPredictors名称-值对参数)“mvmn”.否则,默认分布为“正常”

必须指定至少一个预测器具有分布“内核”另外指定内核万博1manbetx,或宽度

例子:“DistributionNames”、“锰”

例子:DistributionNames,{“内核”、“正常”、“内核”}

内核平滑类型,指定为逗号分隔对组成“内核”以及字符向量或字符串标量、字符串数组或字符向量的单元格数组。

这个表总结了设置核平滑密度区域的可用选项。让u}表示指示函数。

价值 内核 公式
“盒子” 框(统一)

f x 0.5 | x | 1

“epanechnikov” Epanechnikov

f x 0.75 1 x 2 | x | 1

“正常” 高斯

f x 1 2 π 经验值 0.5 x 2

“三角形” 三角

f x 1 | x | | x | 1

如果你指定一个1乘-P字符串数组或单元格数组,数组中的每个元素都包含表中的任意值,然后软件使用元素中的内核平滑类型训练分类器j为特征jX.该软件忽略的元素内核不对应于一个分布是“内核”

必须指定至少一个预测器具有分布“内核”另外指定内核万博1manbetx,或宽度

例子:“内核”,{“epanechnikov”、“正常”}

核平滑密度支持,指定为逗号分隔对组成万博1manbetx“万博1manbetx支持”“积极”“无限”、字符串数组、单元格数组或数字行向量。该软件将核平滑密度应用到指定区域。

这个表总结了设置核平滑密度区域的可用选项。

价值 描述
1乘2的数字行向量 例如,(L U),在那里lU分别为密度支持的有限上界和下界。万博1manbetx
“积极” 密度支持都是正的实值。万博1manbetx
“无限” 密度支持都是真实值。万博1manbetx

如果你指定一个1乘-P字符串数组或单元格数组,字符串数组中的每个元素包含表中的任意文本值,单元格数组中的每个元素包含表中的任意值,然后软件使用element中的内核支持来训练分类器万博1manbetxj为特征jX.该软件忽略的元素内核不对应于一个分布是“内核”

必须指定至少一个预测器具有分布“内核”另外指定内核万博1manbetx,或宽度

例子:KSS万博1manbetxupport,{[-10, 20],“无界”}

数据类型:字符|字符串|细胞|

核平滑窗宽,指定为逗号分隔对组成“宽度”以及由数值、数值列向量、数值行向量或标量组成的矩阵。

假设有K类级别和P预测因子。这个表总结了设置内核平滑窗口宽度的可用选项。

价值 描述
K——- - - - - -P数值矩阵 元素(j k,)指定预测器的宽度j在课堂上k
K-乘1数字列向量 元素k指定类中所有预测器的宽度k
1 -P数字行向量 元素j指定预测器的所有类级别的宽度j
标量 指定所有类中的所有特性的带宽。

默认情况下,软件通过使用高斯分布的最优值,自动为每个预测器和类的组合选择默认宽度。如果您指定宽度,它包含S,然后软件为包含的元素选择宽度年代。

必须指定至少一个预测器具有分布“内核”另外指定内核万博1manbetx,或宽度

例子:“宽度”,南南

数据类型:|结构体

输出参数

全部折叠

适合训练纠错输出代码(ECOC)多类模型的朴素贝叶斯分类模板,作为模板对象返回。通过tfitcecoc来指定如何为ECOC模型创建朴素贝叶斯分类器。

如果你显示t,则所有未指定的选项显示为空([]).但是,在训练期间,软件会用相应的默认值替换空选项。

更多关于

全部折叠

Bag-of-Tokens模型

在令牌袋模型中,预测器的值j令牌出现的次数是否为非负数j在观察。多项式模型中的类别(箱子)的数量就是不同标记的数量(预测器的数量)。

朴素贝叶斯

朴素贝叶斯是一种将密度估计应用于数据的分类算法。

该算法利用了贝叶斯定理,并且(天真地)假设,给定类,预测器是有条件独立的。尽管这个假设在实践中经常被违背,朴素贝叶斯分类器倾向于产生后验分布,这对偏置的类密度估计是稳健的,特别是当后验分布为0.5(决策边界)时。[1]

朴素贝叶斯分类器将观测值分配给最有可能的类(换句话说,就是最大后验决策规则)。显然,该算法采取以下步骤:

  1. 估计每个类中预测因子的密度。

  2. 根据贝叶斯规则建立后验概率模型。也就是说,对所有人来说k= 1,…,K

    P Y k | X 1 .. X P π Y k j 1 P P X j | Y k k 1 K π Y k j 1 P P X j | Y k

    地点:

    • Y为观测的类指标对应的随机变量。

    • X1、……XP是对一个观测结果的随机预测。

    • π Y k 类别索引的先验概率是多少k

  3. 通过估计每个类别的后验概率对一个观察进行分类,然后将该观察分配给产生最大后验概率的类别。

如果预测因子组成一个多项分布,则后验概率 P Y k | X 1 .. X P π Y k P n X 1 ... X P | Y k 在哪里 P n X 1 ... X P | Y k 是多项式分布的概率质量函数。

算法

  • 如果预测变量j有条件正态分布(见DistributionNames名称-值参数),该软件通过计算类特定的加权平均值和加权标准差的无偏估计来拟合数据的分布。为每一个类k:

    • 预测器的加权平均数j

      x ¯ j | k : y k w x j : y k w

      在哪里w重量是用于观察的吗.该软件将一个类中的权重标准化,这样它们的总和就等于该类的先验概率。

    • 预测器加权标准差的无偏估计量j

      年代 j | k : y k w x j x ¯ j | k 2 z 1 | k z 2 | k z 1 | k 1 / 2

      在哪里z1 |k是类内权重的总和吗kz2 |k平方和是否在类内k

  • 如果所有预测变量组成一个条件多项分布(您指定“DistributionNames”、“锰”),该软件适合使用bag-of-tokens模型.软件存储该令牌的概率j出现在课堂上k在房地产DistributionParameters {kj.使用添加剂平滑[2],估计的概率是

    P 令牌 j | k 1 + c j | k P + c k

    地点:

    • c j | k n k : y k x j w : y k w 令牌的加权出现次数是多少j在课堂上k

    • nk课堂上观察的次数是多少k

    • w 重量是用于观察的吗.该软件将一个类中的权重标准化,这样它们的总和就等于该类的先验概率。

    • c k j 1 P c j | k 哪个是类中所有令牌出现的加权总数k

  • 如果预测变量j具有条件多元多项分布:

    1. 该软件收集了一个独特的关卡列表,并将排序后的列表存储在其中CategoricalLevels,并将每一层视为一个容器。每个预测器/类组合是一个独立的,独立的多项随机变量。

    2. 为每一个类k,该软件使用存储的列表计算每个类别级别的实例CategoricalLevels {j

    3. 软件储存预测的概率j在课堂上,k,水平l在房地产DistributionParameters {kj,为所有层次CategoricalLevels {j.使用添加剂平滑[2],估计的概率是

      P 预测 j l | k 1 + j | k l j + k

      地点:

      • j | k l n k : y k x j l w : y k w 哪个预测器的加权观测数是多少j=l在课堂上k

      • nk课堂上观察的次数是多少k

      • x j l 1 如果xijl,否则为0。

      • w 重量是用于观察的吗.该软件将一个类中的权重标准化,这样它们的总和就等于该类的先验概率。

      • j预测器中不同水平的数量j

      • k是课堂上的加权观察数吗k

参考文献

Hastie, T., R. Tibshirani, J. Friedman。统计学习的要素,第二版。纽约:施普林格,2008年。

[2] Manning, Christopher D., Prabhakar Raghavan, Hinrich Schütze。信息检索概论,纽约:剑桥大学出版社,2008。

介绍了R2014b