朴素贝叶斯分类

朴素贝叶斯分类器是为在每个类中预测器相互独立而设计的,但它在实践中似乎工作得很好,即使独立假设不成立。数据分类分为两个步骤:

  1. 训练步骤:利用训练数据估计一个概率分布的参数,假设预测器是条件独立的。

  2. 预测步骤:对于任何看不见的测试数据,该方法计算该样本属于每个类别的后验概率。然后根据最大后验概率对测试数据进行分类。

类条件独立性假设极大地简化了训练步骤,因为您可以分别估计每个预测器的一维类条件密度。虽然预测因子之间的阶级条件独立性通常并不成立,但研究表明,这种乐观的假设在实践中很有效。这种假设的类条件独立性的预测器允许朴素贝叶斯分类器估计所需的参数,而使用较少的训练数据比许多其他分类器。这使得它对于包含许多预测器的数据集特别有效。

万博1manbetx支持的发行

贝叶斯分类的训练步骤是基于估计的PX|ÿ),预测值的概率或概率密度X给定类ÿ。朴素贝叶斯分类模型ClassificationNaiveBayes和训练函数fitcnb支持正态(高斯)万博1manbetx,核函数,多项式,和多元,多项式预测条件分布。要为谓词指定分布,请使用DistributionNames的名称-值对参数fitcnb。可以通过提供对应于分发名称的字符向量或标量字符串指定一种类型的分配为所有预测器,或者通过提供一个长度指定预测不同分布d字符串数组或字符向量,其中的单元阵列d是(预测值的数目即,列数X)。

正常(高斯)分布

'正常'分发(指定使用'正常')适用于在每个类中具有正态分布的预测器。对于用正态分布建模的每个预测器,朴素贝叶斯分类器通过计算该类中训练数据的均值和标准差,为每个类估计一个单独的正态分布。

内核分配

'核心'分发(指定使用'核心')适用于具有连续分布的预测器。它不需要强假设,如正态分布,您可以在预测器的分布可能是倾斜的或有多个峰值或模式的情况下使用它。它比正态分布需要更多的计算时间和内存。对于你用核分布建模的每个预测器,朴素贝叶斯分类器会根据训练数据为每个类计算一个单独的核密度估计值。默认情况下,内核是普通内核,分类器为每个类和预测器自动选择宽度。该软件支持为每个预测器指定万博1manbetx不同的内核,以及为每个预测器或类指定不同的宽度。

多变量多项分布

多变量,多项分布(指定使用'mvmn')适用于预测其观测是绝对的。使用多变量多项式预测器朴素贝叶斯分类器结构进行说明。为了说明的步骤,考虑观测值被标为0,1,或2,并且预测天气进行的样品时的例子。

  1. 记录在整个预测的观测所表示的不同的类别。例如,不同的类别(或预测水平)可能包括晴天,雨天,雪天,阴天。

  2. 按响应类分离观察结果。例如,将标记为0的观察与标记为1和2的观察分离,将标记为1的观察与标记为2的观察分离。

  3. 对于每个响应类,拟合一个多项式模型使用类别相对频率和总观测数。例如,对于标记为0的观测,晴天的估计概率为 p 小号 ü ñ ñ ÿ | 0 = (sunny observations with label 0)/(observations with label 0),其他类别和响应标签类似。

的分类条件,多项式的随机变量包括一个多变量多项式的随机变量。

下面是使用多变量多项朴素贝叶斯分类器的一些其他属性。

  • 对于你用多变量多项式分布模型的每个预测,朴素贝叶斯分类:

    • 记录单独的一组不同的预测水平的每个预测

    • 计算此组为每个类别预测水平的一组独立的概率。

  • 该软件支持将连续预测器建模万博1manbetx为多元多项式。在这种情况下,预测器水平是一个测量的明显出现。这可能导致预测器具有多个预测级别。将这些预测器离散化是一种很好的实践。

如果观察是一组成功对各种类别的出固定数量的独立试验(由所有的预测结果的表示),那么指定所述预测包括多项分布。有关详细信息,请参阅多项分布

多项分布

多项分布(指定使用“DistributionNames”、“锰”的情况下,给出的类别)是合适的,每个观察是一个多项随机变量。也就是说,观察,或行,Ĵ预测数据X代表d类别,其中Xjd是成功用于类别的数量(即,预测器)d ñ Ĵ = Σ d = 1 d X Ĵ d 独立试验。步骤来训练分类器未来提出了一个朴素贝叶斯。

  1. 对于每个类,适合给类由预测多项分布:

    1. 聚集加权,分类计数所有的观察。此外,该软件还实现了加法平滑[1]

    2. 估算d每一类中的类别概率使用汇总分类计数。这些类别概率组成的多项分布的概率参数。

  2. 让一个新的观察有一个总数。然后,朴素贝叶斯分类:

    1. 设置每个多项分布的总数量参数

    2. 对于每个类,估计使用所估计的多项分布的类后验概率

    3. 预测与最高的后验概率观测到类

考虑所谓的袋的-令牌模型,其中存在含有许多不同类型和比例的令牌袋。每个预测代表在袋上的不同类型的标记,观察是ñ独立绘制(即。从包中替换)的标记,而数据是一个计数向量,其中元素d被的次数令牌d出现了。

一种机器学习应用程序是电子邮件的垃圾邮件分类器,其中,每个预测器表示一个字,字符或短语(即,令牌)的构造,观察是电子邮件,并且数据是在电子邮件中的令牌计数。一个预测值,也许可以算的惊叹号数量,另一个可能的计数次数“钱”出现这个词,而另一个可能算的时间收件人的名字出现次数。这是进一步假设令牌的总数目(或总文档长度)是独立的响应级的下一个朴素贝叶斯模型。

使用多项式观察值的朴素贝叶斯分类器的其他性质包括:

  • 分类是基于类别的相对频率。如果ñĴ= 0观察Ĵ,那么该观察就不可能进行分类。

  • 该预测是没有条件独立,因为他们必须要总结ñĴ

  • 朴素贝叶斯是不恰当的时候ñĴ提供有关类的信息。也就是说,该分类要求ñĴ是独立于类的。

  • 如果您指定谓词是条件多项式,那么软件将此规范应用于所有谓词。换句话说,你不能包括“百万”在一个单元阵列指定时'DistributionNames'

如果一个预报器是分类的,即是一个响应类内多项,然后将其指定为多元多项式。有关详细信息,请参阅多变量多项分布

参考

[1]曼宁,C.D。,P.拉加,和M.Schütze。现代信息检索纽约州:剑桥大学出版社,2008年。

也可以看看

功能

对象

相关话题