分类

判别分析

句法

类分类=(样品,培训,基团)
类分类=(样品,培训,基,”类型“)
类分类=(样品,培训,基,”类型”,
[类,ERR] =分门别类(...)
[类,ERR,后] =分门别类(...)
[类、犯错后,logp] =分类(…)
[类,ERR,后,的logP,系数_] =分门别类(...)

描述

类分类=(样品,培训,基团)中对数据的每一行进行分类样品成的基团之一训练样品训练必须是具有相同列数的矩阵。集团分组变量是训练。其独特的价值定义组;每个元素定义的组,其中的相应行训练所属。集团可以是分类变量、数字向量、字符数组、字符串数组或字符向量的单元数组。训练集团必须具有相同的行数。分类对待<定义>为NaN空字符向量,空字符串,和<失踪>字符串值在集团为丢失的数据值,并忽略的相应的行训练。输出指示组,其中的每一行样品已分配,并且是相同的类型的集团

类分类=(样品,培训,基,”类型“)允许您指定判别函数的类型。指定类型里面的单引号。类型是一个:

  • 线性- 适合多元正态密度到各组,与协方差的汇总估计。这是默认的。

  • diaglinear- 相似线性,但采用对角协方差矩阵估计(朴素贝叶斯分类器)。

  • 二次-拟合多元正态密度与协方差估计分层的组。

  • diagquadratic- 相似二次,但采用对角协方差矩阵估计(朴素贝叶斯分类器)。

  • 马氏-使用分层协方差估计的马氏距离。

类分类=(样品,培训,基,”类型”,允许您为组指定先验概率。是一个:

  • 一个数字向量相同的长度唯一值的数集团(或为。定义的层数。集团,如果集团是绝对的)。如果集团是数值或类别,顺序必须对应于有序值集团。否则,顺序必须对应于值的第一次出现的次序集团

  • 带有字段的1×1结构:

    • 概率- 一个数值向量。

    • 集团-与集团含指示所述组的唯一值到其元素概率对应。

    作为一个结构,可以包含不出现在集团。这可能是有用的,如果训练是一个集较大的训练集。分类忽略结构中出现但不在结构中出现的任何组集团阵列。

  • 字符向量或标量串'经验',表明组先验概率应该从相对组的频率中进行估计训练

默认为概率相等的数值向量,即。,一个均匀分布。不用于马氏距离辨别,除误差率计算。

[类,ERR] =分门别类(...)也返回的估计犯错的误分类错误率的基础上训练数据。分类返回明显的错误率,即。中观测值的百分比训练被错误分类,通过对各组的先验概率加权。

[类,ERR,后] =分门别类(...)也返回一个矩阵后路后验概率的估计数Ĵ训练组是这一问题的根源一世样本观测,即组j|OBS我)。后路不计算马氏辨别。

[类、犯错后,logp] =分类(…)也返回一个向量logp包含对样本观测的无条件预测概率密度的对数的估计,pOBS我)=ΣpOBS我|组j组j)在所有群体。logp不计算马氏辨别。

[类,ERR,后,的logP,系数_] =分门别类(...)还返回一个结构阵列_系数含有对组之间的边界曲线的系数。每个元素系数_(I,J)包含的信息比较组一世到组Ĵ在以下领域:

  • 类型- 键入判别函数,从类型输入。

  • 名1- 第一组的名称。

  • NAME2-第二组的名称。

  • 常量- 边界方程的常数项(K)

  • 线性- 边界方程的线性系数(L)

  • 二次-边界方程Q的二次系数矩阵

为了线性diaglinear类型中,二次字段不存在,和行X样品数组被划分为组一世而非组Ĵ如果0 。对于其他类型,X分为组一世如果0 < K + x * L + x * Q * x '

例子

全部收缩

对于训练数据,使用Fisher的萼片三围为虹膜云芝和锦葵:

加载fisheririsSL =量(51:最终,1);SW =量(51:结束,2);组=物种(51:结束);h1 = gscatter (SL,西南、组'RB''V ^'[],“关闭”);集(H1,'行宽'2)传说(“费舍尔菌”“费舍尔弗吉尼亚”...“位置”“西北”

分类上同等规模的测量网格:

[X,Y] = meshgrid(linspace(4.5,8),linspace(2,4));X = X(:);Y = Y(:);[C,ERR,P,的logP,系数_] =分类([X Y],[SL SW],...组,“二次”);

可视化的分类:

保持;gscatter(X,Y,C,'RB''',1“关闭”);K =系数_(1,2).const中;L =系数_(1,2).linear;Q =系数_(1,2).quadratic;%功能来计算K + L * V + V'*为多个向量Q * V%V = [X; Y]。接受x和y为标量或列向量。f = @(x,y) K + L(1)*x + L(2)*y + Q(1,1)*x。* x + (Q (1、2) + Q (2,1)) * x。* y + Q (2, 2) * y。* y;h2 = fimplicit(f,[4.5 8 2 4]);集(h2,“颜色”“米”'行宽'2,'显示名称'“决策边界”)轴([4.5 8 2 4])xlabel(“萼片长”)ylabel (“萼片宽”)标题(“{\ BF与费舍尔的训练数据分类}”

选择功能

fitcdiscr功能还执行判别分析。您可以通过使用训练分类fitcdiscr函数和预测新数据的标签预测功能。该fitcdiscr万博1manbetx支持交叉验证和超参数优化,并且在每次做出新的预测或改变先验概率时不需要匹配分类器。

参考文献

Krzanowski, w。多元统计分析原理:用户的角度。纽约:牛津大学出版社,1988年。

[2] Seber,G. A. F.多变量的观察。新泽西州霍博肯市:John Wiley和Sons公司,1984年。

之前介绍过的R2006a