主要内容

边缘

高斯核分类模型的分类边缘

描述

例子

e=边缘(MdlXY返回分类的优势二元高斯核分类模型Mdl使用预测数据X和相应的类标签Y

e=边缘(Mdl资源描述ResponseVarName返回训练的核分类器的分类边缘Mdl使用表中的预测数据资源描述和类标签资源描述。ResponseVarName

e=边缘(Mdl资源描述Y返回分类器的分类边缘Mdl使用表中的预测数据资源描述以及vector中的类标签Y

e=边缘(___“重量”权重使用提供的观测权值返回加权的分类边权重。在前面语法中的任何输入参数组合之后指定权重。

例子

全部折叠

加载电离层数据集。该数据集有34个预测器和351个雷达返回的二进制响应,或坏(“b”)或好(‘g’).

负载电离层

将数据集划分为训练集和测试集。为测试集指定15%的抵抗度样本。

rng (“默认”%的再现性分区= cvpartition (Y,“坚持”, 0.15);trainingInds =培训(分区);%训练集指标testInds =测试(分区);%测试集索引

使用训练集训练二值核分类模型。

Mdl = fitckernel (X (trainingInds:), Y (trainingInds));

估计训练集边缘和测试集边缘。

eTrain =边缘(Mdl X (trainingInds:), Y (trainingInds))
eTrain = 2.1703
基线测试=边缘(Mdl X (testInds:), Y (testInds))
基线测试= 1.5643

通过比较多个模型的测试集边缘来进行特征选择。仅根据这个准则,具有最高边的分类器就是最好的分类器。

加载电离层数据集。该数据集有34个预测器和351个雷达返回的二进制响应,或坏(“b”)或好(‘g’).

负载电离层

将数据集划分为训练集和测试集。为测试集指定15%的抵抗度样本。

rng (“默认”%的再现性分区= cvpartition (Y,“坚持”, 0.15);trainingInds =培训(分区);%训练集指标XTrain = X (trainingInds:);YTrain = Y (trainingInds);testInds =测试(分区);%测试集索引XTest = X (testInds:);欧美= Y (testInds);

随机选择一半的预测变量。

p =大小(X, 2);%预测数idxPart = randsample (p,装天花板(0.5 * p));

训练两个二进制核分类模型:一个使用所有的预测器,另一个使用一半的预测器。

Mdl = fitckernel (XTrain YTrain);PMdl = fitckernel (XTrain (:, idxPart) YTrain);

MdlPMdlClassificationKernel模型。

估计每个分类器的测试集边缘。

fullEdge =边缘(Mdl XTest、欧美)
fullEdge = 1.6335
partEdge =边缘(PMdl XTest (:, idxPart)、欧美)
partEdge = 2.0205

基于测试集边缘,使用一半预测器的分类器是较好的模型。

输入参数

全部折叠

二值核分类模型,指定为ClassificationKernel模型对象。您可以创建ClassificationKernel模型对象使用fitckernel

预测器数据,指定为n——- - - - - -p数字矩阵,n观察的次数是多少p用于训练的预测器的数量Mdl

的长度Y观察的次数X必须是相等的。

数据类型:|

类标签,指定为类别数组、字符数组或字符串数组;逻辑或数字向量;或字符向量的单元格数组。

  • 的数据类型Y必须与的数据类型相同Mdl。一会(该软件将字符串数组视为字符向量的单元格数组。)

  • 不同的阶级Y一定是?的子集Mdl。一会

  • 如果Y是字符数组,则每个元素必须与数组的一行相对应。

  • 的长度Y必须等于观测的次数X资源描述

数据类型:分类|字符|字符串|逻辑|||细胞

用于训练模型的样本数据,指定为表。每一行的资源描述对应一个观察值,每一列对应一个预测变量。可选地,资源描述可以包含响应变量和观察权值的附加列。资源描述必须包含所有用于训练的预测因子吗Mdl。除了字符向量的单元格数组之外,不允许使用多列变量和单元格数组。

如果资源描述包含用于训练的响应变量Mdl,则不需要指定ResponseVarNameY

如果你训练Mdl使用表中包含的样例数据,然后输入数据边缘也必须在表中。

中的响应变量名,指定为变量名资源描述。如果资源描述包含用于训练的响应变量Mdl,则不需要指定ResponseVarName

如果您指定ResponseVarName,则必须将其指定为字符向量或字符串标量。例如,如果响应变量存储为资源描述。Y,然后指定ResponseVarName作为“Y”。否则,软件将对所有列进行处理资源描述,包括资源描述。Y预测因子。

response变量必须是一个分类数组、字符数组或字符串数组;逻辑或数字向量;或者字符向量的单元格数组。如果响应变量是一个字符数组,那么每个元素必须对应数组的一行。

数据类型:字符|字符串

中指定为数值向量或变量名的观测权值资源描述

  • 如果权重是数字向量,那么大小是权重必须等于里面的行数X资源描述

  • 如果权重变量名是否在资源描述,则必须指定权重作为字符向量或字符串标量。例如,如果权重存储为资源描述。W,然后指定权重作为' W '。否则,软件将对所有列进行处理资源描述,包括资源描述。W预测因子。

如果你提供重量,边缘计算加权分类的优势。该软件对每一行的观察结果进行加权X资源描述有相应的权重权重

边缘规范化权重求和为各类的先验概率值。

数据类型:||字符|字符串

输出参数

全部折叠

分类的优势,作为数字标量返回。

更多关于

全部折叠

分类的优势

分类的优势为分类边界的加权平均值。

在多个分类器中进行选择的一种方法是选择产生最大边的分类器,例如执行特征选择。

分类保证金

分类保证金二元分类是,对于每个观察,真实类的分类分数与虚假类的分类分数之间的差值。

软件将二元分类的分类裕度定义为

2 y f x

x是一个观察。如果真实的标签x那么,是积极类吗y为1,否则为-1。fx)为观察的阳性分类评分x。分类裕度一般定义为yfx

如果边际值在同一尺度上,则作为分类置信度的衡量标准。在众多分类公司中,那些利润率更高的公司表现更好。

分类分

对于核分类模型,原始分类分对观察进行分类x,一个行向量,进入正数类定义为

f x T x β + b

  • T · 是一种对特征扩展的观察的变换。

  • β为估计的系数列向量。

  • b为估计的标量偏差。

用于分类的原始分类分数x变成了否定类fx。该软件将观察结果分类,得出一个积极的分数。

如果核分类模型由logistic回归学习者组成,则软件应用逻辑回归模型分对数的分数转换为原始分类分数(见ScoreTransform).

扩展功能

介绍了R2017b