边缘

类:ClassificationLinear

线性分类模型分类边缘

描述

Ë=边缘(MDLXÿ返回分类边缘为二进制,线性分类模型MDL使用预测数据X和相应的类标签中ÿË包含用于在每个正则化强度的分级刃MDL

Ë=边缘(___名称,值使用任何一个或多个指定的上一个语法和其他选项的名称,值对参数。例如,您可以指定在预测数据列对应于观察或供应观察权重。

输入参数

展开全部

二元的,线性分类模型,指定为ClassificationLinear模型对象。您可以创建一个ClassificationLinear使用模型对象fitclinear

预测数据,指定为ñ-通过-p全或稀疏矩阵。的这种取向X表明行对应于个人的观察,以及列对应于个体预测变量。

注意

如果你的定位预测矩阵,以便观察对应的列,并指定'ObservationsIn', '列',那么你可能会遇到在计算时间减少显著。

长度ÿ和观察的数量X必须相等。

数据类型:|

类标签,指定为分类,字符或字符串数​​组,逻辑或数字载体,或字符向量的单元阵列。

  • 的数据类型ÿ必须是相同的数据类型Mdl.ClassNames(该软件把字符串数组作为字符向量的单元阵列。)

  • 在不同的类中ÿ必须是一个子集Mdl.ClassNames

  • 如果ÿ是一个字符阵列,则每个元素必须对应于所述阵列的一行。

  • 长度ÿ和观察的数量X必须相等。

数据类型:明确的|烧焦||合乎逻辑|||细胞

名称 - 值对参数

指定可选的用逗号分隔的对名称,值参数。名称是参数的名称和是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N

预测数据观测尺寸,指定为逗号分隔的一对组成的'ObservationsIn''列'要么“行”

注意

如果你的定位预测矩阵,以便观察对应的列,并指定'ObservationsIn', '列',那么你可能会遇到的优化,执行时间显著减少。

观察权重,指定为逗号分隔的一对组成的“权重”和正值的数值向量。如果您提供的权重,边缘计算加权分级刃

ñ是观察在数X

  • numel(重量)一定是ñ

  • 默认,权重那些(ñ,1)

边缘规格化权重总结在相应类的先验概率的值。

数据类型:|

输出参数

展开全部

分类边缘时,返回作为数字标量或行向量。

Ë的尺寸与相同Mdl.LambdaE(Ĵ是使用正则化强度训练的线性分类模型的分级刃Mdl.Lambda(Ĵ

例子

展开全部

加载NLP的数据集。

加载nlpdata

X是预测数据的稀疏矩阵,并且ÿ是类别标签的分类矢量。有超过两个班中的数据。

该模型应标识在网页中的字数是否来自统计和机器学习工具箱™文档。因此,识别标签对应于统计和机器学习工具箱™文档网页。

Ystats = Y ==“统计”;

培养出二元线性分类模型,它可以识别在文档网页中的字数是否来自统计和机器学习工具箱™文档。指定要抵抗观测的30%。优化利用SpaRSA目标函数。

RNG(1);%用于重现CVMdl = fitclinear(X,Ystats,“求解”'sparsa''坚持',0.30);CMDL = CVMdl.Trained {1};

CVMdlClassificationPartitionedLinear模型。它包含属性熟练,这是一个1×1单元阵列保持ClassificationLinear模型,使用软件中的训练集训练。

提取分区定义的训练和测试数据。

trainIdx =训练(CVMdl.Partition);testIdx =试验(CVMdl.Partition);

估计训练 - 和测试样品的边缘。

eTrain =边缘(CMDL,X(trainIdx,:),Ystats(trainIdx))
eTrain = 15.6660
Etest法=边缘(CMDL,X(testIdx,:),Ystats(testIdx))
Etest法= 15.4767

执行特征选择的一种方法是测试样品边缘从多个模型进行比较。仅仅基于这一标准,具有最高边缘分类是最好的分类。

加载NLP的数据集。

加载nlpdata

X是预测数据的稀疏矩阵,并且ÿ是类别标签的分类矢量。有超过两个班中的数据。

该模型应标识在网页中的字数是否来自统计和机器学习工具箱™文档。因此,识别标签对应于统计和机器学习工具箱™文档网页。更快的执行时间,定向所述预测数据,使得各个观测值对应的列。

Ystats = Y ==“统计”;X = X';RNG(1);%用于重现

创建保持了用于测试的观察结果为30%的数据分区。

分区= cvpartition(Ystats,'坚持',0.30);testIdx =试验(分区);%测试集指标XTEST = X(:,testIdx);YTest = Ystats(testIdx);

划分cvpartition对象定义数据集分区。

随机选择的预测变量的一半。

P =尺寸(X,1);预测的数量%idxPart = randsample(P,小区(0.5 * P));

火车两个二进制,线性分类模型:一个使用所有预测的和一个使用预测的一半。优化利用SpaRSA目标函数,并指出意见对应的列。

CVMdl = fitclinear(X,Ystats,'CVPartition',划分,“求解”'sparsa'...'ObservationsIn''列');PCVMdl = fitclinear(X(idxPart,:),Ystats,'CVPartition',划分,“求解”'sparsa'...'ObservationsIn''列');

CVMdlPCVMdlClassificationPartitionedLinear楷模。

提取受训ClassificationLinear从交叉验证模型的模型。

CMDL = CVMdl.Trained {1};PCMdl = PCVMdl.Trained {1};

估计每个分类器测试样品边缘。

fullEdge =边缘(CMDL,XTEST,YTest,'ObservationsIn''列'
fullEdge = 15.4767
partEdge =边缘(PCMdl,XTEST(idxPart,:),YTest,'ObservationsIn''列'
partEdge = 13.4458

根据试验样品的边缘,使用所有预测的分类是更好的模型。

要确定使用逻辑回归学习线性分类模型良好的套索刑罚强度,比较试验样品的边缘。

加载NLP的数据集。预处理的数据作为功能选择使用测试样品边缘

加载nlpdataYstats = Y ==“统计”;X = X';分区= cvpartition(Ystats,'坚持',0.30);testIdx =试验(分区);XTEST = X(:,testIdx);YTest = Ystats(testIdx);

创建从一组11对数间隔的正规化优势 1 0 - 8 通过 1 0 1

波长= LOGSPACE(-8,1,11);

火车二进制使用每个正规化的优势,线性分类模型。优化利用SpaRSA目标函数。降低目标函数的梯度公差1E-8

RNG(10);%用于重现CVMdl = fitclinear(X,Ystats,'ObservationsIn''列'...'CVPartition',划分,'学习者'“物流”“求解”'sparsa'...“正规化”'套索'“拉姆达”,λ,'GradientTolerance',1E-8)
CVMdl = classreg.learning.partition.ClassificationPartitionedLinear CrossValidatedModel: '线性' ResponseName: 'Y' NumObservations:31572 KFold:1个分区:[1x1的cvpartition]类名:[0 1] ScoreTransform: '无' 的属性,方法

提取训练的线性分类模型。

MDL = CVMdl.Trained {1}
MDL = ClassificationLinear ResponseName: 'Y' 的类名:[0 1] ScoreTransform: '分对数' 贝塔:[34023x11双]偏压:[1x11双] LAMBDA:[1x11双]学习者: '物流' 的属性,方法

MDLClassificationLinear模型对象。因为LAMBDA是正规化的优势序列,你能想到的MDL作为11款车型,一个在每个正规化强度LAMBDA

估计测试样品的边缘。

E =边缘(MDL,X(:,testIdx),Ystats(testIdx),'ObservationsIn''列'
E =1×110.9986 0.9986 0.9986 0.9986 0.9986 0.9932 0.9764 0.9181 0.8332 0.8128 0.8128

因为有11分正规化的优势,Ë是边缘的1×11矢量。

绘制每个正则化强度与测试样品的边缘。确定最大化在网格边缘正规化强度。

数字;图(LOG10(波长),日志10(E),'-o')[〜,maxEIdx] = MAX(E);maxLambda =拉姆达(maxEIdx);保持图(LOG10(maxLambda),日志10(E(maxEIdx)),'RO');ylabel(“LOG_ {10}测试样品边缘”)xlabel('LOG_ {10} LAMBDA')图例('边缘'“最大优势”)保持

的几个值LAMBDA得到同样高的边缘。的拉姆达率较高值预测变量稀疏,这是一个分类的优良品质。

选择时出现的边缘逐渐减少之前正规化强度。

LambdaFinal =拉姆达(5);

使用整个数据集训练的线性分类模型,并指定正则化强度得到最大边缘。

MdlFinal = fitclinear(X,Ystats,'ObservationsIn''列'...'学习者'“物流”“求解”'sparsa'“正规化”'套索'...“拉姆达”,LambdaFinal);

为了估计新的观察标签,合格MdlFinal和新数据预测

更多关于

展开全部

算法

默认情况下,观察权重是事先类概率。如果您在使用供应权权重,那么软件标准化它们总和为在各自的类中的先验概率。该软件使用规格化权估计加权边缘。

扩展功能

介绍了在R2016a