线性分类模型分类边缘
MDL
-二,线性分类模型ClassificationLinear
模型对象二元的,线性分类模型,指定为ClassificationLinear
模型对象。您可以创建一个ClassificationLinear
使用模型对象fitclinear
。
X
-预测数据预测数据,指定为ñ-通过-p全或稀疏矩阵。的这种取向X
表明行对应于个人的观察,以及列对应于个体预测变量。
如果你的定位预测矩阵,以便观察对应的列,并指定'ObservationsIn', '列'
,那么你可能会遇到在计算时间减少显著。
长度ÿ
和观察的数量X
必须相等。
数据类型:单
|双
ÿ
-类标签类标签,指定为分类,字符或字符串数组,逻辑或数字载体,或字符向量的单元阵列。
的数据类型ÿ
必须是相同的数据类型Mdl.ClassNames
。(该软件把字符串数组作为字符向量的单元阵列。)
在不同的类中ÿ
必须是一个子集Mdl.ClassNames
。
如果ÿ
是一个字符阵列,则每个元素必须对应于所述阵列的一行。
长度ÿ
和观察的数量X
必须相等。
数据类型:明确的
|烧焦
|串
|合乎逻辑
|单
|双
|细胞
指定可选的用逗号分隔的对名称,值
参数。名称
是参数的名称和值
是对应的值。名称
必须出现引号内。您可以按照任何顺序指定多个名称和值对参数名1,值1,...,NameN,值N
。
'ObservationsIn'
-预测数据的观察维度“行”
(默认)|'列'
预测数据观测尺寸,指定为逗号分隔的一对组成的'ObservationsIn'
和'列'
要么“行”
。
如果你的定位预测矩阵,以便观察对应的列,并指定'ObservationsIn', '列'
,那么你可能会遇到的优化,执行时间显著减少。
“权重”
-观察权重观察权重,指定为逗号分隔的一对组成的“权重”
和正值的数值向量。如果您提供的权重,边缘
计算加权分级刃。
让ñ
是观察在数X
。
numel(重量)
一定是ñ
。
默认,权重
是那些(
。ñ
,1)
边缘
规格化权重
总结在相应类的先验概率的值。
数据类型:双
|单
加载NLP的数据集。
加载nlpdata
X
是预测数据的稀疏矩阵,并且ÿ
是类别标签的分类矢量。有超过两个班中的数据。
该模型应标识在网页中的字数是否来自统计和机器学习工具箱™文档。因此,识别标签对应于统计和机器学习工具箱™文档网页。
Ystats = Y ==“统计”;
培养出二元线性分类模型,它可以识别在文档网页中的字数是否来自统计和机器学习工具箱™文档。指定要抵抗观测的30%。优化利用SpaRSA目标函数。
RNG(1);%用于重现CVMdl = fitclinear(X,Ystats,“求解”,'sparsa','坚持',0.30);CMDL = CVMdl.Trained {1};
CVMdl
是ClassificationPartitionedLinear
模型。它包含属性熟练
,这是一个1×1单元阵列保持ClassificationLinear
模型,使用软件中的训练集训练。
提取分区定义的训练和测试数据。
trainIdx =训练(CVMdl.Partition);testIdx =试验(CVMdl.Partition);
估计训练 - 和测试样品的边缘。
eTrain =边缘(CMDL,X(trainIdx,:),Ystats(trainIdx))
eTrain = 15.6660
Etest法=边缘(CMDL,X(testIdx,:),Ystats(testIdx))
Etest法= 15.4767
执行特征选择的一种方法是测试样品边缘从多个模型进行比较。仅仅基于这一标准,具有最高边缘分类是最好的分类。
加载NLP的数据集。
加载nlpdata
X
是预测数据的稀疏矩阵,并且ÿ
是类别标签的分类矢量。有超过两个班中的数据。
该模型应标识在网页中的字数是否来自统计和机器学习工具箱™文档。因此,识别标签对应于统计和机器学习工具箱™文档网页。更快的执行时间,定向所述预测数据,使得各个观测值对应的列。
Ystats = Y ==“统计”;X = X';RNG(1);%用于重现
创建保持了用于测试的观察结果为30%的数据分区。
分区= cvpartition(Ystats,'坚持',0.30);testIdx =试验(分区);%测试集指标XTEST = X(:,testIdx);YTest = Ystats(testIdx);
划分
是cvpartition
对象定义数据集分区。
随机选择的预测变量的一半。
P =尺寸(X,1);预测的数量%idxPart = randsample(P,小区(0.5 * P));
火车两个二进制,线性分类模型:一个使用所有预测的和一个使用预测的一半。优化利用SpaRSA目标函数,并指出意见对应的列。
CVMdl = fitclinear(X,Ystats,'CVPartition',划分,“求解”,'sparsa',...'ObservationsIn','列');PCVMdl = fitclinear(X(idxPart,:),Ystats,'CVPartition',划分,“求解”,'sparsa',...'ObservationsIn','列');
CVMdl
和PCVMdl
是ClassificationPartitionedLinear
楷模。
提取受训ClassificationLinear
从交叉验证模型的模型。
CMDL = CVMdl.Trained {1};PCMdl = PCVMdl.Trained {1};
估计每个分类器测试样品边缘。
fullEdge =边缘(CMDL,XTEST,YTest,'ObservationsIn','列')
fullEdge = 15.4767
partEdge =边缘(PCMdl,XTEST(idxPart,:),YTest,'ObservationsIn','列')
partEdge = 13.4458
根据试验样品的边缘,使用所有预测的分类是更好的模型。
要确定使用逻辑回归学习线性分类模型良好的套索刑罚强度,比较试验样品的边缘。
加载NLP的数据集。预处理的数据作为功能选择使用测试样品边缘。
加载nlpdataYstats = Y ==“统计”;X = X';分区= cvpartition(Ystats,'坚持',0.30);testIdx =试验(分区);XTEST = X(:,testIdx);YTest = Ystats(testIdx);
创建从一组11对数间隔的正规化优势 通过 。
波长= LOGSPACE(-8,1,11);
火车二进制使用每个正规化的优势,线性分类模型。优化利用SpaRSA目标函数。降低目标函数的梯度公差1E-8
。
RNG(10);%用于重现CVMdl = fitclinear(X,Ystats,'ObservationsIn','列',...'CVPartition',划分,'学习者',“物流”,“求解”,'sparsa',...“正规化”,'套索',“拉姆达”,λ,'GradientTolerance',1E-8)
CVMdl = classreg.learning.partition.ClassificationPartitionedLinear CrossValidatedModel: '线性' ResponseName: 'Y' NumObservations:31572 KFold:1个分区:[1x1的cvpartition]类名:[0 1] ScoreTransform: '无' 的属性,方法
提取训练的线性分类模型。
MDL = CVMdl.Trained {1}
MDL = ClassificationLinear ResponseName: 'Y' 的类名:[0 1] ScoreTransform: '分对数' 贝塔:[34023x11双]偏压:[1x11双] LAMBDA:[1x11双]学习者: '物流' 的属性,方法
MDL
是ClassificationLinear
模型对象。因为LAMBDA
是正规化的优势序列,你能想到的MDL
作为11款车型,一个在每个正规化强度LAMBDA
。
估计测试样品的边缘。
E =边缘(MDL,X(:,testIdx),Ystats(testIdx),'ObservationsIn','列')
E =1×110.9986 0.9986 0.9986 0.9986 0.9986 0.9932 0.9764 0.9181 0.8332 0.8128 0.8128
因为有11分正规化的优势,Ë
是边缘的1×11矢量。
绘制每个正则化强度与测试样品的边缘。确定最大化在网格边缘正规化强度。
数字;图(LOG10(波长),日志10(E),'-o')[〜,maxEIdx] = MAX(E);maxLambda =拉姆达(maxEIdx);保持上图(LOG10(maxLambda),日志10(E(maxEIdx)),'RO');ylabel(“LOG_ {10}测试样品边缘”)xlabel('LOG_ {10} LAMBDA')图例('边缘',“最大优势”)保持离
的几个值LAMBDA
得到同样高的边缘。的拉姆达率较高值预测变量稀疏,这是一个分类的优良品质。
选择时出现的边缘逐渐减少之前正规化强度。
LambdaFinal =拉姆达(5);
使用整个数据集训练的线性分类模型,并指定正则化强度得到最大边缘。
MdlFinal = fitclinear(X,Ystats,'ObservationsIn','列',...'学习者',“物流”,“求解”,'sparsa',“正规化”,'套索',...“拉姆达”,LambdaFinal);
为了估计新的观察标签,合格MdlFinal
和新数据预测
。
该分级刃是的加权平均分类利润率。
一种方法多分类中进行选择,例如进行特征选择,是选择产生最大边缘分类。
该分类极限用于二元分类,对每个观察,分类评分为真类和分类评分为假类之间的差。
软件定义的分类极限的二元分类为
X是一个观察。如果真正标签X是正课,然后ÿ是1,并且否则返回-1。F(X)是正类别分类分值观察X。分类余量通常被定义为米=ÿF(X)。
如果利润率是相同的规模,那么他们作为分类置信度。在多个分类,那些产生更大的利润更好。
对于线性分类模型,原始分类评分为观察分类X,一个行向量,到正类由下式定义
对于正则化强度模型Ĵ,
是系数的估计的列向量(模型属性Beta版(:,J)
)和
是估计,标量偏差(模型属性偏置(J)
)。
原始分类分数分级X成阴性类是 -F(X)。该软件进行分类观察到能产生积极的得分类。
如果线性分类模型由Logistic回归学习者,那么软件应用'Logit模型'
分数转化为原始分数分类(见ScoreTransform
)。
默认情况下,观察权重是事先类概率。如果您在使用供应权权重
,那么软件标准化它们总和为在各自的类中的先验概率。该软件使用规格化权估计加权边缘。
此功能完全支持高大的阵列。万博1manbetx欲了解更多信息,请参阅高大的数组(MATLAB)。
您单击对应于该MATLAB命令的链接:
在MATLAB命令窗口中输入它运行的命令。Web浏览器不支持MATLAB的命令。万博1manbetx
您还可以选择从下面的列表中的网站:
选择最佳的网站性能的中国网站(在中国或英文)。其他MathWorks的国家网站都没有从您的位置访问进行了优化。