resubLoss

通过resubstitution分类错误

扩大所有页面

语法

L = resubLoss(树) L = resubLoss（树，名称，值） L = resubLoss(树的子树,subtreevector) (L, se) = resubLoss(树的子树,subtreevector) [L, se, NLeaf] = resubLoss(树的子树,subtreevector) [L, se, NLeaf bestlevel] = resubLoss(树的子树,subtreevector) [L，...] = resubLoss（树,“子树”,subtreevector,名称,值)

描述

l= resubLoss（树)返回重新替换损失，即计算的数据的损失fitctree用于创建树。

l= resubLoss（树,名称,值)返回一个或多个指定的附加选项的损失名称,值对参数。您可以按照任何顺序指定多个名称 - 值对参数Name1, Value1,…,的家。

l= resubLoss（树,“子树”，subtreevector）返回树木分类错误的矢量修剪序列中subtreevector。

(l,SE] = resubLoss（树,“子树”，subtreevector）返回分类错误的标准错误的向量。

(l,SE,NLeaf] = resubLoss（树,“子树”，subtreevector）返回修剪序列的树的叶节点的数的矢量。

(l,SE,NLeaf,bestlevel] = resubLoss（树,“子树”，subtreevector）属性中定义的最佳修剪级别的TreeSize名称 - 值对。默认情况下,bestlevel是修剪水平，让损失降到最低的一个标准差之内的损失。

[L，...] = resubLoss（树,“子树”，subtreevector，名称,值)返回由一个或多个指定的附加选项的损失统计信息名称,值对参数。您可以按照任何顺序指定多个名称 - 值对参数Name1, Value1,…,的家。

输入参数

全部展开

`树`	通过构建的分类树`fitctree`。

名称-值对的观点

的可选逗号分隔对名称,值参数。名称参数名和值是对应的值。名称必须出现引号内。您可以按照任何顺序指定多个名称和值对参数Name1, Value1,…,的家。

`'LossFun'`- - - - - -损失函数
`“classiferror”`（默认）|`“binodeviance”`|`“指数”`|`'合页'`|`分对数的`|`“mincost”`|`“二次”`|函数处理

损耗函数，指定为逗号分隔的一对组成的'LossFun'以及内置的丢失函数名或函数句柄。

下表列出了可用的损失函数。使用其对应的字符向量或字符串标量指定一个。

值	描述
`“binodeviance”`	二项式越轨
`“classiferror”`	分类错误
`“指数”`	指数
`'合页'`	铰链
`分对数的`	物流
`“mincost”`	最小期望误分类代价(对于后验概率的分类分数)
`“二次”`	二次

“mincost”适合于那些后验概率分类分数。分类树在默认情况下返回后验概率作为分类的分数（见预测)。

使用函数句柄符号指定自己的函数。
假设n为观察的次数X和K为不同类别的数目(numel（tree.ClassNames）)。你的函数必须有这个签名
```
lossvalue =lossfun(C、S、W、成本)
```
地点:
- 输出参数lossvalue是一个标量。
- 选择函数名(lossfun)。
- C是一个n——- - - - - -K与指示对应的观察属于哪个类别的行逻辑矩阵。列的顺序对应于类的顺序tree.ClassNames。
  构造C通过设置C（P，Q）= 1如果观察p是在课堂上问，对于每一行。组行的所有其他元素p至0。
- 年代是一个n——- - - - - -K分类分数的数字矩阵。列的顺序对应于类的顺序tree.ClassNames。年代是一个分类分数矩阵，类似的输出预测。
- W是一个n×1观察权重的数值向量。如果您通过W，软件将它们标准化，使其总和1。
- 成本是一个K——- - - - - -K错误分类代价的数值矩阵。例如,成本=酮（K） - 眼（K）指定成本0为正确分类，和1误分类。
使用以下命令指定您的函数“LossFun”@lossfun。

有关损失函数的详细信息，请参见分类损失。

数据类型:字符|串|function_handle

名称,值与修剪子树相关的参数：

`“子树”`- - - - - -修剪水平
0（默认）|非负整数向量|`“所有”`

删除级别，指定为逗号分隔对所组成的“子树”和一个升序或的非负整数向量“所有”。

如果指定一个矢量，那么将所有元件必须至少0在最马克斯(tree.PruneList)。0表示完整的、未修剪的树，并且马克斯(tree.PruneList)表示已完全修剪的树(即。，只是根节点)。

如果您指定“所有”,然后resubLoss对所有子树(即,the entire pruning sequence). This specification is equivalent to using0：最大（tree.PruneList）。

resubLoss李子树到每一层的指示子树，然后估计相应的输出参数。的大小子树确定的一些输出参数的大小。

调用子树，属性PruneList和PruneAlpha的树不能是空的。换句话说，成长树通过设置“修剪”，“上”，或通过修剪树运用修剪。

例子:“子树”，“全部”

数据类型:单|双|字符|串

`“TreeSize”`- - - - - -树的大小
`'SE'`（默认）|`“最小值”`

树的大小，指定为逗号分隔对所组成的“TreeSize”和下列价值观之一:

'SE'- - - - - -损失返回最高修剪水平，而损失在最低修剪水平的一个标准偏差内(l+SE,在那里l和SE涉及在最小值子树)。
“最小值”- - - - - -损失返回的元素子树以最小的损失，通常是最小的元素子树。

输出参数

`l`	分类损失中，矢量的长度`子树`。错误的含义取决于中的值`权重`和`LossFun`。
`SE`	损失的标准误差，一个向量的长度`子树`。
`NLeaf`	在修剪的子树的叶子(终端节点)的数量，一个向量的长度`子树`。
`bestlevel`	其值依赖于的标量`的TreeSize`: `的TreeSize`=`'SE'`- - - - - -`损失`返回最高修剪水平，而损失在最低修剪水平的一个标准偏差内(`l`+`SE`,在那里`l`和`SE`涉及在最小值`子树`)。 `的TreeSize`=`“最小值”`- - - - - -`损失`返回的元素`子树`以最小的损失，通常是最小的元素`子树`。

例子

全部展开

计算样本内分类误差

开立真实脚本

计算的再替换分类误差电离层数据。

负载电离层树= fitctree (X, Y);L = resubLoss(树)

L = 0.0114

检查分类错误每个子树

开立真实脚本

未修剪的决策树容易过度拟合。平衡模型复杂性和样本外性能的一种方法是修剪树(或限制它的增长)，使样本内和样本外性能都令人满意。

加载费舍尔的虹膜数据集。将数据划分为训练（50％）和验证（50％）集。

负载fisheririsN =尺寸（MEAS，1）;RNG（1）%的再现性idxTrn =假（N，1）;idxTrn（randsample（N，圆形（0.5 * N）））= TRUE;％培训组逻辑指数idxVal = idxTrn == FALSE;%验证设置逻辑索引

生成，使用训练集的分类树。

Mdl = fitctree(量(idxTrn:),物种(idxTrn));

查看分类树。

视图(Mdl,“模式”,“图”);

分类树有四个修剪水平。Level 0是满的，未修剪的树（如图显示）。级别3仅仅是根节点（即，没有裂痕）。

检查每个子树(或修剪级别)的训练样本分类错误，排除最高级别。

m = max(Mdl.PruneList) - 1;trnLoss = resubLoss (Mdl,“子树”，0：米）

trnLoss =3×10.0267 0.0533 0.3067

完整的，未修剪的树分类错误的大约2.7%的训练观察。
被修剪到1级的树大约有5.3%的训练观察结果分类错误。
树被修剪到第2级。,a stump) misclassifies about 30.6% of the training observations.

检查每个级别不包括最高级别的验证样本分类错误。

valLoss =损失(Mdl量(idxVal:),物种(idxVal),“子树”，0：米）

valLoss =3×10.0369 0.0237 0.3067

完整的、未修剪的树有3.7%的验证观察结果分类错误。
树修剪水平1 misclassifies有关验证意见的2.4％。
树被修剪到第2级。,a stump) misclassifies about 30.7% of the validation observations.

为了平衡模型复杂性和样本外性能，考虑修剪MDL1级。

pruneMdl =剪枝（MDL，'水平'1);视图(pruneMdl,“模式”,“图”)

更多关于

全部展开

分类损失

分类损失测量功能分类模型的预测不准确。当你比较同类型的众多车型中的损失，更低的损耗表示更好的预测模型。

考虑以下场景。

l为分类损失的加权平均。
n为样本容量。
对于二元分类：
- y_j为观察到的类标签。软件将其编码为-1或1，分别表示负类或正类。
- f(X_j）是原始分类评分观察（行）j预测数据X。
- 米_j=y_jf(X_j)为分类观察的分类分数j对应到的类y_j。积极的价值观米_j表明正确分类，也没有太多的平均损失作出贡献。的负值米_j表明不正确的分类和平均损失显著贡献。
对于支持多类分类的算法(即，万博1manbetxK≥3):
- y_j^*是的向量K- 1个零，其中1个对应于观察到的真类y_j。举例来说，如果真类的第二观察是第三类和K= 4，然后y^*₂= [0 0 1 0] '类的顺序对应于一会输入模型的属性。
- f(X_j)是长度K级得分进行观察的矢量j预测数据X。分数的顺序与班级的顺序相对应一会输入模型的属性。
- 米_j=y_j^*′f(X_j)。因此,米_j是标分类评分模型预测为真，观察到的类。
观测权重j是w_j。软件对观测权值进行归一化，使它们和成相应的先验类概率。软件还对先验概率进行归一化，使它们的和为1。因此,

$Σ_{j = 1}^{n} w_{j} = 1。$

在此场景中，下表描述了可以通过使用万博1manbetx'LossFun'名称-值对的论点。

损失函数	的价值`LossFun`	方程
二项式越轨	`“binodeviance”`	$l = Σ_{j = 1}^{n} w_{j} 日志 {1 + EXP (- 2 米_{j}]} 。$
指数损失	`“指数”`	$l = Σ_{j = 1}^{n} w_{j} EXP (- 米_{j}) 。$
分类错误	`“classiferror”`	$l = Σ_{j = 1}^{n} w_{j} 我 {{\hat{y}}_{j} \neq y_{j}} 。$ 它是错误分类的观察，其中的加权分数 ${\hat{y}}_{j}$ 为后验概率最大的类对应的类标签。我{x}为指标函数。
铰链的损失	`'合页'`	$l = Σ_{j = 1}^{n} w_{j} 最大 {0, 1 - 米_{j}} 。$
分对数损失	`分对数的`	$l = Σ_{j = 1}^{n} w_{j} 日志 (1 + EXP (- 米_{j})) 。$
最小的成本	`“mincost”`	最小的成本。软件计算加权最小代价使用这个程序的观察j= 1,…,n。估计1 -K向量的期望分类成本的观察j: $γ_{j} = f {(X_{j})}^{'} C 。$ f(X_j）是类后验概率的二进制和多类分类的列向量。C输入模型中存储的成本矩阵是`成本`财产。观察j，预测分类成本对应的最小期望分类成本: ${\hat{y}}_{j} = \underset{j = 1, ..., K}{分} (γ_{j}) 。$ 使用C，厘定所招致的成本(c_j)作出预测。加权、平均、最小成本损失为 $l = Σ_{j = 1}^{n} w_{j} c_{j} 。$
二次损失	`“二次”`	$l = Σ_{j = 1}^{n} w_{j} {(1 - 米_{j})}^{2} 。$

该图比较了损失功能（除了“mincost”)来观察一下米。有些函数被标准化通过[0,1]。

真正的误分类代价

有与分类相关的两个成本：每类真正误判的成本，以及每观察预期的误判成本。

属性中可以设置每个类的真正误分类代价成本名称 - 值对，当您使用创建的分类fitctree方法。成本(i, j)将观察结果分类的成本是多少j如果它的真类是我。默认情况下,成本(i, j) = 1如果我~ = j和成本(i, j) = 0如果我= j的。换句话说，成本是0为正确分类，和1不正确的分类。

预计误分类代价

有与分类相关的两个成本：每类真正误判的成本，以及每观察预期的误判成本。

假设你有NOBS要用训练过的分类器分类的观察。假设你有K类。您将观察到一个矩阵Xnew每行观察一次。

预期成本矩阵CE有大小NOBS——- - - - - -K。每一行的CE包含观察分类到每个的预期（平均）成本K类。CE (n, k)是

$Σ_{我 = 1}^{K} \hat{P} (我 | X n e w (n)) C (k | 我),$

哪里

K为类数。
$\hat{P} (我 | X n e w (n))$ 后验概率是多少我为观察Xnew(n)。
$C (k | 我)$ 为观察作为分类的真实成本误判k当它的真实类为我。

另请参阅

fitctree|损失|resubEdge|resubMargin|resubPredict

resubLoss

语法

描述

输入参数

名称-值对的观点

`'LossFun'`- - - - - -损失函数
`“classiferror”`（默认）|`“binodeviance”`|`“指数”`|`'合页'`|`分对数的`|`“mincost”`|`“二次”`|函数处理

`“子树”`- - - - - -修剪水平
0（默认）|非负整数向量|`“所有”`

`“TreeSize”`- - - - - -树的大小
`'SE'`（默认）|`“最小值”`

输出参数

例子

计算样本内分类误差

检查分类错误每个子树

更多关于

分类损失

真正的误分类代价

预计误分类代价

另请参阅

统计和机器学习工具箱文档

万博1manbetx

掌握机器学习:用MATLAB逐步指导

resubLoss

语法

描述

输入参数

名称-值对的观点

'LossFun'- - - - - -损失函数“classiferror”（默认）|“binodeviance”|“指数”|'合页'|分对数的|“mincost”|“二次”|函数处理

“子树”- - - - - -修剪水平0（默认）|非负整数向量|“所有”

“TreeSize”- - - - - -树的大小'SE'（默认）|“最小值”

输出参数

例子

计算样本内分类误差

检查分类错误每个子树

更多关于

分类损失

真正的误分类代价

预计误分类代价

另请参阅

统计和机器学习工具箱文档

万博1manbetx

掌握机器学习:用MATLAB逐步指导

`'LossFun'`- - - - - -损失函数
`“classiferror”`（默认）|`“binodeviance”`|`“指数”`|`'合页'`|`分对数的`|`“mincost”`|`“二次”`|函数处理

`“子树”`- - - - - -修剪水平
0（默认）|非负整数向量|`“所有”`

`“TreeSize”`- - - - - -树的大小
`'SE'`（默认）|`“最小值”`