resubLoss

クラス:分类树

再置換による分類誤差

構文

L = resubLoss(树) L = resubLoss(树、名称、值) L = resubLoss(树的子树,subtreevector) (L, se) = resubLoss(树的子树,subtreevector) [L，se，NLeaf]=resubLoss（树，'子树'，子树向量） [L, se, NLeaf bestlevel] = resubLoss(树的子树,subtreevector) [L，…]=resubLoss（树、‘子树’、子树向量、名称、值）

説明

l= resubLoss (树）は、関数fitctreeが树の作成に使用したデータで計算した損失を意味する,再代入損失を返します。

l= resubLoss (树，名称,值）は、1.つ以上の名称,值のペア引数で指定された追加オプションを使用して、損失を返します。Name1, Value1,…,的家のように,複数の名前と値のペアの引数を任意の順番で指定できます。

l= resubLoss (树，“子树”subtreevector)は,枝刈りしたシーケンス子树向量内のツリーの分類誤差のベクトルを返します。

［l，se) = resubLoss (树，“子树”subtreevector)は、分類誤差の標準誤差ベクトルを返します。

［l，se，NLeaf) = resubLoss (树，“子树”subtreevector)は,枝刈りしたシーケンスのツリーの葉ノードの数を示すベクトルを返します。

［l，se，NLeaf，bestlevel) = resubLoss (树，“子树”subtreevector)は,树状化名前と値のペアに定義された最適な枝刈りレベルを返します。既定では,bestlevelは,最も損失の少ない,1標準偏差内の損失の枝刈りレベルです。

(L,…］= resubLoss (树，“子树”subtreevector,名称,值）は、1.つ以上の名称,值のペア引数で指定された追加オプションを使用して、損失統計を返します。Name1, Value1,…,的家のように,複数の名前と値のペアの引数を任意の順番で指定できます。

入力引数

すべて展開する

`树`	`fitctree`によって構築された分類木。

名前と値のペアの引数

オプションの名称,值引数のコンマ区切りペアを指定します。名称は引数名で,价值は対応する値です。名称は引用符で囲まなければなりません。名称1，值1，…，名称，值のように,複数の名前と値のペアの引数を,任意の順番で指定できます。

`失意`- - - - - -損失関数
`“mincost”`(既定値) |`“binodeviance”`|`“classiferror”`|`“指数型”`|`“枢纽”`|`分对数的`|`“二次”`|関数ハンドル

損失関数。“LossFun”と組み込みの損失関数名または関数ハンドルから構成されるコンマ区切りのペアとして指定します。

次の表は、使用可能な損失関数の一覧です。対応する文字ベクトルまたは一串スカラーを使用して、いずれかを指定します。

値	説明
`“binodeviance”`	二項分布からの逸脱度
`“classiferror”`	10進数の誤分類率
`“指数型”`	指数損失
`“枢纽”`	ヒンジ損失
`分对数的`	ロジスティック損失
`“mincost”`	最小予測誤分類コスト(事後確率である分類スコアの場合)
`“二次”`	二次損失

“mincost”は、事後確率である分類スコアに適しています。既定の設定では、分類木は分類スコアとして事後確率を返します (预测を参照)。

関数ハンドル表記を使用して独自の関数を指定します。
X内の観測値数をn、異なるクラスの数 (元素个数(tree.ClassNames))をKとします。使用する関数のシグネチャは次のようになっていなければなりません。
```
损失值=lossfun（C、S、W、成本）
```
ここで,
- 出力引数lossvalueはスカラーです。
- 関数名 (lossfun)を選択します。
- Cはn行K列の必然的行列で、行は対応する観測値が属するクラスを示しています。列の順序は树。ClassNamesのクラスの順序に対応します。
  Cを作成するには、各行について観測値pがクラス问に含まれている場合にC (p, q) = 1を設定します。行pの他のすべての要素を0に設定します。
- 年代は、分類スコアのn行K列の行列です。列の順序は树。ClassNamesのクラスの順序に対応します。年代は分類スコアの行列で、预测の出力と同様です。
- Wは、観測値の重みのn行 1.列の数値ベクトルです。Wを渡す場合,要素は正規化され,合計が1になります。
- 费用は、誤分類コストの、K行K列の数値行列です。たとえば,Cost = ones(K) - eye(K)は,正しい分類のコストとして0を、誤分類のコストとして1を指定します。
"损失",@lossfunを使用して独自の関数を指定します。

損失関数の詳細については、分類損失を参照してください。

データ型:烧焦|一串|function_handle

枝刈りしたサブツリーに関連する名称,值引数。

`子树`- - - - - -枝刈りレベル
0(既定値) |非負の整数のベクトル|`“所有”`

枝刈りレベル。“子树”と昇順の非負の整数のベクトルまたは“所有”から構成されるコンマ区切りのペアとして指定します。

ベクトルを指定する場合,すべての要素が0から马克斯(tree.PruneList)の範囲になければなりません。0は枝刈りしない完全な木を,马克斯(tree.PruneList)は完全に枝刈りした木(つまり,ルートノードのみ)を表します。

“所有”を指定した場合、resubLossはすべての部分木 (枝刈り順序全体) に作用します。これは、0:马克斯(tree.PruneList)を指定することと同じです。

resubLossでは,子树で指定された各レベルまで树の枝刈りを行ってから、対応する出力引数を推定します。子树のサイズにより、一部の出力引数のサイズが決まります。

子树を呼び出すために,树のPruneListプロパティまたはPruneAlphaプロパティを空にすることはできません。言い換えると,“剪枝”，“开”を設定して树を成長させるか,修剪を使用して树の枝刈りを行います。

例:“子树”，“全部”

データ型:仅有一个的|双重的|烧焦|一串

`树状化`- - - - - -木のサイズ
`“se”`(既定値) |`“敏”`

木のサイズ。“TreeSize”と次のいずれかの値から構成されるコンマ区切りのペアとして指定します。

“se”- - - - - -丧失は,最小の1標準偏差内の損失(l+se、このときlおよびseは,子树での最小値に相関します) をもつ、最も高い枝刈りレベルを返します。
“敏”- - - - - -丧失は、最も損失が少ない子树の要素を戻します。通常,これは子树の最小要素です。

出力引数

`l`	分類損失。長さが`子树`のベクトル。誤差の意味は,`权重`および`失意`の値によって異なります。
`se`	損失の標準誤差。`子树`の長さのベクトル。
`NLeaf`	枝刈りされたサブツリー内の葉 (端末ノード) の数。`子树`の長さのベクトル。
`bestlevel`	`树状化`によって値が異なるスカラー。 `树状化`＝`“se”`- - - - - -`丧失`は,最小の1標準偏差内の損失(`l`+`se`、このとき`l`および`se`は,`子树`での最小値に相関します) をもつ、最も高い枝刈りレベルを返します。 `树状化`＝`“敏”`- - - - - -`丧失`は、最も損失が少ない`子树`の要素を返します。通常,これは`子树`の最小要素です。

例

すべて展開する

標本内分類誤差の計算

ライブスクリプトを開く

电离层データについて,再代入分類誤差を計算します。

负载电离层树= fitctree (X, Y);L = resubLoss(树)

L = 0.0114

各部分木の分類誤差の確認

ライブスクリプトを開く

枝刈りをしていない決定木は、過適合になる傾向があります。モデルの複雑さと標本外性能のバランスをとる方法の 1.つとして、標本内性能と標本外性能が十分高くなるように木の枝刈りを行います (つまり木の成長を制限します)。

フィッシャーのアヤメのデータセットを読み込みます。データを学習セット (50%) と検定セット (50%) に分割します。

负载fisheriris1) n =大小(量;rng (1)%为了再现性idxTrn = false (n, 1);idxTrn (randsample (n,圆(0.5 * n))) = true;%训练集逻辑索引idxVal = idxTrn == false;%验证集逻辑索引

学習セットを使用して分類木を成長させます。

Mdl = fitctree(量(idxTrn:),物种(idxTrn));

分類木を表示します。

视图（Mdl，“模式”，“图形”）；

图分类树查看器包含一个轴和其他类型的uimenu, uicontrol对象。轴包含18个类型为line, text的对象。

この分類木には 4.つの枝刈りレベルがあります。レベル 0は、(表示のように) 枝刈りされていない完全な木です。レベル 3.はルートノードのみ (分割なし) です。

最上位レベルを除く各部分木 (枝刈りレベル) について、学習標本の分類誤差を確認します。

m=最大（Mdl.PruneList）-1；trnLoss=恢复（Mdl，“子树”0米):

trnLoss =3×10.0267 0.0533 0.3067

枝刈りされていない完全な木では、学習観測値の約 2.7% が誤分類されています。
レベル 1.まで枝刈りされた木では、学習観測値の約 5.3% が誤分類されています。
レベル2(切り株)まで枝刈りされた木では,学習観測値の約30.6%が誤分類されています。

最上位を除く各レベルで検定標本の分類誤差を確認します。

valLoss=损失（Mdl，MEA（idxVal，：），物种（idxVal），“子树”0米):

valLoss =3×10.0369 0.0237 0.3067

枝刈りされていない完全な木では、検定観測値の約 3.7% が誤分類されています。
レベル 1.まで枝刈りされた木では、検定観測値の約 2.4% が誤分類されています。
レベル2(切り株)まで枝刈りされた木では,検定観測値の約30.7%が誤分類されています。

モデルの複雑さと標本外性能のバランスをとるには,Mdlをレベル 1.まで枝刈りすることを検討します。

pruneMdl =修剪(Mdl,“水平”1);视图(pruneMdl,“模式”，“图形”）

地物分类树查看器包含一个轴和其他类型为uimenu、uicontrol的对象。轴包含12个类型为line、text的对象。

詳細

すべて展開する

分類損失

"分類損失"関数は分類モデルの予測誤差を評価します。複数のモデルで同じタイプの損失を比較した場合,損失が低い方が予測モデルとして優れていることになります。

以下のシナリオを考えます。

Lは加重平均分類損失です。
nは標本サイズです。
バイナリ分類は以下です。
- y_jは観測されたクラスラベルです。陰性クラスを示す1または陽性クラスを示す1(あるいは,一会プロパティの最初のクラスを示す1または2番目のクラスを示す1)を使用して符号化されます。
- f (X_j) は予測子データ Xの観測値 (行) Jに対する陽性クラスの分類スコアです。
- 米_j= y_jf (X_j) は、Y_jに対応するクラスに観測値 Jを分類する分類スコアです。正の値の M_jは正しい分類を示しており、平均損失に対する寄与は大きくありません。負の値の M_jは正しくない分類を示しており,平均損失に大きく寄与します。
マルチクラス分類(つまり,K≥ 3.)をサポートするアルゴリズムの場合,次のようになります。
- y_j^＊は、K-1個の 0と、観測された真のクラス Y_jに対応する位置の1から構成されるベクトルです。たとえば,2番目の観測値の真のクラスが 3 番目のクラスでありK=4の場合、y₂^＊= [0 0 1 0] 'になります。クラスの順序は入力モデルの一会プロパティ内の順序に対応します。
- f (X_j)は予測子データXの観測値jに対するクラススコアのベクトルで,長さはKです。スコアの順序は入力モデルの一会プロパティ内のクラスの順序に対応します。
- 米_j= y_j^＊“f (X_j)．したがって M_jは、観測された真のクラスについてモデルが予測するスカラー分類スコアです。
観測値 Jの重みは W_jです。観測値の重みは正規化され,合計は対応するクラスの事前確率になります。また,事前確率は合計が1になるように正規化されます。そのため,次のようになります。

$\sum_{j ＝ 1}^{n} w_{j} ＝ 1.$

この状況では,名前と値のペアの引数“LossFun”を使用して指定できる、サポートされる損失関数は次の表のようになります。

損失関数	`失意`の値	式
二項分布からの逸脱度	`“binodeviance”`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} 日志｛ 1 + 经验值［ - 2 米_{j} ］｝．$
10進数の誤分類率	`“classiferror”`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} 我｛ {\overset{＾}{y}}_{j} \neq y_{j} ｝．$ ${\overset{＾}{y}}_{j}$ は,スコアが最大であるクラスに対応するクラスラベルです。我{·}はインジケーター関数です。
クロスエントロピー損失	`“crossentropy”`	`“crossentropy”`はニューラルネットワークモデルのみに適しています。加重クロスエントロピー損失は次となります。 $l ＝ - \sum_{j ＝ 1}^{n} \frac{{\tilde{w}}_{j} 日志（米_{j} ）}{K n} ，$ ここで重み ${\tilde{w}}_{j}$ は,合計が1ではなくnになるように正規化されます。
指数損失	`“指数型”`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} 经验值（ - 米_{j} ）．$
ヒンジ損失	`“枢纽”`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} 马克斯｛ 0 ， 1 - 米_{j} ｝．$
ロジット損失	`分对数的`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} 日志（ 1 + 经验值（ - 米_{j} ））．$
最小予測誤分類コスト	`“mincost”`	`“mincost”`は、分類スコアが事後確率の場合にのみ適しています。重み付きの最小予測分類コストは、次の手順を観測値 j=1、…、nについて使用することにより計算されます。観測値X_jをクラス Kに分類するための予測誤分類コストを推定します。 $γ_{j k} ＝ {（ f {（ X_{j} ）}^{”} C ）}_{k} ．$ f (X_j) は観測値 X_jのバイナリおよびマルチクラス分類におけるクラスの事後確率の列ベクトルです。Cはモデルの`费用`プロパティに格納されるコスト行列です。最小予測誤分類コストに対応するクラスラベルを観測値 Jについて予測します。 ${\overset{＾}{y}}_{j} ＝ \underset{k ＝ 1 ， ... ， K}{阿明} γ_{j k} ．$ Cを使用して、予測を行うために必要なコスト（c）_j)を求めます。最小予測誤分類コスト損失の加重平均は次となります。 $l ＝ \sum_{j ＝ 1}^{n} w_{j} c_{j} ．$ 既定のコスト行列 (正しい分類の場合の要素値は 0、誤った分類の場合の要素値は 1) を使用する場合、`“mincost”`損失は`“classiferror”`損失と等価になります。
二次損失	`“二次”`	$l ＝ \sum_{j ＝ 1}^{n} w_{j} {（ 1 - 米_{j} ）}^{2} ．$

次の図では1つの観測値のスコアmに対する損失関数(“crossentropy”および“mincost”を除く) を比較しています。いくつかの関数は、点 (0,1) を通過するように正規化されています。

真の誤分類コスト

真の誤分類コストは,観測値を誤ったクラスに分類するコストです。

分類器の作成時に、名前と値の引数“成本”を使用してクラスごとの真の誤分類コストを設定できます。成本(i, j)は,真のクラスが我の場合に観測値をクラスjに分類するコストです。既定では,成本（i，j）=1（i~=jの場合)および成本（i，j）=0（我=我の場合)です。つまり,正しい分類のコストは0,誤った分類のコストは1です。

予測誤分類コスト

観測値ごとの予測誤分類コストは、観測をそれぞれのクラスに分類する平均コストです。

学習済みの分類器を使用して脑袋個の観測値を分類するとします。また,K個のクラスがあるとします。1行に 1 観測ずつ、観測値を行列Xに置きます。

予測コスト行列CEのサイズは、脑袋行K列です。CEの各行には,観測をそれぞれのクラスKに分類する予測 (平均) コストが含まれます。CE (n, k)は次のとおりです。

$\sum_{我＝ 1}^{K} \overset{＾}{P} （我 | X （ n ）） C （ k | 我），$

ここで,

Kはクラスの数です。
$\overset{＾}{P} （我 | X （ n ））$ は、観測値 X（n）のクラス我の事後確率です。
$C （ k | 我）$ は,真のクラスが我である観測値をkに分類する真の誤分類コストです。

参考

丧失|resubEdge|再精|resubPredict|fitctree

resubLoss

構文

説明

入力引数

名前と値のペアの引数

`失意`- - - - - -損失関数
`“mincost”`(既定値) |`“binodeviance”`|`“classiferror”`|`“指数型”`|`“枢纽”`|`分对数的`|`“二次”`|関数ハンドル

`子树`- - - - - -枝刈りレベル
0(既定値) |非負の整数のベクトル|`“所有”`

`树状化`- - - - - -木のサイズ
`“se”`(既定値) |`“敏”`

出力引数

例

標本内分類誤差の計算

各部分木の分類誤差の確認

詳細

分類損失

真の誤分類コスト

予測誤分類コスト

参考

统计和机器学习工具箱ドキュメンテーション

サポート

機械学習をマスターする:MATLABステップ・バイ・ステップガイド

resubLoss

構文

説明

入力引数

名前と値のペアの引数

失意- - - - - -損失関数“mincost”(既定値) |“binodeviance”|“classiferror”|“指数型”|“枢纽”|分对数的|“二次”|関数ハンドル

子树- - - - - -枝刈りレベル0(既定値) |非負の整数のベクトル|“所有”

树状化- - - - - -木のサイズ“se”(既定値) |“敏”

出力引数

例

標本内分類誤差の計算

各部分木の分類誤差の確認

詳細

分類損失

真の誤分類コスト

予測誤分類コスト

参考

统计和机器学习工具箱ドキュメンテーション

サポート

機械学習をマスターする:MATLABステップ・バイ・ステップガイド

`失意`- - - - - -損失関数
`“mincost”`(既定値) |`“binodeviance”`|`“classiferror”`|`“指数型”`|`“枢纽”`|`分对数的`|`“二次”`|関数ハンドル

`子树`- - - - - -枝刈りレベル
0(既定値) |非負の整数のベクトル|`“所有”`

`树状化`- - - - - -木のサイズ
`“se”`(既定値) |`“敏”`