ツリーの場合,葉ノードの分類の“スコア”は,そのノードでの分類の事後確率です。あるノードにおける分類の事後確率とは,分類によって実際にそのノードに達するのに要した学習シーケンスの数を,そのノードまでの学習シーケンスの数で除算した値です。
たとえば,X
<0.15
またはX
>0.95
である場合は予測子X
を真正的
に分類し,それ以外の場合はX
を假に分類するとします。
100年個の点を無作為に生成し,分類します。
ツリーを枝刈りします。
枝刈りされたツリーは,0.15未満の観測値を正しく真正的
に分類しています。また,。15から .94 までの観測値についても、正しく假
に分類しています。しかし,0.94より大きい観測は假
と誤って分類されます。そのため,0.15より大きい観測値のスコアは,真正的
では. 05 / .85 = 0。06假
では。8 / .85 =。94年になります。
X
の先頭から10行までの予測スコアを計算します。
ans =10×30.9059 0.0941 0.8147 0.9059 0.0941 0.9058 0 1.0000 0.1270 0.9059 0.0941 0.9134 0.9059 0.0941 0.6324 0 1.0000 0.0975 0.9059 0.0941 0.2785 0.9059 0.0941 0.5469 0.9059 0.0941 0.9575 0.9059 0.0941 0.9649
実際に,X
0.15でより小さいすべての値(右端の列)には,0
と1
のスコアが関連付けられ(左の列と中央の列),X
のその他の値には,0.91
と0.09
のスコアが関連付けられています。スコアの違い(想定した06
ではなく,0.09
)は統計変動によるものです。範囲(1) .95
のX
には,想定した5
個ではなく8
個の観測値があります。