ツリーの場合、葉ノードの分類の"スコア"は、そのノードでの分類の事後確率です。あるノードにおける分類の事後確率とは、分類によって実際にそのノードに達するのに要した学習シーケンスの数を、そのノードまでの学習シーケンスの数で除算した値です。
たとえば、X
<0.15
またはX
>0.95
である場合は予測子X
を符合事实的
に分類し、それ以外の場合はX
を 错误的に分類するとします。
100個の点を無作為に生成し、分類します。
ツリーを枝刈りします。
枝刈りされたツリーは、0.15未満の観測値を正しく符合事实的
に分類しています。また、.15から .94までの観測値についても、正しく错误的
に分類しています。しかし、0.94より大きい観測は错误的
と誤って分類されます。そのため、0.15より大きい観測値のスコアは、符合事实的
では .05/.85=.06、错误的
では .8/.85=.94 になります。
X
の先頭から 10行までの予測スコアを計算します。
ans=10×30.9059 0.0941 0.8147 0.9059 0.0941 0.9058 0 1.0000 0.1270 0.9059 0.0941 0.9134 0.9059 0.0941 0.6324 0 1.0000 0.0975 0.9059 0.0941 0.2785 0.9059 0.0941 0.5469 0.9059 0.0941 0.9575 0.9059 0.0941 0.9649
実際に、X
で 0.15より小さいすべての値 (右端の列) には、0
と1.
のスコアが関連付けられ (左の列と中央の列)、X
のその他の値には、0.91
と0.09
のスコアが関連付けられています。スコアの違い (想定した.06
ではなく、0.09
) は、統計変動によるものです。範囲(.95,1)
のX
には、想定した5.
個ではなく8.
個の観測値があります。