バギングされた決定木のアンサンブルの使用による応答の予測- MATLAB MathWorks日本

構文

Yfit =预测(B, X) Yfit =预测(B, X,名称,值) [Yfit,方差]=预测(＿＿＿） [Yfit,分数]=预测(＿＿＿） [Yfit,分数,方差)=预测(＿＿＿）

説明

Yfit =预测(B, X)は,バギングされた決定木のアンサンブルBに基づいて,テーブルまたは行列X内の予測子データに対する予測応答のベクトルを返します。Yfitは,分類の場合は文字ベクトルの细胞配列,回帰の場合は数値配列です。既定の設定では,预测はアンサンブル内のすべてのツリーから民主的な(重み付けされていない)平均の票決を受け入れます。

Bは学習済みのTreeBaggerモデルオブジェクト,つまりTreeBaggerによって返されるモデルです。

Xは,応答の生成に使用する予測子データのテーブルまたは行列です。行は観測値を,列は変数を表します。

Xが数値行列の場合
- Xの列を構成する変数の順序は,Bに学習させた予測子変数の順序と同じでなければなりません。
- テーブル(たとえば资源描述)を使用してBに学習をさせた場合,资源描述に含まれている予測子変数がすべて数値変数であれば,Xを数値行列にすることができます。学習時に资源描述内の数値予測子をカテゴリカルとして扱うには,TreeBaggerの名前と値のペアの引数CategoricalPredictorsを使用してカテゴリカル予測子を同定します。资源描述に種類の異なる予測子変数(数値および直言データ型など)が混在し,Xが数値行列である場合,预测でエラーがスローされます。
Xがテーブルの場合
- 预测は,文字ベクトルの细胞配列ではない细胞配列と複数列の変数をサポートしません。
- テーブル(たとえば资源描述)を使用してBに学習をさせた場合,X内のすべての予測子変数は変数名およびデータ型が,(B.PredictorNamesに格納されている)Bに学習させた変数と同じでなければなりません。ただし,Xの列の順序が资源描述の列の順序に対応する必要はありません。资源描述とXに追加の変数(応答変数や観測値の重みなど)を含めることができますが,预测はこれらを無視します。
- 数値行列を使用してBに学習をさせた場合,B.PredictorNames内の予測子名とX内の対応する予測子変数名が同じでなければなりません。学習時に予測子の名前を指定する方法については,TreeBaggerの名前と値のペアの引数PredictorNamesを参照してください。X内の予測子変数はすべて数値ベクトルでなければなりません。Xに追加の変数(応答変数や観測値の重みなど)を含めることができますが,预测はこれらを無視します。

Yfit =预测(B, X,名称,值）は,以下の名前と値のペアの引数を1つ以上使用して追加オプションを指定します。

“树”——応答の計算に使用する木のインデックスの配列。既定の設定は“所有”です。
“TreeWeights”——指定された木からの票に重みを付けるためのNTrees個の重みの配列。NTreesは,アンサンブル内の木の本数です。
“UseInstanceForTree”——各観測値に対する予測を行うために使用する木を示す脑袋行NTrees列の逻辑行列。脑袋は観測値の個数です。既定の設定では,すべての観測値に対してすべてのツリーが使用されます。

回帰の場合,[Yfit,方差]=预测(＿＿＿）は前の構文における任意の入力引数を組み合わせて使用し,成長した木のアンサンブルにおいて計算された応答の標準偏差も返します。

分類の場合,[Yfit,分数]=预测(＿＿＿）はすべてのクラスのスコアも返します。分数は,観測値ごとに1つずつの行,クラスごとに1つずつの列がある行列です。各木によって生成されるスコアは,各観測値および各クラスについて,木の葉におけるそのクラスの観測値の割合として計算された,そのクラスから観測値が派生する確率です。预测は,アンサンブル内のすべての木についてこれらのスコアの平均を計算します。

[Yfit,分数,方差)=预测(＿＿＿）は,分類の場合に,計算れたスコアの標準偏差も返します。方差は,観測値ごとに1つずつの行,クラスごとに1つずつの列がある行列です。標準偏差は,成長した木のアンサンブルに対して計算されます。

アルゴリズム

回帰問題の場合,観測値の予測応答は,選択された木のみを使用した予測の加重平均になります。つまり,

${\overset{＾}{y}}_{袋} ＝ \frac{1}{\sum_{t ＝ 1}^{T} α_{t} 我（ t \in 年代）} \sum_{t ＝ 1}^{T} α_{t} {\overset{＾}{y}}_{t} 我（ t \in 年代）．$
- ${\overset{＾}{y}}_{t}$ は,アンサンブル内の木tによる予測です。
- は,予測を構成する,選択された木のインデックスの集合です(＇树＇と＇UseInstanceForTree＇を参照)。 $我（ t \in 年代）$ はtが集合年代に含まれている場合は1,それ以外の場合は0になります。
- α_tは木tの重みです(＇TreeWeights＇を参照)。
分類問題の場合,選択された木のみを使用して計算したクラスの事後確率(分類スコア)の加重平均が最大になるクラスが,観測値について予測したクラスになります。つまり,
1. c∊cである各クラスおよび各木t = 1,……Tについて,预测は ${\overset{＾}{P}}_{t} （ c | x ）$ を計算します。これは,与えられた観測値xに対し木tを使用して推定されたクラスcの事後確率です。Cは学習データに含まれているすべての異なるクラスの集合です。分類木の事後確率についての詳細は,fitctreeと预测を参照してください。
2. 预测は,選択された木についてクラスの事後確率の加重平均を計算します。
  
  ${\overset{＾}{P}}_{袋} （ c | x ）＝ \frac{1}{\sum_{t ＝ 1}^{T} α_{t} 我（ t \in 年代）} \sum_{t ＝ 1}^{T} α_{t} {\overset{＾}{P}}_{t} （ c | x ）我（ t \in 年代）．$
3. 加重平均が最大になるクラスが,予測したクラスになります。
${\overset{＾}{y}}_{袋} ＝ \underset{c \in C}{参数马克斯} ｛ {\overset{＾}{P}}_{袋} （ c | x ）｝．$

参考

错误|oobPredict|预测|quantilePredict|TreeBagger

预测

構文

説明

アルゴリズム

参考

トピック

统计和机器学习工具箱ドキュメンテーション

サポート

機械学習をマスターする:MATLABステップ・バイ・ステップガイド