このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。
本地可解释模型不可知解释(LIME)
石灰は、重要な予測子を見つけて解釈可能な単純モデルをあてはめることにより、クエリ点に対する機械学習モデル (分類または回帰) の予測を説明します。
クエリ点(查询点
)と重要な予測子の数(重要预测因子
) を指定して、機械学習モデル用の石灰
オブジェクトを作成できます。ソフトウェアは合成データセットを生成し,クエリ点周辺の合成データに対する予測を効果的に説明する重要な予測子の解釈可能な単純モデルをあてはめます。単純モデルにできるのは,線形モデル(既定)または決定木モデルです。
あてはめられた単純モデルを使用して、指定したクエリ点での機械学習モデルの予測を局所的に説明します。関数情节
を使用して、石灰の結果を可視化します。局所的な説明に基づいて,機械学習モデルを信頼するかどうかを判断できます。
別のクエリ点には、関数适合
を使用して、新しい単純モデルをあてはめます。
黑箱
- - - - - -解釈される機械学習モデル解釈される機械学習モデル。完全またはコンパクトな回帰または分類モデル オブジェクトとして指定するか、関数ハンドルとして指定します。
完全またはコンパクトなモデル オブジェクト — オブジェクト関数预测
をもつ、完全またはコンパクトな、回帰または分類モデル オブジェクトを指定できます。ソフトウェアは、関数预测
を使用して,クエリ点についての予測と合成予測子データセットを計算します。
予測子データを含まないモデル オブジェクト (コンパクトなモデルなど) を指定する場合、X
または自定义数据
を使用して予測子データを提供しなければなりません。
石灰
は、スパース行列で学習させたモデル オブジェクトをサポートしません。モデルに学習させる場合は、行が各観測値に対応する非スパースの数値行列または 桌子を予測子データに使用してください。
回帰モデル オブジェクト
サポートされているモデル | 完全またはコンパクトな回帰モデル オブジェクト |
---|---|
回帰モデルのアンサンブル | 回归套 ,RegressionBaggedEnsemble ,压缩回归套 |
ランダムな特徴量拡張を使用したガウスカーネル回帰モデル | RegressionKernel |
ガウス過程回帰 | 回归方程 ,CompactRegressionGP |
一般化加法モデル | 回归Gam ,紧回归GAM |
高次元データの線形回帰 | RegressionLinear |
ニューラル ネットワーク回帰モデル | 回归神经网络 ,CompactRegressionNeuralNetwork |
回帰木 | 回归树 ,CompactRegressionTree |
サポートベクターマシン回帰 | 回归 ,压缩回归 |
分類モデル オブジェクト
サポートされているモデル | 完全またはコンパクトな分類モデル オブジェクト |
---|---|
マルチクラス分類用の二分決定木 | 分类树 ,CompactClassificationTree |
判別分析分類器 | ClassificationDiscriminant ,CompactClassificationDiscriminant |
分類用のアンサンブル学習器 | 分类符号 ,压缩分类插入码 ,分类BaggedAssemble |
ランダムな特徴量拡張を使用したガウス カーネル分類モデル | 分类核 |
一般化加法モデル | 分类 ,CompactClassificationGAM |
k最近傍モデル | ClassificationKNN |
線形分類モデル | ClassificationLinear |
サポート ベクター マシンまたはその他の分類器用のマルチクラス モデル | 分类 ,紧凑分类 |
単純ベイズモデル | 分类朴素贝叶斯 ,紧分类朴素贝叶斯 |
ニューラル ネットワーク分類器 | 分类神经网络 ,紧分类神经网络 |
バイナリ分類用のサポート ベクター マシン | 分类VM ,CompactClassificationSVM |
関数ハンドル——予測子データを受け入れ,予測子データの各観測値についての予測が格納された列ベクトルを返す関数ハンドルを指定できます。予測は,回帰の場合は予測された応答,分類の場合は分類されたラベルになります。X
または自定义数据
を使用して予測子データを提供し、名前と値の引数“类型”
を指定しなければなりません。
X
- - - - - -予測子データ予測子データ。数値行列またはテーブルとして指定します。X
の各行は1つの観測値に対応し,各列は1つの変数に対応します。
X
は、黑箱。X
に格納されている,黑箱
の学習に使用した予測子データと一致しなければなりません。指定する値に応答変数を含めてはなりません。
X
は、黑箱
の学習に使用した予測子変数 (たとえば、列车
) と同じデータ型でなければなりません。X
の列を構成する変数の個数と順序は,列车
と同じでなければなりません。
数値行列を使用して黑箱
に学習をさせる場合、X
は数値行列でなければなりません。
表を使用して黑箱
に学習をさせる場合、X
は 桌子でなければなりません。X
内のすべての予測子変数は、変数名およびデータ型が列车
と同じでなければなりません。
石灰
はスパース行列をサポートしません。
黑箱
が予測子データを含まないモデルオブジェクトまたは関数ハンドルである場合,X
または自定义数据
を指定しなければなりません。黑箱
が完全な機械学習モデル オブジェクトである場合にこの引数を指定すると、石灰
で黑箱
の予測子データは使用されません。指定した予測子データのみが使用されます。
データ型:仅有一个的
|双重的
|桌子
自定义数据
- - - - - -事前生成されたカスタム合成予測子データ セット[]
(既定値) |数値行列|テーブル事前生成されたカスタム合成予測子データセット。数値行列またはテーブルとして指定します。
事前生成されたデータ セットを提供する場合、石灰
は新しい合成予測子データ セットを生成する代わりに、提供されたデータ セットを使用します。
自定义数据
は、黑箱。X
に格納されている,黑箱
の学習に使用した予測子データと一致しなければなりません。指定する値に応答変数を含めてはなりません。
自定义数据
は、黑箱
の学習に使用した予測子変数 (たとえば、列车
) と同じデータ型でなければなりません。自定义数据
の列を構成する変数の個数と順序は,列车
と同じでなければなりません。
数値行列を使用して黑箱
に学習をさせる場合、自定义数据
は数値行列でなければなりません。
テーブルを使用して黑箱
に学習をさせる場合、自定义数据
はテーブルでなければなりません。自定义数据
内のすべての予測子変数は、変数名およびデータ型が列车
と同じでなければなりません。
石灰
はスパース行列をサポートしません。
黑箱
が予測子データを含まないモデルオブジェクトまたは関数ハンドルである場合,X
または自定义数据
を指定しなければなりません。黑箱
が完全な機械学習モデル オブジェクトであり、この引数を指定する場合、石灰
は黑箱
の予測子データを使用しません。指定した予測子データのみを使用します。
データ型:仅有一个的
|双重的
|桌子
重要预测因子
- - - - - -単純モデルで使用する重要な予測子の数単純モデルで使用する重要な予測子の数。正の整数スカラー値として指定します。
“SimpleModelType”
が“线性”
である場合,ソフトウェアは,指定された数の重要な予測子を選択し,選択した予測子の線形モデルをあてはめます。
“SimpleModelType”
が“树”
である場合、ソフトウェアは、重要な予測子の数として決定分岐 (枝ノード) の最大数を指定し、あてはめられた決定木が、指定された数を上限に予測子を使用するようにします。
重要预测因子
と查询点
を指定すると,関数石灰
は石灰
オブジェクトを作成するときに単純モデルをあてはめます。
データ型:仅有一个的
|双重的
オプションの名称,值
引数のコンマ区切りペアを指定します。名称
は引数名で、价值
は対応する値です。名称
は引用符で囲まなければなりません。名称1,值1,…,名称,值
のように,複数の名前と値のペアの引数を,任意の順番で指定できます。
石灰
(黑箱
,“QueryPoint”
问,“NumImportantPredictors”
n“SimpleModelType”,“树”)
は、クエリ点を问
,単純モデルに使用するための重要な予測子の数をn
,単純モデルのタイプを決定木モデルとして指定します。石灰
は,合成予測子データセットの標本を生成し,標本の予測を計算し,指定数が最大の予測子を使用してクエリ点に決定木モデルをあてはめます。
DataLocality
- - - - - -データ生成する合成データの局所性“全球”
(既定値) |“本地”
データ生成する合成データの局所性。“DataLocality”
と“全球”
または“本地”
で構成されるコンマ区切りのペアとして指定します。
詳細は、石灰を参照してください。
例:“数据位置”,“本地”
データ型:烧焦
|字符串
NumNeighbors
- - - - - -クエリ点の近傍の数クエリ点の近傍の数。“纽曼尼斯堡”
と正の整数スカラー値で構成されるコンマ区切りのペアとして指定します。この引数は,“DataLocality”
が“本地”
である場合のみ有効です。
指定された値が予測子データセット(黑箱
のX
または予測子データ) 内の観測値の数より大きい場合、石灰
はすべての観測値を使用します。
例:《纽曼尼斯堡》,2000年
データ型:仅有一个的
|双重的
NumSyntheticData
- - - - - -合成データセットのために生成する標本の数合成データ セットのために生成する標本の数。“NumSyntheticData”
と正の整数スカラー値で構成されるコンマ区切りのペアとして指定します。この引数は,“DataLocality”
が“本地”
である場合のみ有効です。
例:“NumSyntheticData”,2500年
データ型:仅有一个的
|双重的
KernelWidth
- - - - - -カーネルの幅二乗指数(またはガウス)カーネル関数のカーネルの幅。“KernelWidth”
と数値スカラー値で構成されるコンマ区切りのペアとして指定します。
関数石灰
は、クエリ点と合成予測子データ セット内の標本の間の距離を計算し、その距離を二乗指数カーネル関数を使用して重みに変換します。“KernelWidth”
値を低くすると、石灰
が使用する重みは、クエリ点に近い標本に重点を置くものになります。詳細については、石灰を参照してください。
例:“KernelWidth”,0.5
データ型:仅有一个的
|双重的
SimpleModelType
- - - - - -単純モデルのタイプ“线性”
(既定値) |“树”
単純モデルのタイプ。“SimpleModelType”
と“线性”
または“树”
で構成されるコンマ区切りのペアとして指定します。
“线性”
— ソフトウェアは、回帰には菲特利恩
を、分類にはfitclinear
を使用して、線形モデルをあてはめます。
例:“SimpleModelType”,“树”
データ型:烧焦
|字符串
分类预测因子
- - - - - -カテゴリカル予測子のリスト“全部”
カテゴリカル予測子のリスト。“CategoricalPredictors”
と次の表のいずれかの値から構成されるコンマ区切りのペアとして指定します。
値 | 説明 |
---|---|
正の整数のベクトル | ベクトルの各エントリは、カテゴリカル変数が含まれている予測子データの列に対応するインデックス値です。インデックス値の範囲は 1 ~
|
逻辑ベクトル |
|
文字行列 | 行列の各行は予測子変数の名前です。名前は、桌子形式の予測子データの変数名と一致しなければなりません。文字行列の各行が同じ長さになるように、名前を余分な空白で埋めてください。 |
文字ベクトルの 单间牢房配列または 一串配列 | 配列の各要素は予測子変数の名前です。名前は、表形式の予測子データの変数名と一致しなければなりません。 |
“全部” |
すべての予測子がカテゴリカルです。 |
石灰
は順序付きのカテゴリカル予測子をサポートしていません。
例:“分类预测因子”,“全部”
データ型:仅有一个的
|双重的
|逻辑
|烧焦
|字符串
|细胞
类型
- - - - - -機械学習モデルのタイプ的回归
|“分类”
機械学習モデルのタイプ。“类型”
と的回归
または“分类”
で構成されるコンマ区切りのペアとして指定します。
黑箱
を関数ハンドルとして指定するときは,この引数を指定しなければなりません。黑箱
を回帰または分類モデルオブジェクトとして指定した場合,石灰
はモデルのタイプに応じて“类型”
の値を決定します。
例:“类型”,“分类”
データ型:烧焦
|字符串
距离
- - - - - -距離計量距離計量。“距离”
と文字ベクトル,弦スカラー,または関数ハンドルで構成されるコンマ区切りのペアとして指定します。
予測子データに連続変数のみが含まれる場合、石灰
はこれらの距離計量をサポートします。
値 | 説明 |
---|---|
“欧几里得” |
ユークリッド距離。 |
“seuclidean” |
標準化されたユークリッド距離。観測値間の各座標差は、標準偏差 |
“mahalanobis” |
|
“cityblock” |
市街地距離。 |
“明可夫斯基” |
ミンコフスキー距離。既定の指数は 2.です。別の指数を指定するには、名前と値の引数 |
“切比切夫” |
チェビシェフ距離 (最大座標差)。 |
“余弦” |
1から,ベクトルとして扱われる点の間の夾角の余弦を引いた値。 |
“相关性” |
1.から、値の系列として扱われる点の間の標本相関を引いた値。 |
“枪兵” |
1.から、観測値間の標本スピアマンの順位相関 (値の系列として扱われる) を引いた値。 |
@ |
カスタム距離関数のハンドル。距離関数の形式は次のようになります。 函数ZJ D2 = distfun(子)%距离计算...
データがスパースでない場合、通常は関数ハンドルではなく組み込みの距離計量を使用する方が高速に距離を計算できます。 |
予測子データに連続変数とカテゴリカル変数の両方が含まれる場合,石灰
はこれらの距離計量をサポートします。
値 | 説明 |
---|---|
“Goodall 3” |
異形グドール距離 |
“ofd” |
出現頻度距離 |
定義については距離計量を参照してください。
既定値は、予測子データに連続変数のみが含まれる場合は“欧几里得”
、予測子データに連続変数とカテゴリカル変数の両方が含まれる場合は“Goodall 3”
です。
例:“距离”,“ofd”
データ型:烧焦
|字符串
|function_handle
浸
- - - - - -マハラノビス距離計量の共分散行列マハラノビス距離計量の共分散行列。“浸”
とK行K列の正定値行列で構成されるコンマ区切りのペアとして指定します。Kは予測子の数です。
この引数は,“距离”
が“mahalanobis”
である場合のみ有効です。
既定の“浸”
値は浸(PD omitrows)
です。ここで、PD
は予測子データ,または合成予測子データです。“浸”
値を指定しなかった場合、ソフトウェアは、予測子データおよび合成予測子データの両方の距離を計算するときに、異なる共分散行列を使用します。
例:“Cov”,眼睛(3)
データ型:仅有一个的
|双重的
P
- - - - - -ミンコフスキー距離計量の指数2
(既定値) |正のスカラー规模
- - - - - -標準化されたユークリッド距離計量のスケール パラメーター値標準化されたユークリッド距離計量のスケールパラメーター値。“规模”
と長さKの非負の数値ベクトルで構成されるコンマ区切りのペアとして指定します。Kは予測子の数です。
この引数は,“距离”
が“seuclidean”
である場合のみ有効です。
既定の“规模”
値は性病(PD omitnan)
です。ここで、PD
は予測子データ,または合成予測子データです。“规模”
値を指定しなかった場合、ソフトウェアは、予測子データおよび合成予測子データの両方の距離を計算するときに、異なるスケール パラメーターを使用します。
例:“规模”,分位数(0.75 X)——分位数(0.25 X))
データ型:仅有一个的
|双重的
石灰
オブジェクトを作成するときに、以下のプロパティを指定できます。
BlackboxModel
- - - - - -解釈される機械学習モデル分类预测因子
- - - - - -カテゴリカル予測子のインデックス[]
このプロパティは読み取り専用です。
カテゴリカル予測子のインデックス。正の整数のベクトルを指定します。分类预测因子
には、カテゴリカル予測子が含まれている予測子データの列に対応するインデックス値を格納します。どの予測子もカテゴリカルではない場合、このプロパティは空 ([]
) になります。
関数ハンドルを使用して黑箱
を指定した場合、石灰
は予測子データX
または自定义数据
からカテゴリカル予測子を識別します。名前と値の引数“CategoricalPredictors”
を指定した場合にこのプロパティが設定されます。
黑箱
を回帰または分類モデルオブジェクトとして指定した場合,石灰
はモデル オブジェクトの分类预测因子
プロパティを使用してこのプロパティを決定します。
石灰
は順序付きのカテゴリカル予測子をサポートしていません。
“SimpleModelType”
が“线性”
の場合(既定),石灰
は識別されたそれぞれのカテゴリカル予測子についてダミー変数を作成します。石灰
は、指定されたクエリ点のカテゴリを基準グループとして扱い、カテゴリの数より 1.つ少ないダミー変数を作成します。詳細は、基準グループを使用したダミー変数を参照してください。
データ型:仅有一个的
|双重的
DataLocality
- - - - - -データ生成する合成データの局所性“全球”
|“本地”
NumSyntheticData
- - - - - -合成データ セットの標本数このプロパティは読み取り専用です。
合成データ セットの標本数。正の整数スカラー値として指定します。
自定义数据
を指定した場合,カスタム合成データセットの標本数によってこのプロパティが設定されます。
そうでない場合、石灰
の名前と値の引数“NumSyntheticData”
、または适合
の名前と値の引数“NumSyntheticData”
によってこのプロパティが設定されます。
データ型:仅有一个的
|双重的
类型
- - - - - -機械学習モデルのタイプ的回归
|“分类”
このプロパティは読み取り専用です。
機械学習モデル(BlackboxModel
) のタイプ。的回归
または“分类”
として指定します。
以下のプロパティはソフトウェアによって計算されます。
黑匣子
- - - - - -機械学習モデルによって計算されたクエリ点の予測このプロパティは読み取り専用です。
機械学習モデル(BlackboxModel
) によって計算されたクエリ点の予測。スカラーとして指定します。予測は、回帰の場合は予測された応答、分類の場合は分類されたラベルになります。
データ型:仅有一个的
|双重的
|明确的
|逻辑
|烧焦
|字符串
|细胞
合身
- - - - - -機械学習モデルによって計算された合成予測子データの予測このプロパティは読み取り専用です。
機械学習モデル(BlackboxModel
) によって計算された合成予測子データの予測。ベクトルとして指定します。
データ型:仅有一个的
|双重的
|明确的
|逻辑
|烧焦
|字符串
|细胞
重要预言家
- - - - - -重要な予測子のインデックスこのプロパティは読み取り専用です。
重要な予測子のインデックス。正の整数のベクトルとして指定します。重要预言家
には単純モデル(简单模型
)で使用される予測子の列に対応するインデックス値が格納されます。
データ型:仅有一个的
|双重的
简单模型
- - - - - -単純モデルRegressionLinear
モデルオブジェクト|回归树
モデルオブジェクト|ClassificationLinear
モデルオブジェクト|分类树
モデルオブジェクトこのプロパティは読み取り専用です。
単純モデル。RegressionLinear
、回归树
、ClassificationLinear
、または分类树
モデルオブジェクトとして指定します。石灰
は機械学習モデルのタイプ (类型
) および単純モデルのタイプ (“SimpleModelType”
) に応じて単純モデル オブジェクトのタイプを決定します。
简单模型
- - - - - -単純モデルによって計算されたクエリ点の予測分類モデルの学習を行い、単純な決定木モデルを使用する石灰
オブジェクトを作成します。石灰
オブジェクトを作成するときに、クエリ点と重要な予測子の数を指定して、ソフトウェアが合成データ セットの標本を生成し、重要な予測子を使って単純モデルをクエリ点にあてはめるようにします。次に、オブジェクト関数情节
を使用して、予測子の推定重要度を単純モデルに表示します。
信用评级
データセットを読み込みます。データセットには,顧客ID,顧客の財務比率,業種ラベル,および信用格付けが格納されています。
tbl=可读(“CreditRating_Historical.dat”);
テーブルの最初の 3.行を表示します。
头部(待定,3)
ans=3×8表这是一个两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两两}424440.3110.3670.0741.9350.3661{'A'}
tbl
から顧客IDと信用格付けの列を削除して,予測子変数の表を作成します。
tblX = removevars(资源描述,“ID”,“评级”]);
関数fitcecoc
を使用して,信用格付けの黑箱モデルに学習させます。
黑盒=fitcecoc(tblX,tbl.额定值,“CategoricalPredictors”,“工业”);
単純な決定木モデルを使用して最後の観測値の予測を説明する石灰
オブジェクトを作成します。最大 6.つの重要な予測子を見つけるため、“NumImportantPredictors”
を 6.に指定します。石灰
オブジェクトを作成するときに“QueryPoint”
と“NumImportantPredictors”
の値を指定した場合、ソフトウェアは合成データ セットの標本を生成し、解釈可能な単純モデルを合成データ セットにあてはめます。
queryPoint=tblX(结束:)
查询点=1×6表企业所得税息税前利润(MVE)为行业所得税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税行业所得税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税息税
rng(“默认”)%为了再现性结果=石灰(黑盒,“QueryPoint”,查询点,“NumImportantPredictors”6....“SimpleModelType”,“树”)
结果=带属性的lime:BlackboxModel:[1x1 ClassificationCoC]数据位置:'global'分类预测因子:6类型:'classification'X:[3932x6表]查询点:[1x6表]NUM重要预测因子:6 NUM合成数据:5000合成数据:[5000x6表]拟合:{5000x1单元格}简单模型:[1x1 ClassificationTree]重要预测因子:[2x1 double]BlackboxFitted:{'AA'}SimpleModelFitted:{'AA'}
オブジェクト関数情节
を使用して,石灰
オブジェクト结果
をプロットします。予測子名に含まれるアンダースコアを表示するには、座標軸のTickLabelInterpreter
値を“没有”
に変更します。
f=绘图(结果);f.CurrentAxis.TickLabelInterpreter=“没有”;
プロットには、クエリ点についての 2.つの予測値が示されています。この予測値は、结果
の黑匣子プロパティと简单模型プロパティに対応します。
横棒グラフは,予測子の重要度の並べ替えられた値を示しています。石灰
はクエリ点の重要な予測子として財務比率変数息税前利润
および沃库塔
を求めます。
バーの長さは,データヒントまたは酒吧のプロパティを使用して読み取ることができます。たとえば,関数芬多布吉
を使用して酒吧
オブジェクトを検索し、関数文本
を使用して、バーの端にラベルを追加できます。
b = findobj (f,“类型”,“酒吧”);文本(b.YEndPoints + 0.001, b.XEndPoints字符串(b.YData))
あるいは,予測子変数名をもつ表に係数値を表示することもできます。
imp=b.YData;flipud(数组2)table(imp',,...“RowNames”,f.currentAxis.YTickLabel,“VariableNames”,{“预测重要性”}))
ans=2×1表预测器重要性0.088412 RE_TA 0.0018061
回帰モデルの学習を行い,線形単純モデルを使用する石灰
オブジェクトを作成します。石灰
オブジェクトを作成するときに,クエリ点と重要な予測子の数を指定しなかった場合,ソフトウェアは合成データセットの標本を生成しますが,単純モデルのあてはめは行いません。オブジェクト関数适合
を使用して、クエリ点に単純モデルをあてはめます。次に、オブジェクト関数情节
を使用して,あてはめた線形単純モデルの係数を表示します。
carbig
データセットを読み込みます。このデータセットには,1970年代と1980年代初期に製造された自動車の測定値が格納されています。
负载carbig
加速度
、气缸
などの予測子変数と応答変数英里/加仑
が格納された 桌子を作成します。
台=表(加速度、汽缸、排量、马力、Model_Year重量,MPG);
学習セットの欠損値を削除すると、メモリ消費量を減らして関数菲特克内尔
の学習速度を向上させることができます。tbl
の欠損値を削除します。
tbl=RML缺失(tbl);
tbl
から応答変数を削除して、予測子変数のテーブルを作成します。
tblX=移除变量(tbl,“英里”);
関数菲特克内尔
を使用して英里/加仑
の 黑匣子モデルの学習を行います。
rng(“默认”)%为了再现性mdl=fitrkernel(tblX,tbl.MPG,“CategoricalPredictors”[2 - 5]);
石灰
オブジェクトを作成します。mdl
には予測子データが含まれないため,予測子データセットを指定します。
结果=石灰(mdl tblX)
结果=石灰与属性:BlackboxModel: [1 x1 RegressionKernel] DataLocality:“全球”CategoricalPredictors:[2 5]类型:“回归”X: [392 x6表]QueryPoint: [] NumImportantPredictors: [] NumSyntheticData: 5000 SyntheticData: [5000 x6表)安装:x1双[5000]SimpleModel: [] ImportantPredictors: [] BlackboxFitted:[] SimpleModelFitted: []
结果
には、生成された合成データ セットが含まれます。简单模型
プロパティは空 ([]
) です。
tblX
の最初の観測値に線形単純モデルをあてはめます。検出する重要な予測子の数を 3.に指定します。
: queryPoint = tblX (1)
查询点=1×6表加速气缸位移马力Model_Year重量 ____________ _________ ____________ __________ __________ ______ 12 8 307 130 70 3504
结果=适合(结果,queryPoint, 3);
オブジェクト関数情节
を使用して,石灰
オブジェクト结果
をプロットします。予測子名に含まれるアンダースコアを表示するには、座標軸のTickLabelInterpreter
値を“没有”
に変更します。
f=绘图(结果);f.CurrentAxis.TickLabelInterpreter=“没有”;
プロットには、クエリ点についての 2.つの予測値が示されています。この予測値は、结果
の黑匣子プロパティと简单模型プロパティに対応します。
横棒グラフは、絶対値で並べ替えられた、単純モデルの係数値を示します。石灰は、クエリ点の重要な予測子として、马力
、车型年款
、および气缸
を見つけます。
车型年款
および气缸
は複数のカテゴリをもつカテゴリカル予測子です。線形単純モデルの場合,各カテゴリカル予測子について,カテゴリの数よりも1つ少ないダミー変数が作成されます。棒グラフには最も重要なダミー変数のみが表示されます。他のダミー変数の係数は结果
の简单模型
プロパティを使用して確認できます。すべてのカテゴリカル ダミー変数を含む並べ替えられた係数の値を表示します。
[~,I]=sort(abs(results.SimpleModel.Beta),“下”);表(results.SimpleModel.expandedPredictor名称(I)”,results.SimpleModel.Beta(I),...“VariableNames”,{'扩展预测程序名称',“系数”})
ans=17×2表Exteded预测名字系数 __________________________ ___________ {' -3.4485马力的}e-05 {Model_Year(74和70)的}-6.1279 e-07{“Model_Year(80和70)的}-4.015 e-07{“Model_Year(81和70)的}3.4176 e-07{“Model_Year(82和70)的}-2.2483 e-07{的圆柱体(6和8)}-1.9024 e-07{“Model_Year(76和70)的}1.8136 e-07{圆柱体(5 vs。8)'} 1.746e -07 {'Model_Year (75 vs. 70)'} 1.5456e-07 {'Model_Year (77 vs. 70)'} 1.4272e-07 {'Model_Year (78 vs. 70)'} 6.7001e-08 {'Model_Year (72 vs. 70)'} 4.7214e-08 {' cylinder (4 vs. 8)'} 4.518e -08 {'Model_Year (79 vs. 70)'} -2.2598e-08⋮
回帰モデルの学習を行い、モデルの関数预测
の関数ハンドルを使用する石灰
オブジェクトを作成します。オブジェクト関数适合
を使用して,指定したクエリ点に単純モデルをあてはめます。次に,オブジェクト関数情节
を使用して,あてはめた線形単純モデルの係数を表示します。
carbig
データセットを読み込みます。このデータセットには,1970年代と1980年代初期に製造された自動車の測定値が格納されています。
负载carbig
予測子変数加速度
、气缸
などを格納する 桌子を作成します。
tbl=表(加速度、气缸、排量、马力、车型年份、重量);
関数树人
を使用して英里/加仑
の 黑匣子モデルの学習を行います。
rng(“默认”)%为了再现性Mdl=TreeBagger(100,tbl,MPG,“方法”,“回归”,“CategoricalPredictors”[2 - 5]);
石灰
は树人
オブジェクトを直接はサポートしないため,石灰
の最初の入力引数(黑箱モデル)を树人
オブジェクトとして指定することはできません。代わりに、関数预测
の関数ハンドルを使用できます。関数预测
のオプションも関数の名前と値の引数を使用して指定できます。
树人
オブジェクトMdl
の関数预测
の関数ハンドルを作成します。使用する木のインデックスの配列を1:50
と指定します。
myPredict = @(tbl) predict(Mdl,tbl,)“树”,1:50);
関数ハンドル我的预测
を使用して石灰
オブジェクトを作成します。黑箱モデルを関数ハンドルとして指定する場合、予測子データを提供し、名前と値の引数“类型”
を指定しなければなりません。tbl
には、双重的
データ型のカテゴリカル予測子(圆柱
および车型年款
)が含まれています。既定では,石灰
は双重的
データ型の変数をカテゴリカル予測子として扱いません。2.番目 (圆柱
) と 5.番目 (车型年款
)の変数をカテゴリカル予測子として指定します。
结果=石灰(myPredict,tbl,“类型”,“回归”,“CategoricalPredictors”[2 - 5]);
tbl
の最初の観測値に線形単純モデルをあてはめます。予測子名に含まれるアンダースコアを表示するには、座標軸のTickLabelInterpreter
値を“没有”
に変更します。
结果=适合(结果,台(1:),4);f=绘图(结果);f.CurrentAxis.TickLabelInterpreter=“没有”;
石灰
は、重要な予測子として马力
、取代
、气缸
、および车型年款
を見つけます。
距離計量は、2.つの観測値の間の距離を定義する関数です。石灰
は,連続変数用のさまざまな距離計量や,連続変数とカテゴリカル変数の混在をサポートします。
連続変数の距離計量
mx行 N列のデータ行列 X(mx個の 1.行 N列の行ベクトル x1, x2、、、xmxとして扱われる) と、我的行 N列のデータ行列 Y(我的個の 1.行 N列の行ベクトル Y1y2Y我的として扱われる)が与えられた場合,ベクトルx年代とytの間のさまざまな距離は次のように定義されます。
ユークリッド距離
ユークリッド距離はミンコフスキー距離の特殊なケース,p=2の場合です。
標準化されたユークリッド距離
ここで、vは J番目の対角要素が(S (j))2であるn行n列の対角行列です。年代は各次元のスケーリング係数のベクトルです。
マハラノビス距離
ここで、Cは共分散行列です。
市街地距離
市街地距離はミンコフスキー距離の特殊なケース、p=1の場合です。
ミンコフスキー距離
p=1という特殊なケースでは,ミンコフスキー距離は市街地距離を与えます。p=2という特殊なケースでは,ミンコフスキー距離はユークリッド距離を与えます。p =∞という特殊なケースでは、ミンコフスキー距離はチェビシェフ距離を与えます。
チェビシェフ距離
チェビシェフ距離はミンコフスキー距離の特殊なケース、p =∞の場合です。
コサイン距離
相関距離
ここで
および
スピアマン距離
ここで
連続変数とカテゴリカル変数が混在する場合の距離計量
異形グドール距離
この距離は,グドール距離のバリアントであり,他の値の頻度に関係なく,一致する値が互いに離れた場所にある場合に小さな距離を割り当てます。不一致の場合,予測子の距離寄与は1 /(変数の数)です。
出現頻度距離
一致の場合,出現頻度距離はゼロ距離を割り当てます。不一致の場合,出現頻度距離は,頻度の低い値に高い距離を割り当て,頻度の高い値に低い距離を割り当てます。
手順 1 ~ 5 の記載のとおり、石灰[1]を使用して機械学習モデルの予測を説明するため、ソフトウェアは、合成データ セットを生成し、石灰
と适合
を使用して解釈可能な単純モデルを合成データ セットにあてはめます。
查询点
および重要预测因子
を指定せずに“DataLocality”
を“全球”
(既定の設定) として指定した場合、関数石灰
が合成データセットを生成し(手順1 ~ 2),関数适合
が単純モデルをあてはめます (手順 3 ~ 5)。
查询点
および重要预测因子
を指定せずに“DataLocality”
を“本地”
として指定した場合、関数适合
はすべての手順を実行します。
関数石灰
および适合
は,以下の手順を実行します。
連続変数には多変量正規分布を、各カテゴリカル変数には多変量分布を使用して、合成予測子データ セット X年代を生成します。名前と値の引数“NumSyntheticData”
を使用して、生成する標本の数を指定できます。
“DataLocality”
が“全球”
(既定の設定)である場合,ソフトウェアは,予測子データセット全体(X
または黑箱
内の予測子データ) から分布パラメーターを推定します。
“DataLocality”
が“本地”
である場合,ソフトウェアは,クエリ点のk個の最近傍を使用して分布パラメーターを推定します。ここでkは“纽曼尼斯堡”
値です。名前と値の引数“距离”
を使用して、最近傍を見つけるための距離計量を指定できます。
ソフトウェアは、分布パラメーターを推定する際、予測子データ セット内の欠損値を無視します。
あるいは、石灰
の入力引数自定义数据
を使用することで,事前生成されたカスタム合成予測子データセットを提供できます。
合成データセットX年代についての予測値Y年代を計算します。この予測値は,回帰,または分類を行うための分類済みラベルについての予測応答です。ソフトウェアは,黑箱
モデルの関数预测
を使用して予測値を計算します。黑箱
を関数ハンドルとして指定した場合,ソフトウェアは,その関数ハンドルを使用して予測値を計算します。
“距离”
によって指定された距離計量を使用して,クエリ点と合成予測子データセット内の標本の距離dを計算します。
二乗指数 (またはガウス) カーネル関数を使用して、クエリ点 Qに対する合成予測子データ セット内の標本の重み値 W问を計算します。
x年代は,合成予測子データセットX年代内の標本です。
d(x)年代问)は、標本 x年代とクエリ点 Qの距離です。
Pは、X年代内の予測子の数です。
σ はカーネルの幅です。名前と値の引数“KernelWidth”
を使用して指定できます。既定の“KernelWidth”
値は 0.75です。
クエリ点における重み値は1であり,距離の値が大きくなるにつれ,0に収束していきます。“KernelWidth”
値は、重み値が 0に収束する速度を制御します。“KernelWidth”
値が小さければ,重み値はより速く0に収束します。その結果,アルゴリズムは,クエリ点に近い標本に,より大きな重みを付与します。このような重み値がアルゴリズムによって使用されることで,選択された重要な予測子,およびあてはめられた単純モデルによる,クエリ点周辺の合成データについての予測子の局所的な説明が有効となります。
単純モデルをあてはめます。
“SimpleModelType”
が“线性”
(既定の設定)である場合,ソフトウェアは,重要な予測子を選択し,選択した重要な予測子の線形モデルをあてはめます。
グループ直交マッチング追跡 (OMP)アルゴリズム[2][3]を使用して、N個の重要な予測子 (
) を選択します。ここで、Nは重要预测因子
値です。このアルゴリズムは、合成予測子データ セット (十)年代)、予測子 (Y)年代),および重み値(w问) を使用します。
重み値 (w)问) を使用して、選択した重要な予測子 (
)の線形モデルを予測子(Y年代) にあてはめます。ソフトウェアは、回帰には菲特利恩
を、分類にはfitclinear
を使用します。マルチクラスモデルの場合,ソフトウェアは,1対他(卵子)方式を使用してバイナリ分類問題を作成します。陽性クラスは黑箱
モデルからのクエリ点についての予測クラスであり、陰性クラスはその他のクラスを指します。
“SimpleModelType”
が“树”
である場合、ソフトウェアは、回帰にはfitrtree
を、分類にはfitctree
を使用して決定木モデルをあてはめます。ソフトウェアは、重要な予測子の数として決定分岐 (枝ノード) の最大数を指定し、あてはめられた決定木が、指定された数を上限に予測子を使用するようにします。
(1)里贝罗、Marco Tulio、S. Singh和C. Guestrin。“我为什么要信任你?”:解释任何分类器的预测。“在第二十二届ACM SigkDD知识发现和数据挖掘国际会议论文中,1135—44。旧金山,加利福尼亚:ACM,2016。
[2] Świrszcz, Grzegorz, Naoki Abe, Aurélie C. Lozano。“变量选择和预测的分组正交匹配追踪”神经信息处理系统进展(2009):1150-58。
[3] Lozano Aurélie C., Grzegorz Świrszcz,和Naoki Abe。逻辑回归的组正交匹配追踪。第十四届人工智能与统计国际会议论文集(2011):452-60。
次の MATLABコマンドに対応するリンクがクリックされました。
コマンドをMATLABコマンドウィンドウに入力して実行してください。WebブラウザーはMATLABコマンドをサポートしていません。
你也可以从以下列表中选择一个网站:
选择中国站点(中文或英文)以获得最佳站点性能。其他MathWorks国家/地区站点不适合您所在位置的访问。