主要内容

このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

FeatureSelectionNCARegressionクラス

近傍成分分析(NCA)を使用する回帰用の特徴選択

説明

FeatureSelectionNCARegressionオブジェクトには,近傍成分分析(NCA)モデルのデータ,あてはめの情報,特徴量の重み,その他のモデルパラメーターが格納されます。fsrncaは,NCAを対角的に適用して特徴量の重みを学習し,FeatureSelectionNCARegressionオブジェクトのインスタンスを返します。この関数は,特徴量の重みを正則化することにより特徴選択を実現します。

構築

FeatureSelectionNCAClassificationオブジェクトを作成するには,fsrncaを使用します。

プロパティ

すべて展開する

または値を削除した後で学習データ(XおよびY)に含まれている観測値の数。スカラーとして格納されます。

データ型:

モデルの学習に使用されたモデルパラメーター。構造体として格納されます。

ModelParametersのフィールドには,ドット表記を使用してアクセスできます。

たとえば,mdlという名前のFeatureSelectionNCARegressionオブジェクトの場合,mdl.ModelParameters.LossFunctionを使用してLossFunctionの値にアクセスできます。

データ型:结构体

このモデルの学習に使用された正則化パラメーター。スカラーとして格納されます。n個の観測値がある場合,NCAモデルの汎化誤差を最小化する最良のλの値は1 / nの整数倍であると考えられます。

データ型:

このモデルのあてはめに使用した手法の名前。次のいずれかとして格納されます。

  • “准确”——すべてのデータを使用してあてはめを実行します。

  • “没有”——あてはめを行いません。fsrncaを呼び出すときに指定した特徴量の重みの初期値を使用してNCAモデルの汎化誤差を評価する場合に,このオプションを使用します。

  • “平均”——データをサブセットに分割し,确切的法を使用して各分割をあてはめ,特徴量の重みの平均を返します。名前と値のペアの引数NumPartitionsを使用して分割数を指定できます。

このモデルのあてはめに使用したソルバーの名前。次のいずれかとして格納されます。

  • “lbfgs”——メモリ制限Broyden-Fletcher-Goldfarb-Shanno (LBFGS)アルゴリズム

  • “sgd”——確率的勾配降下(SGD)アルゴリズム

  • “minibatch-lbfgs”——LBFGSアルゴリズムをミニバッチに適用した確率的勾配降下

“lbfgs”ソルバーと“minibatch-lbfgs”ソルバーの,勾配ノルムに対する収束の相対許容誤差。正のスカラー値として格納されます。

データ型:

最適化の最大反復回数。正の整数値として格納されます。

データ型:

ソルバーが“sgd”または“minibatch-lbfgs”である場合の最大通過回数。1回の通過ごとに,データ内の観測値がすべて処理されます。

データ型:

ソルバーが“sgd”または“minibatch-lbfgs”である場合の初期学習率。学習率は,InitialLearningRateについて指定された値から始まって反復ごとに減衰します。

fsrncaを呼び出すときの初期学習率の自動調整を制御するには,NumTuningIterationsおよびTuningSubsetSizeを使用します。

データ型:

詳細レベルインジケーター。非負の整数として格納されます。利用可能な値は以下のとおりです。

  • 0 -収束概要なし

  • 1 -勾配のノルムと目的関数の値を収束概要に含める

  • 1より大きい値——あてはめアルゴリズムに応じた,より多くの収束情報。“minibatch-lbfgs”ソルバーを使用する場合に詳細レベルを1より大きい値にすると,中間的なミニバッチLBFGSのあてはめによる反復ログが収束情報に含まれます。

データ型:

特徴量の重みの初期値。正の実数スカラーによるp行1列のベクトルとして格納されます。pはX内の予測子の個数です。

データ型:

特徴量の重み。実数スカラー値によるp行1列のベクトルとして格納されます。pはX内の予測子の個数です。

“FitMethod”“平均”である場合,FeatureWeightsはp行m列の行列になります。mは,fsrncaを呼び出すときに名前と値のペアの引数“NumPartitions”で指定した分割数です。

FeatureWeights (k)の絶対値は予測子kの重要度の尺度です。FeatureWeights (k)が0に近い場合,予測子kY内の応答に影響を与えません。

データ型:

あてはめの情報。次のフィールドをもつ構造体として格納されます。

フィールド名 意味
迭代 反復のインデックス
客观的 最小化対象の正則化された目的関数
UnregularizedObjective 最小化対象の正則化されていない目的関数
梯度 最小化対象の正則化された目的関数の勾配
  • 分類の場合,UnregularizedObjectiveは学習データに対するNCA分類器の分析精度の負数を表します。

  • 回帰の場合,UnregularizedObjectiveはNCA回帰モデルを使用して予測された応答と真の応答の間の分析損失を表します。

  • “lbfgs”ソルバーの場合,梯度は最終的な勾配です。“sgd”ソルバーと“minibatch-lbfgs”ソルバーの場合,梯度は最終的なミニバッチの勾配です。

  • FitMethod“平均”の場合,FitInfoはm行1列の構造体配列になります。mは,名前と値のペアの引数“NumPartitions”で指定される分割数です。

FitInfoのフィールドには,ドット表記を使用してアクセスできます。たとえば,mdlという名前のFeatureSelectionNCARegressionオブジェクトの場合,mdl.FitInfo.Objectiveを使用して客观的フィールドにアクセスできます。

データ型:结构体

予測子の平均。学習データが標準化されている場合,p行1列のベクトルとして格納されます。この場合,预测メソッドでは,μの対応する要素を各列から減算することにより,予測子行列Xをセンタリングします。

学習時にデータが標準化されていない場合,μは空になります。

データ型:

予測子の標準偏差。学習データが標準化されている場合,p行1列のベクトルとして格納されます。この場合,预测メソッドは予測子行列Xを,μを使用したデータのセンタリング後にその各列をσの対応する要素で除算することにより,スケーリングします。

学習時にデータが標準化されていない場合,σは空になります。

データ型:

このモデルの学習に使用した予測子の値。n行p列の行列として格納されます。n は学習データに含まれている観測値の個数、p は予測子変数の個数です。

データ型:

このモデルの学習に使用した応答値。サイズnの数値ベクトルとして格納されます。n は観測値の個数です。

データ型:

このモデルの学習に使用した観測値の重み。サイズnの数値ベクトルとして格納されます。観測値の重みの合計は n です。

データ型:

メソッド

损失 学習した特徴量の重みの精度を検定データに対して評価
预测 近傍成分分析(NCA)回帰モデルの使用による応答の予測
改装 回帰用の近傍成分分析(NCA)モデルの再あてはめ

すべて折りたたむ

標本データを読み込みます。

负载进口- 85

最初の15列には連続予測子変数が,16列目には応答変数(自動車の価格)が含まれています。近傍成分分析モデル用の変数を定義します。

预测= X (: 1:15);Y = X (: 16);

回帰用の近傍成分分析(NCA)モデルをあてはめて,関連する特徴量を判別します。

mdl = fsrnca(预测,Y);

返されたNCAモデルmdlFeatureSelectionNCARegressionオブジェクトです。このオブジェクトには,学習データ,モデルおよび最適化に関する情報が格納されています。このオブジェクトのプロパティ(特徴量の重みなど)には,ドット表記を使用してアクセスできます。

特徴量の重みをプロットします。

图()图(mdl。FeatureWeights,“罗”)包含(“功能指数”) ylabel (“功能重量”网格)

图中包含一个坐标轴。轴包含一个线型对象。

無関係な特徴量の重みはゼロになります。fsrncaを呼び出すときに“详细”,1オプションを指定すると,最適化の情報がコマンドラインに表示されます。目的関数と反復回数をプロットして最適化プロセスを可視化することもできます。

图()图(mdl.FitInfo.Iteration mdl.FitInfo.Objective,“ro - - - - - -”网格)包含(的迭代次数) ylabel (“目标”

图中包含一个坐标轴。轴包含一个线型对象。

ModelParametersプロパティは,モデルに関する詳細情報が含まれている结构体です。このプロパティのフィールドには,ドット表記を使用してアクセスできます。たとえば,データが標準化されているかどうかを調べます。

mdl.ModelParameters.Standardize
ans =逻辑0

0は,NCAモデルをあてはめる前にデータが標準化されていないことを意味します。各予測子のスケールが非常に異なる場合は,fsrncaを呼び出すときに名前と値のペアの引数“标准化”,1を使用して予測子を標準化することができます。

コピーのセマンティクス

値。値のクラスがコピー操作に与える影響については,オブジェクトのコピーを参照してください。

R2016bで導入