標本データを読み込みます。
住宅データ[1]をUCI机器学习库[2]からダウンロードします。このデータセットには,506個の観測値が含まれています。最初の13列には予測子の値が,最後の列には応答値が含まれています。目標は,ボストン郊外にある持ち家の数の中央値を13個の予測子の関数として予測することです。
データを読み込み,応答ベクトルと予測子行列を定義します。
層化区分のグループ化変数として4番目の予測子を使用して,データを学習セットと検定セットに分割します。これにより,各グループから同じ量の観測値が各分割に含まれることが保証されます。
cvpartition
は,56個の観測値を検定セットに,残りのデータを学習セットに無作為に割り当てます。
既定設定の使用による特徴選択の実行
回帰用のNCAモデルを使用して特徴選択を実行します。予測子の値を標準化します。
特徴量の重みをプロットします。
無関係な特徴量の重みはゼロに近くなると考えられます。fsrnca
は2つの特徴量が無関係であると特定しています。
回帰損失を計算します。
検定セットについて予測される応答値を計算し,実際の応答に対してプロットします。
実際の値に完全に一致すると,45°の直線になります。このプロットでは,予測された応答値と実際の応答値がこの直線の周辺に分布しているように見えます。通常は,
(正則化パラメーター)の値を調整すると,性能の改善に役立ちます。
10分割交差検証の使用による正則化パラメーターの調整
の調整とは,回帰損失が最小になる
の値を求めることを意味します。10分割の交差検証を使用して
を調整する手順は次のようになります。
1.はじめに,データを10個の分割に分割します。各分割について,cvpartition
はデータの1/10を学習セットとして,9/10を検定セットとして割り当てます。
探索用の
の値を割り当てます。損失値を格納する配列を作成します。
2 .各分割の学習セットを使用して,
の各値について近傍成分分析(NCA)モデルに学習をさせます。
3.選択された特徴量を使用して,ガウス過程回帰(GPR)モデルをあてはめます。次に,このGPRモデルを使用して,分割内の対応する検定セットの回帰損失を計算します。損失の値を記録します。
4 .これを
の各値および各分割に対して繰り返します。
の各値について,分割から得られる平均損失を計算します。平均損失と
の値をプロットします。
損失値が最小になる
の値を求めます。
最良の
値を使用して回帰用の特徴選択を実行します。予測子の値を標準化します。
特徴量の重みをプロットします。
特徴量の選択には使用されなかった検定データに対して新しいNCAモデルを使用して,損失を計算します。
正則化パラメーターの調整は,関連がある特徴量を識別して損失を減らすために役立ちます。
予測された応答値と検定セット内の実際の応答値をプロットします。
予測された応答値は,実際の値に十分近いように見えます。
参考文献
哈里森,d。和d。l。,Rubinfeld。"享乐的价格和对清洁空气的需求"j .包围。经济学和管理。第5卷,1978年,第81-102页。
[2] Lichman, m.uci机器学习库,欧文,CA:加州大学信息与计算机科学学院,2013。https://archive.ics.uci.edu/ml