主要内容

このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

決定木のバギングによる格付け

この例では,自動信用格付けツールの作成方法を示します。

信用リスク管理における基本的作業の1つは,借り手を格付けすることです。“等”級を使用して,認識された弁済能力に応じて顧客を格付けします。等級が高いほど,信用リスクが低くなります。等級が近ければ,信用リスクのレベルも近いことになります。等級のカテゴリは,”格付け”と”与信スコア”の2つです。格付けは少数の異なるクラスで構成され,通常は“AAA”や“BB -などのラベルが付けられます。与信スコアは,“640”や“720”などの数値で表された等級です。信用度の等級は,規制の枠組み(巴塞尔协议IIなど)における主要な要素の1つです(巴塞尔协议IIについては,巴塞尔银行监管委员会[3]を参照してください)。

信用格を行う,借り手に关键词を借りが个必要ありますます借り手が个であるなるなる情情そののの対象となる情情そののの收入收入情情そののの,未払い负债(住宅住宅ローンクレジットカードなど),世帯规模,または”予測子”と呼びます。格付け機関が異なれば,使用される予測子も異なります。また,顧客を格付けするための格付けクラスやスコア範囲も異なることがあります。規模の大きい借り手市場に比較的小額のローンを提供する場合(クレジットカードなど),与信スコアを使用するのが一般的であり,借り手を格付けするプロセスは通常は自動化されています。ローンが高額で,中小企業や大企業が利用できる場合,格付けを使用するのが一般的であり,自動化されたアルゴリズムと専門家の分析を組み合わせて格付けすることがあります。

格哈机关の业主は,企业の信用度のです。多重の银行をを格式するため独独独のの论を开放していますある顾客を社内で格式すること必要になるは,そのになるのは,その顾客がまだ格式机械关系によって格式されたことなく,たとえ第三者による格式があったして,社内で格式することにより顾客リスクプロフィールのがが补える顾客プロフィールリスク

この例では,格付けプロセスの自動化段階でMATLAB®を活用する方法を説明します。特に、统计和机器学习工具箱™で使用できる統計学習ツールの1つである,“バギングされた決定木”として知られる分類アルゴリズムを活用します。

または,格式机关による格式のののありありありありようよう格式はますそのな格式はます。

最初に必要となるのは既存の履歴データです。このデータを使用して,格付けの自動化に使用するバギングされた決定木を”学習”させます。統計学習の語彙では,この学習プロセスは”教師あり学習”のカテゴリに属します。したがって,新規顧客の格付けには分類器が使用されます。実際問題としては,この自動化された格付け,つまり”予測された”格付けは暫定的なものと見なされる可能性が高く,専門家で構成される信用調査委員会が審査して始めて確定します。また,ここで使用する種類の分類器では,予測された格付けの確実性の尺度である”分類スコア”が表示されるため,格付けの見直しも簡単にできるようになります。

実際問題としては,最初に行う必要があるのは分類器の学習であり,次にその分類器を使用して新規顧客を格付けし,最後に分類器の質つまり”精度のプロファイリングまたは評価”を行う必要があります。“検このプロセスを証”または“バックテスト”といいます。簡単に入手できるバックテストツールについても説明します。

既存の格付けデータの読み込み

コンマ区切りテキストファイルCreditrating_Historical.dat.から履歴データを読み込みます。ここではテキストファイルを操作することにしますが,数据库工具箱™を使用できるユーザーであれば,この情報をデータベースから直接読み込むことができます。

データセットには,企業顧客リストに名を連ねる顧客の財務比率,業種,および格付けが含まれます。このデータは,実際のデータではなくシミュレーションされたものです。1列目は顧客IDです。続く5列は財務比率です。これらの比率は奥特曼的z分数で使用される比率と同じです(奥特曼[1]を参照。関連する分析については吕弗勒およびPoschも参照)。

  • 运転资本/総矿产(WC_TA)

  • 内部留保/総資産(RE_TA)

  • 税引前利払前利益/総資産(EBIT_TA)

  • 株式時価総額/全債務の簿価(MVE_BVTD)

  • 売上高/総資産(S_TA)

次の列は,1〜12の整数値表されているは。最后の列は,顾客に割り当てられた格式が格式さてい。桌子配列に読み込みます。

Creditds = Readtable(“CreditRating_Historical.dat”);

特徴量を行列X,対応するクラス,格付けをベクトルYにコピーします。この情報には配列数据集または桌子から直接アクセスできるので,この手順は必須ではありません。ここでこの手順を実行するのは,これ以降で繰り返されるいくつかの関数呼び出しを単純化するためです。

行列Xに格式される特价,财务比率5つと业主ラベルです。行业は実際にはカテゴリ変数の一種である”ノミナル“変数です。業種には順序は存在しないからです。これに対する応答変数,つまり格付けも,カテゴリ変数です。序ただし,こちらは“数”変数です。定义定义で,格式は信用度“ランキング”このこのををまま使て,分析器に学习さことができます。にコピーすることにします。こうすることにより,格付けの順序どおりに出力されて読みやすくなるからです。格付けの順序は,Yの定義の3番目の引数として渡す细胞配列によって確立されます。格付けは,数値にマッピングすることもできます。数値へのマッピングは,別のデータ解析方法(回帰分析など)を試すときに便利です。実際問題として,さまざまな方法を試すことをお勧めします。

x = [Creditds.wc_ta creditds.re_ta creditds.ebit_ta creditdds.mve_bvtd...creditDS。S_TA creditDS.Industry];Y =序数(creditDS.Rating);

予测子Xと応答数Yを使用して”バギングされた決定木”と呼ばれる特定の種類のアンサンブル分類を適合させます。”“バギングは引导聚合を意味します。この方法論の本質は,データセットからのサブサンプリング,つまり”ブートストラップレプリカ”をいくつか生成することにあります。これらのサブサンプリングは無作為に生成されます。これは,データセット内の顧客リストに基づく復元抽出法です。レプリカごとに決定木が1つ成長します。各決定木は,独自に学習させた分類器であり,新規顧客の分類に単独で使用することができます。ただし2つのブートストラップレプリカから成長した2本の木の予測は異なる可能性があります。このアンサンブルは,ブートストラップレプリカすべてに対して成長した決定木すべての予測を”集約”します。決定木の大多数が,ある新規顧客について1つのクラスを予測した場合,その予測は単独の決定木による予測より確実であると考えるのは,道理にかなっています。さらに,少数の決定木が別のクラスを予測した場合,その情報も有益です。実際,別のクラスを予測する決定木の比率は,新規データの分類時にアンサンブル分類により報告される”分類スコア”の土台となります。

ツリーツリーバッガー作作作者

アンサンブル分類を作成する最初の手順は,個別の決定木に適した葉のサイズを見つけることです。ここでは1 5および10というサイズを試します(TreeBaggerの詳細は、统计和机器学习工具箱のドキュメンテーションを参照してください)。最初は少数の25本の決定木から始めます。主要な目的が,さまざまなリーフサイズでの分類誤差の初期傾向を比較することだからです。再現可能性と公平な比較を確保するため,乱数発生器を再初期化します。これは,分類器を作成するたびに,データからの復元抽出法による標本抽出に使用されます。

Leaf = [1 5 10];nTrees = 25;rng (9876“旋风”);savedRng =提高;%保存当前RNG设置颜色=“bgr”2 = 1:长度(叶)重新初始化随机数生成器,以便每个叶子尺寸的%随机样本相同rng (savedRng)%为每个叶子大小创建一个袋装决策树,并在袋子外绘图%错误'ooberror'b = treebagger(ntrees,x,y,“OOBPrediction”“上”...“CategoricalPredictors”6...“MinLeafSize”、叶(ii));情节(oobError (b)、颜色(ii))结束包含(“已长成的树的数量”)ylabel(“Out-of-bag分类错误”)({传奇' 1 '“5”“十”},'地点'“东北”)标题(“不同叶片尺寸的分类误差”) 抓住离开

これら3种类のサイズについて,误差を比较することができます。したがって,リーフサイズ10について検讨ことにます。この方向ますなく,计算がががなく,计算の效率性なくなく。

データを”学習用“と“検定用“のサブセットに分割する必要はなかったことに注意してください。これは,このこの法の元なるサンプリングにおいて暗黙であり,内部に行われます,ブートストラップを反复たび,ブートストラップレプリカがたびセットセットなりますますますます。-bag“)顾客顾客いれば,その顾客は前に告bag bag袋子分享到误差するための検定ポイント使するますポイントポイントされます。

次ためにとってあらゆるあらゆると点のにどうか点ですですにですです点にににににににににににに点にににかどうどうかか点点にかかかどうか点点点かかかどうあらゆるか点点のにかかかどうどうです点ののににかかかどう点点ののににかかか点点ののにかかかかどうです点ののかかかか点ですなのかかあらゆるかがそのなのかあらゆるいるいるはその度のにあらゆるいるいるはその度なににいるのは度度ににには次OOBPredictorImportance)を有効にし,最も重要な特徴を視覚的に見つけるために結果をプロットします。また,決定木の本数を増やしてみて,分類誤差を保存します。この結果は後に示すようにさらに比較するために使用します。

ntree = 50;叶= 10;RNG(Savedrng);b = treebagger(ntrees,x,y,“OOBPredictorImportance”“上”...“CategoricalPredictors”6...“MinLeafSize”、叶);酒吧(b.OOBPermutedPredictorDeltaError)包含(的数字特征)ylabel('禁止特征重要性')标题('特征重要结果')Ooberrorfullx = Ooberror(b);

特徴量2 4および6はその他の特徴量とは一線を画しています。特徴4は株式時価総額/全債務の簿価(MVE_BVTD)ですが,このデータセットにとって最も重要な予測子です。この比率は,默顿のモデル[5]など,構造モデルにおける信用度の予測子に密接に関係しています。ここで,債務不履行確率を判断するため,企業の株式の値を未払い負債と比較します。

业主贷款の特价6(行业)もこのデータセットに関して企業の信用度を評価する点で,その他の変数より相対的に重要です。

MVE_BVTDほどには重要ではありませんが,特徴2(内部留保/総資産(RE_TA)もその他の特徴量とは一線を画しています。内部留保と企業の存続年数には,相関関係があります(一般に,存続年数が長ければ長いほど,蓄積できる内部留保は増えます)。そして,企業の存続年数は信用度と相関関係があります(歴史の長い企業ほど,困難な時期を乗り越えられる可能性は高くなります)。

それでは,予測子RE_TAMVE_BVTD,および行业のみを使用して新しいアンサンブル分類を適合させてみましょう。分類誤差と以前の分類器を比較します。この以前の分類器では特徴がすべて使用されます。

X = [creditDS。RE_TAcreditDS。MVE_BVTDcreditDS。行业]; rng(savedRng) b = TreeBagger(nTrees,X,Y,“OOBPrediction”“上”...“CategoricalPredictors”,3,...“MinLeafSize”、叶);oobErrorX246 = oobError (b);情节(oobErrorFullX“b”) 抓住情节(oobErrorX246“r”)Xlabel(“已长成的树的数量”)ylabel(“Out-of-bag分类错误”)({传奇'所有功能'“功能2、4、6”},'地点'“东北”)标题(“不同预测器组的分类错误”) 抓住离开

00

この例では6個の特徴量で構成されるセットで開始し,変数のうち3つをスクリーニングで除外するための基準として分類器の特徴量重要度測定法とout-of-bag分類誤差を使用しました。予測子の初期セットに変数が多数含まれる場合,特徴の選択に時間がかかってしまう可能性があります。ここで使用したツール(変数重要度とout-of-bag誤差の”視覚的“比較)以外に,统计和机器学习工具箱で使用できる他の変数選択ツールもこの種の分析に役立つことがあります(ドキュメンテーションを参照してください)。ただし,結局のところ,特徴選択を成功させるには計量的分析手法に分析者の判断を加味することが必要になります。

たとえば,ここで使用した変数重要度測定法は,ある特徴の相対的な影響度を見積もるランク付けのしくみです。見積もるには,この特徴の値がランダムに置換された場合に分類器の予測精度がどの程度低下するのかを測定します。基本となる考え方は,問題の特徴が分類器の予測力にあまり貢献しないのであれば,値を変更(この場合は置換)して使用しても分類の結果は影響を受けないはずだ,というものです。一方,予測精度を低下させることなく関連情報をランダムに入れ替えることはできません。以上のことから2つの相関する特徴量が重要である場合,いずれもこの分析で上位にランクインします。その場合,正確に分類するためにこれらの特徴量の1つを維持することだけでも大変なのですが,そのことはランク付けの結果だけからはわからないでしょう。相関性を個別にチェックするか,専門家の判断を加味しなければならないでしょう。つまり,変数重要度やsequentialfsなどの手段は特徴選択に大いに貢献する可能性はあるものの,このプロセスで最も重要なのは分析者の判断だ,ということです。

この時点で,新規顧客を分類するために今後のセッション(负荷分类器)で読み込むためにこの分類器を保存する(保存分类器。垫bなど)ことができます。効率性のため,学習プロセスが終了したらコンパクト版の分類器を保存しておくことをお勧めします。

B =紧凑(b);

新規データの分類

ここでは,以前に作成したアンサンブル分類を使用して新規顧客の信用を格付けします。既存顧客の格付けも定期的に見直す必要がある(特に,財務情報が実質的に更新されたとき)ので,データセットに見直し中の既存顧客のリストも含まれることがあります。新規データの読み込みから始めます。

newDS = readtable (“CreditRating_NewCompanies.dat”);

この新規データの格付けを予測するため,分類器に预测メソッドを呼び出します。このメソッドは,予測クラスと分類スコアという2つの引数を返します。このどちらの出力引数も必要なものです。分類スコアには予測された格付けの確実性に関する情報が含まれるからです。以前と同じように、変数RE_TAMVE_BVTD,および行业を行列Xにコピーしてもよいのですが,呼び出すのは预测だけなので,この手顺を省略してnewDSをを使使。

[predClass, classifScore] =预测(b, [newDS。RE_TA newDS。MVE_BVTDnewDS.行业]);

この时代で,レポートを作用成するます。ここここは,说明のためにの3件の顾客に关键小さいレポートのみを画面にします,matlabの配布ツールを使するこの配フローをツールする改善,クレジットアナリストはこのをを実実し,网页ブラウザーでレポートをするます.matlabががインストールされいるいるはありされいるいるはありませませれ。

I = 1:3 fprintf(“客户% d: \ n”,newds.id(i));fprintf(' RE/TA = % 4.2 f\n'newDS.RE_TA(我));fprintf(' MVE/BVTD = %5.2f\n',newds.mve_bvtd(i));fprintf('行业=%2d \ n'newDS.Industry(我));fprintf('预测等级:%s\n',predcrass {i});fprintf('分类得分:\ n');J = 1:长度(B.Classnames)如果(classifScore (i, j) > 0)流(' %s: %5.4f \n', b.ClassNames {j}, classifScore (i, j));结束结束结束
客户60644:RE / TA = 0.22 MVE BVTD = 2.40 = 6预测评级:AA分类得分:答:0.2874 AA: 0.6919 AAA级:0.0156 BBB: 33083年0.0051客户:RE / TA = 0.24 MVE BVTD = 4 = 1.51行业预测评级:BBB分类得分:答:0.0751 BB: 0.0017 BBB: 63830年0.9232客户:分类评分:A: 0.6629 AA: 0.0067 B: 0.0008 BB: 0.0005 BBB: 0.3291

予測された格付けおよび対応するスコアのレコードを保持することは,分類器の質を定期的に評価する際に役立ちます。ここではこの情報を桌子配列であるpredDSに保存します。

一会= b.ClassNames;predDS =[表(newDS.ID predClass) array2table (classifScore)];predDS.Properties.VariableNames = {“ID”“PredRating”,一会{:}};

この情報は,たとえば次のコマンドを使用して,コンマ区切りテキストファイルPredictedRatings.datに保存することもできます。

writetable (predDS PredictedRatings.dat);

または、数据库工具箱を使用してデータベースに直接書き込むこともできます。

バックテスト:分享到プロセスプロファイリング

格付けの質をプロファイリングつまり評価するプロセスを“検証”または”バックテスト”といいます。この作业には,关键词测定法と検定数検定検定あります(たとえば,バーゼル银行监督委员委员(を参照してください)。ここ参照し,次の2つの问题にを当てます。

  • 予测された格付けは実际の格付けと比较してどの程度正确なのでしょうか。ここでいう “予测された格付け” とは,自动化された分类プロセスで得られる格付けを指します。 “実际の格付け” とは,信用均委会が割り当てる格式を指します。信用又招会は,予测された格式とそのスコア,およびその他情情ををに判断して最终なを决定します。

  • 実際の格付けは顧客を信用度に従ってどの程度正確にランク付けすることができるのでしょうか。これが行われるのは,事后(事后)分享(1年后など)においてですくらいくらい时间が経过すれば,その晚间中に债务不行公路に陥ったた业が明らかになるからです。

ファイルCreditRating_ExPost.datには,前の節で検討した同じ企業に関する“追”跡データが含まれます。このファイルには,委員会がそれらの企業に割り当てた実際の格付けおよび”債務不履行フラグ”が含まれます。債務不履行フラグとは,格付けから1年以内にその企業が債務不履行に陥った(1)かそうでない(0)かを示す指標です。

exPostDS = readtable (“CreditRating_ExPost.dat”);

予测された格式対実际の格式の。自动化されたたに学习させるは,信用又招会の促进するする格式が。予测さた格式が。予测さた格式が正式であればあるほど,委员委员予测された格式见直しに费やさねばならないの短缩されます。したがっしたがっ,予测された格式ががににられられた最终付けにどれどれほど近いのかをにどれほどすることかを食い违い大声ば,自动化违いさば,自动化されば勧めるに再度习习せるよう勧める(さらに,たとえば新机の搭载搭载委员会が希望するの考え考えことです。

予測された格付けと実際の格付けを比較するために使用できる最初のツールは”混同行列“です。これは、统计和机器学习工具箱にあらかじめ用意されています。

C = confusionchart (exPostDS.Rating predDS.PredRating);sortClasses (C, {“AAA”“AA”“一个”“BBB”“BB”“B”“CCC”})

行は実際の格付けに,列は予測された格付けに対応します。混同行列内の位置(i, j)におけるにおける値,実际の格式が,予测された格式がjである顧客の人数を示します。たとえば,位置(2)は信用调查委员会が “A” と格付けした顾客の数および自动化された分类器で “AA” と予测された顾客の数を示します。この行列は,パーセントで表现することもできます。真の格式がが同じである値値の个によって各値を规规规しし

C.normalization =.“row-normalized”

予測された格付けと実際の格付けが十分一致していれば,同じ行においてその他の値に影響を与える主対角要素の値は,理想的には1に近くなります。この場合,“B”には重要な不一致が実際に見られます。信用調査委員会が“B”と格付けした顧客の約半数は,自動化された分類器では“BB”と予測されたためです。一方,唯一の例外の" BBB "を除き,大半のケースで格付けの食い違いがせいぜい1段階でしかないのは良いことです。

混同行列を使をて,格式机械性による社内格式と第第三者のできを比较実际わわわわわれれれれれわわわわれれ

特定の格付けについて,予測された格付けと実際の格付けの一致度をさらに別途算出することができます。统计和机器学习工具箱の関数perfcurveを使用して“受信者動作特性(ROC)曲線”を描き,“曲線の下の領域(AUC)”をチェックすることができます。関数perfcurveは,実際の格付け(これがベンチマークです),比較対象とする基準,および自動化されたプロセスによって算出されたBBB的分類スコアという引数を取ります。それでは,民国を作成しこの例で格付けBBB的のAUCを計算しましょう。

[xVal yVal, ~, auc] = perfcurve (exPostDS.Rating predDS.BBB,“BBB”);情节(xVal yVal)包含('虚假阳性率')ylabel(“真阳性率”)文本(0.5,0.25,strcat (“AUC =”num2str (auc)),“EdgeColor”“k”)标题(ROC曲线BBB,预测与实际评分

中华民国の作成方法を説明します。自動化された分類器が顧客ごとに各格付け,特にBBB的の分類スコアを返すことを思い出してください。このスコアは,この特定の顧客がBBB的とランク付けされる可能性の高さを表すと解釈することができます。中华民国曲線を作成するには,“分類しきい値”に変化をもたせる必要があります。分類しきい値とは,ある顧客をBBB的と分類するための最小スコアのことです。つまり,しきい値がtの場合,BBBスコアがt以上の場合のみ,その顧客をBBB的に分類します。たとえば,XYZ.社のBBB的スコアが0.87だとします。XYZ.社の実際の格付け(exPostDS。评级でで示されたた情)が'BBB'であるである合,XYZ.社は最高0.87までの任意のしきい値について正しくBBB的と分類されることになります。これは”真陽性”であり,分類器のいわゆる”感度”が向上します。0.87しきい値がを超える場合,同社はBBB的に格付けされず,“偽陰性”となります。説明を補足するため,XYZ.社の実際の格付けが“BB”であるとしましょう。すると,0.87を超えるしきい値に対してはBBB的として正しく却下され,“真陰性”となり,こうして分類器のいわゆる”特異性”が向上します。しかし,0.87までまでのしきい値に対してはははになりますます(実际には'BB'でも,'bbb'に分享されます)。中华民国曲線を作成するには,しきい値が0 ~ 1の間を動くものとして,真陽性(感度)と偽陰性(1 -特異度)の比率の値をプロットしていきます。

AUCはその名前が示すとおり,民国曲線の下の領域です。AUCが1に近ければ近いほど,分類器の精度は高くなります(分類器が完全であれば,AUCは1)。この例では,AUCは十分に高いようですが,どのレベルのAUCだと自動化された分類器を改良するよう勧告するのかを決定するのは信用調査委員会です。

実际の格式対翌年の债务不行行数。格付けにおいて暗黙的な顧客のランキングを評価するために使用される一般的な指標は,“累積精度輪郭(CAP)”およびそれに関連する“精度率”です。基本的な考え方は,割り当てられた格付けと翌年に観測された債務不履行件数との関係を測定する,というものです。格付けのクラスが良いほど,債務不履行の件数は減少するものと思われます。どの格付けでも貸倒発生率が同じであれば,その格付けシステムは単純で役立たずの分類システムであり,顧客は信用度とは無関係にランダムに格付けされていることになります。

関数perfcurveを帽の作成にも使用できることはすぐにわかるはずです。比較対象とする基準は,以前とは異なり格付けではなく,CreditRating_ExPost.datファイルから読み込んだ债务债务不行行フラグです。使用するスコアは“ダミースコア”で,これは格式リストで暗黙な度のランキング示しますスコアがのランキング示しますダミーが満たす条件は示しますスコア満たすべきは,格式上がるほどスコアはは“债务不行行フラグが1になる可能性低い”という意味意味ががが同じばダミースコアももになるなるいうことだけだけ债务なるなるいうことだけ率は债务であれいうことだけ率は债务债务であれいうこと率ははであれであれば确率ははであれであれば确率ははであれであればこと率率もできますが,ここでは债务不行行确は不明です。実际のところ,“债务不行行确率推定ががても,帽子作物成でき”。债务不行行确率検证しているわけではないですです。この指標で評価しているのは,格付けにより顧客をその信用度に従って”ランク付け”するときの精度です。

通讯は,検讨対象の格式システムのの“完全な格式”の帽と共にプロットます。后者は仮说上の格式システムであり,格が最低のにはすべての不行行者がはさ,そのそののの顾客は最低クラスには入れられられのの曲曲ののののははははははは领域は得るの最最最値になりなりなりにより,“単纯単纯システム”ののの下载のを减算するためのななな,aceがシステムが调整され。“単纯な”の帽,顾客をランダムに格式するシステム帽のです。単純なシステムの帽は,原点から座標(1,1)に伸びる直線であり,AUCは0.5です。したがって,格付けシステムの“精度率”の定義は,調整済みACU(検討対象システムのAUCから単純なシステムのAUCを引いたもの)と最高精度(完全なシステムのACUから単純なシステムのAUCを引いたもの)の比率です。

RatingsList = {“AAA”“AA”“一个”“BBB”“BB”“B”“CCC”};Nratings =长度(ratingsList);dummyDelta = 1 / (Nratings + 1);dummyRank = linspace (dummyDelta 1-dummyDelta Nratings) ';D = exPostDS.Def_tplus1;fracTotDef =和(D) /长度(D);maxAcc = 0.5 - 0.5 * fracTotDef;R =双(序数([],exPostDS.Rating ratingsList));S = dummyRank (R);[xVal yVal, ~, auc] = perfcurve (D S 1); accRatio = (auc-0.5)/maxAcc; fprintf('实际评级的精度比:%5.3f\n',accratio);xperfect(1)= 0;Xperfect(2)= FractotDef;xperfect(3)= 1;yperfect(1)= 0;yperfect(2)= 1;yperfect(3)= 1;XNAIVE(1)= 0;XNAIVE(2)= 1;YNAIVE(1)= 0; yNaive(2) = 1; plot(xPerfect,yPerfect,' -  k'xVal yVal,“b”xNaive yNaive,“同意”)Xlabel(“占所有公司的比例”)ylabel(“违约公司的比例”)标题(“累积准确性概要”)({传奇“完美的”“实际”“天真的”},'地点''东南')文本(xVal (2) + 0.01, yVal -0.01 (2),“CCC”)文本(xVal (3) + 0.01, yVal -0.02 (3),“B”)文本(XVAL(4)+ 0.01,YVAL(4)-0.03,“BB”
实际评级的精度比:0.850

帽の情報を読み取るポイントは,“ねじれ”にあります。このねじれというレッテルは,格付け“CCC”、“B”,および“BB”のプロットで貼られます。たとえば,2 番目のねじれは 2 番目に低い格付け 'B' に関連付けられており、(0.097, 0.714) にあります。これは、顧客の 9.7% が 'B'、つまり "比較的低い" とランク付けされ、観測された債務不履行件数の 71.4% を占めることを意味します。

一般に,精度率は絶対的な測定値ではなく相対値として処理すべきです。たとえば,予測された格付けの CAP をサンプル プロットに加算し、精度率を計算して、実際の格付けの精度率と比較することができます。

弹性分组环=双(序数(predDS.PredRating, [], ratingsList));传播= dummyRank (rpr);[xValPred yValPred, ~, aucPred] = perfcurve (D,传播,1);accRatioPred = (aucpred - 0.5) / maxAcc;fprintf(“预测评级的准确率:%5.3f\n”, accRatioPred);情节(xPerfect yPerfect,' -  k'xVal yVal,“b”xNaive yNaive,“同意”...xValPred yValPred,“:r”)Xlabel(“占所有公司的比例”)ylabel(“违约公司的比例”)标题(“累积准确性概要”)({传奇“完美的”“实际”“天真的”'预料到的'},'地点''东南'
预测评分的准确率:0.830

予測された格付けの精度率は下がり,大半のケースでその帽は実際の格付けの帽を下回ります。これは当然のことです。実際の格付けは信用調査委員会が,予測された格付けだけでなく格付けの微調整にとって重要な追加情報も考慮して判断したものだからです。

おわりに

MATLABはバギングされた決定木以外にも多様な機械学習ツールを提供しており,それらも格付けに使用することができます。统计和机器学习工具箱には、判別分析や単純ベイズ分類器などの分類ツールが用意されています。MATLAB には、Deep Learning Toolbox™ もあります。さらに、Database Toolbox や MATLAB の配布ツールを使用すると、ここで説明したワークフローをより柔軟に独自の基本設定とニーズに合わせることができる可能性があります。

ここでは,債務不履行確率は計算されていません。格付けでは,格付け移動履歴に基づいて債務不履行確率を計算するのが一般的です。詳細については、金融工具箱™のtransprobリファレンスページを参照しくださいください。

参考文献

[1] Altman,E.,“财务比率,判别分析和企业破产预测”金融杂志,第23卷第4期(1968年9月),第589-609页。

[2]巴塞尔银行监管委员会”,研究验证的内部评级系统,“国际清算银行(BIS), 14号工作文件修订版本,可能2005. https: / / www.bis.org/publ/bcbs_wp14.htmで入手可能

[3]巴塞尔银行业监督委员会,“资本计量和资本标准的国际趋同:修订框架,”国际定居点银行(BIS),全面版本,2006年6月.https://www.bis.org/publ/bcbsca.htmで入手可

G.吕弗勒和P. N.波许,基于Excel和VBA的信用风险建模英格兰西苏塞克斯:威利金融,2007。

[5] Merton, R.,《企业债务定价:利率的风险结构》,金融杂志, Vol. 29, No. 2, (May, 1974), pp. 449-70。