主要内容

bining Explorer案例研究示例

属性创建信用记分卡奔波探险家应用程序。使用奔波探险家要将数据装箱,绘制已装箱数据信息,并导出acreditscorecard对象。然后使用creditscorecard对象,使用Financial Toolbox™中的函数拟合逻辑回归模型,为数据确定评分,确定违约概率,并使用三个不同的度量来验证信用记分卡模型。

步骤1。负载信用计分卡数据MATLAB工作区。

使用CreditCardData.mat文件以载入数据在MATLAB®工作区(使用Refaat 2011的数据集)。

负载CreditCardDataDISP(数据(1:10,:))
Custide监护tmataddress resstatus empstatus custincome tmwbank其他cc anycrate userrate状态____________________________ __________________________________________________________________________________________________________________________________22雇主52000 25是1161.6 0.24 0 3 47 30租户雇用37000 61否877.23 0.29 0 4 50 75家庭主任雇用53000 20是157.37 0.08 0 5 68 56家主人使用53000 14是561.84 0.11 0 6 65 13家主人使用48000 59是968.18 0.15 0 7 34 32房东未知32000 26是717.82 0.02 1 8 50 57其他采用51000 33否3041.2 0.13 0 9 50 10租户未知52000 25是115.56 0.02 1 10 49 30房主未知53000 23是718.5 0.17 1

步骤2。导入数据进入Binning Explorer。

打开奔波探险家来自Matlab Toolstrip:在应用程序选项卡,在计算金融,点击应用程序图标。或者,你也可以进入Binningexplorer.在MATLAB命令行上。有关启动奔波探险家从命令行,见从MATLAB命令行使用数据或现有的creditscorecard对象开始

奔波探险家将来发布,选择导入数据要打开“导入数据”窗口。

导入数据对话框

在下面步骤1, 选择数据

在下面步骤2,可选择设置变量类型对于每个预测器。默认情况下,数据中的最后一列('地位'(在本例中)设置为'回复'.计数最高的响应值(0(在本例中)设置为'好的'.所有其他变量都被认为是预测因素。但是,在这个例子中,因为“CustID”是不是一个预测器,设定的变量类型“CustID”不包括

请注意

如果输入MATLAB表包含列重量,从步骤2窗格中,使用变量类型列,单击下拉菜单进行选择权重.有关使用观测权的更多信息creditscorecard对象,参见使用观察权的信用记分卡建模

如果数据包含缺失的值,则从步骤2窗格中,设置本丢失的数据:是的.有关处理缺失数据的更多信息,请参见信用记分卡与缺失值建模

在下面步骤3, 离开单调作为默认的初始分箱算法。

点击导入数据以完成导入操作。当所有预测器被导入时,使用所选算法对它们进行自动分箱奔波探险家

每个预测器的箱子都被绘制并显示出来。通过单击选择单个预测器图概述窗格中,该预测器图的详细信息显示在主窗格和本信息预测信息应用程序底部的窗格。

镀纸后的预测仪绘图显示

奔波探险家使用默认值执行每个预测器变量的自动分列“单调”使用默认算法选项的算法。对于信用记分卡来说,证据权重(WOE)的单调、理想的线性趋势通常是可取的,因为对于给定的预测器,这可以转化为线性点。悲哀趋势在图上可视化的每个预测奔波探险家

执行一些初始数据探索。询问预测统计数据“ResStatus”分类变量。

点击resstatus情节。的本信息窗格包含“Good”和“Bad”频率和其他bin统计数据,如证据权重(WOE)。

本信息显示

对于数字数据,将显示相同的统计信息。点击缅因一情节。的本信息是否更新了关于缅因一

班斯特金预测因素的信息

步骤3。在bininning Explorer中使用手动装箱来微调箱子。

点击CustAge预测情节。请注意,容器1和2具有类似的悲哀,容器5和6也是如此。

为CustAge预测器绘制图

要从主窗格合并1和2,请单击Ctrl+点击或转变+点击多选bin 1和2显示蓝色轮廓合并。

选定两个箱子的CustAge预测器的图

在这一点奔波探险家Toolstrip,这边缘文本框显示所选箱的边缘的值以合并。

使用边缘文本框合并选定的箱子CustAge预测器

点击合并为了完成箱子1和2的合并。的CustAge预测器图更新了新的bin信息和细节本信息预测信息窗格也被更新。

用两种所选垃圾箱进行监护预测器的情节

接下来,合并箱子4和5,因为它们也有类似的悲哀。

用箱4和5选择禁止预测测量的策略

CustAge预测器图会随着新的箱子信息而更新。详情请参阅本信息预测信息窗格也被更新。

对下列具有类似悲哀的容器重复此合并操作:

  • 缅因一,合并3,4和5。

  • tmwbank.,合并bin 2和bin 3。

  • 余余,合并bin 2和bin 3。

现在,所有预测器的箱子都有近在线性的WOE趋势。

步骤4。导出creditscorecard对象。

完成Binning作业后,使用奔波探险家,点击出口然后点击出口计分卡并提供一个creditscorecard对象名称。的creditscorecard对象(SC.)保存到Matlab工作区。

第5步。拟合逻辑回归模型。

使用fitmodel函数拟合逻辑回归模型的悲哀数据。fitmodel内部存储训练数据,将其转换为WOE值,映射响应变量,以便'好的'1,并符合线性逻辑回归模型。默认,fitmodel使用一个逐步过程来确定哪些预测器属于模型。

sc = fitmodel (sc);
1.添加CustIncome, Deviance = 1490.8954, Chi2Stat = 32.545914, PValue = 1.1640961e-08添加TmWBank, Deviance = 1467.3249, Chi2Stat = 23.570535, PValue = 1.2041739e-06添加AMBalance, Deviance = 1455.858, Chi2Stat = 11.466846, PValue = 0.00070848829添加EmpStatus, Deviance = 1447.6148, Chi2Stat = 8.2432677, PValue = 0.0040903428添加CustAge, Deviance = 1442.06, Chi2Stat = 5.5547849, PValue = 0.018430237添加ResStatus, Deviance = 1437.9435, Chi2Stat = 4.1164321, PValue = 0.042468555添加OtherCC, Deviance = 1433.7372, Chi2Stat = 4.2063597, PValue = 0.040272676广义线性回归模型:logit(status) ~ 1 + CustAge + ResStatus + EmpStatus + CustIncome + TmWBank + OtherCC + AMBalance分布=二项估计系数:估计SE tStat pValue ________ _______ ______ __________(拦截)0.7024 0.064 10.975 5.0407e-28 CustAge 0.61562 0.24783 2.4841 0.012988 ResStatus 1.3776 0.65266 2.1107 0.034799 EmpStatus 0.88592 0.29296 3.024 0.0024946 CustIncome 0.69836 0.21715 3.216 0.0013001 TmWBank 1.106 0.23266 4.7538 1.9958e-06 OtherCC 1.0933 0.52911 2.0662 0.038806离散度:1 Chi^2统计量vs.常数模型:89.7,p-value = 1.42e-16

步骤6.查看和格式化记分卡点。

在拟合逻辑模型之后,默认情况下,该点未加工,并直接来自WOE值和模型系数的组合。使用displaypoints.功能总结记分卡的要点。

p1 = displaypoints(sc);DISP(P1)
预测本点  ____________ __________________ _________ ' CustAge“[无穷,37)“-0.15314”CustAge ' '[37、40)“-0.062247”CustAge ' '[40岁,46)“0.045763”CustAge ' '[46岁,58)“0.22888”CustAge ' '[58岁的Inf]“0.48354”ResStatus“租户“-0.031302”ResStatus“业主“0.12697”ResStatus ' '其他' 0.37652 ' EmpStatus“未知”-0.076369“EmpStatus”'Employed' 0.31456 ' customincome ' '[-Inf,29000)' -0.45455 ' customincome ' '[29000,33000)' -0.1037 ' customincome ' '[33000,42000)' 0.24406 ' customincome ' '[47000,Inf]' 0.43536 'TmWBank' '[-Inf,12)' -0.18221 'TmWBank' '[45,45)' -0.038279 'TmWBank' '[45,71)' 0.39569 'TmWBank' [71,Inf]' 0.95074 'OtherCC' 'No' -0.193'OtherCC' 'Yes' 0.15868 'AMBalance' '[-Inf,558.88)' 0.3552 'AMBalance' '[558.88,1597.44)' -0.026797 'AMBalance' '[1597.44,Inf]' -0.21168

modifybins给垃圾箱更具描述性标签。

sc = modififybins(sc,“CustAge”“BinLabels”......“36”37到39的40到45的“46 57”“58,”});sc = modififybins(sc,“缅因”“BinLabels”......'最多28999'“29000 - 32999”“33000 - 41999”“42000 - 46999”“47000,”});sc = modififybins(sc,“TmWBank”“BinLabels”......“11”'12到44'45到70的“71,”});sc = modififybins(sc,“AMBalance”“BinLabels”......“558.87”558.88到1597.43的“1597.44”,});p1 = displaypoints(sc);DISP(P1)
Predictors Bin Points ____________ ___________________ _________ 'CustAge' 'Up to 36' -0.15314 'CustAge' '37 to 39' -0.062247 'CustAge' '40 to 45' 0.045763 'CustAge' '46 to 57' 0.22888 'CustAge' '58 and Up ' 0.48354 'ResStatus' 'Tenant' -0.031302 'ResStatus' 'Home Owner' 0.12697 'ResStatus' Other' 0.37652 'EmpStatus' 'Unknown' -0.076369 'EmpStatus''Employed' 0.31456 'CustIncome' 'Up to 28999' -0.45455 'CustIncome' '29000 to 32999' -0.1037 'CustIncome' '33000 to 41999' 0.077768 'CustIncome' '42000 to 46999' 0.24406 'CustIncome' '47000 and up' 0.43536 'TmWBank' 'Up to 11' -0.18221 'TmWBank' '12 to 44' -0.038279 'TmWBank' '45 to 70' 0.39569 'TmWBank' '71 and up' 0.95074 'OtherCC' 'No' -0.193 'OtherCC' 'Yes' 0.15868 'AMBalance' 'Up to 558.87' 0.3552 'AMBalance' '558.88 to 1597.43' -0.026797 'AMBalance' '1597.44 and up' -0.21168

点是缩放的,也经常是圆角的。要使这些点圆润和缩放,请使用formatpoints函数。例如,您可以设置与目标赔率级别对应的目标级别,并设置所需的点对级 - od-odds(PDO)。

“靶点= 500;TargetOdds = 2;PDO = 50;%点双倍的几率sc = formatopoints(sc,“PointsOddsAndPDO”,(靶点TargetOdds PDO));p2 = displaypoints (sc);disp (p2)
Predictors Bin Points ____________ ___________________ ______ 'CustAge' 'Up to 36' 53.239 'CustAge' '37至39' 59.796 'CustAge' '40至45' 67.587 'CustAge' '46至57' 80.796 'CustAge' '58 and Up ' 99.166 'ResStatus' 'Tenant' 62.028 'ResStatus' 'Home Owner' 73.445 'ResStatus' 'Other' 91.446 'EmpStatus' 'Unknown' 58.777 'EmpStatus' 'Employed' 86.976' CustIncome ' ' 28999 ' 31.497 ' CustIncome”“29000年到32999年的56.805“CustIncome”“33000年到41999年的69.896“CustIncome”“42000年到46999年的81.891“CustIncome”的47000和95.69“TmWBank”“11”51.142“TmWBank”“12至44”61.524“TmWBank”' 45到70 ' 92.829 ' TmWBank ' ' 71和132.87“OtherCC”“不”50.364“OtherCC”“是的”75.732“AMBalance”'Up to 558.87' 89.908 'AMBalance' '558.88 - 1597.43' 62.353 'AMBalance' '1597.44 and Up ' 49.016

步骤7。得分数据。

使用分数函数来计算培训数据的分数。您还可以通过可选数据输入分数,例如,验证数据。每个客户的每个预测器的点作为可选输出提供。

(分数,分)=分数(sc);disp(分数(1:10)disp(点(1:10,:))
528.2044 554.8861 505.2406 564.0717 554.8861 586.1904 441.8755 515.8125 524.4553 508.3169 CustAge ResStatus EmpStatus CustIncome TmWBank OtherCC AMBalance _______ _________ _________ __________ _______ _______ _________ 80.796 62.028 58.777 95.69 92.829 75.732 62.353 99.166 73.445 86.976 95.69 61.524 75.732 62.353 80.796 62.028 86.976 69.896 92.829 50.364 62.353 80.796 73.445 86.976 95.69 61.52475.732 89.908 99.166 73.445 86.976 95.69 61.524 75.732 62.353 99.166 73.445 86.976 95.69 92.829 75.732 62.353 53.239 73.445 58.777 56.805 61.524 75.732 62.353 80.796 91.446 86.976 95.69 61.524 50.364 49.016 80.796 62.028 58.777 95.69 61.524 75.732 89.908 80.796 73.445 58.777 95.69 61.524 75.732 62.353

步骤8.计算默认值。

要计算默认概率,请使用probdefault函数。

pd = probdefault (sc);

定义“好”的概率,并绘制预测概率与格式化分数的关系图。直观地分析目标点和目标几率匹配,以及几率加倍(PDO)关系。

probgood = 1-pd;pregigeDedds = probgood./pd;Figure Scatter(分数,PredigeDoDDS)标题(“预测概率vs分数”)Xlabel(“分数”)ylabel(“预测概率”) 抓住xlimits = xlim;ylimits = ylim;%目标点和几率绘图([TargetPoints TargetPoints],[Ylimits(1)Targetodds],凯西:”)绘图([xlimits(1)目标点],[Targetodds Targetodds],凯西:”%目标点加上PDO情节([靶点+ PDO靶点+ PDO], [yLimits (1) 2 * TargetOdds),凯西:”)绘图([xlimits(1)目标点+ pdo],[2 * targetodds 2 * targetodds],凯西:”%目标点减去PDO情节([TargetPoints-PDO TargetPoints-PDO]、[yLimits (1) TargetOdds / 2),凯西:”) plot([xLimits(1) TargetPoints-PDO],[TargetOdds/2 TargetOdds/2],凯西:”) 抓住离开

预测概率与得分的关系图

第9步。使用CAP、ROC和Kolmogorov-Smirnov统计量验证信用记分卡模型

creditscorecard对象支持三种验万博1manbetx证方法,累积精度轮廓(CAP),接收者工作特征(ROC)和Kolmogorov-Smirnov (KS)统计量。有关CAP、ROC和KS的更多信息,请参阅validatemodel

[stats,t] = validatemodel(sc,“阴谋”,{“帽子”'鹏''ks'});disp(统计)disp (T (1:15,:))
测量值  ______________________ _______ ' 精度比0.32225的ROC曲线下面积“0.66113”KS统计499.18“0.22324”KS分数分数ProbDefault TrueBads FalseBads TrueGoods FalseGoods敏感性FalseAlarm PctObs  ______ ___________ ________ _________ _________ __________ ___________ __________ __________ 369.4 - 0.7535 0 1 802 397 00.0012453 0.00083333 377.86 0.73107 1 1 802 396 0.0025189 0.0012453 0.0016667 379.78 0.7258 2 1 802 395 0.0050378 0.0012453 0.0025 391.81 0.69139 3 1 802 394 0.0075567 0.0012453 0.0033333 394.77 0.68259 3 2 801 394 0.0075567 0.0024907 0.0041667 395.78 0.67954 4 2 801 393 0.010076 0.0024907 0.005 396.95 0.67598 5 2 801 392 0.012594 0.0024907 0.0058333 398.37 0.67167 6 2 801 391 0.015113 0.0024907 0.0066667 401.26 0.66276 7 2 801 390 0.017632 0.0024907 0.0075 403.23 0.65664 8 2 801 389 0.020151 0.0024907 0.0083333 405.09 0.65081 8 3 800 389 0.020151 0.003736 0.0091667 405.15 0.65062 11 5 798 386 0.027708 0.0062267 0.013333 405.37 0.64991 11 6 797 386 0.027708 0.007472 0.014167 406.18 0.64735 12 6 797 385 0.030227 0.007472 0.015 407.14 0.64433 13 6 797 384 0.032746 0.007472 0.015833

帽曲线

ROC曲线

钴的阴谋

另请参阅

||||||||||||||||

相关的例子

更多关于

外部网站