此示例示出了如何以符合多个概率分布对象相同的样本数据集,和获得的每个分布如何适合该数据的视觉比较。
加载示例数据。
加载卡斯莫尔
此数据包含每加仑英里数(MPG
)用于测量不同品牌和汽车型号,由原籍国分组(起源
),年款(车型年份
),以及其他车辆特性。
转换起源
并从样本数据中移除意大利车。因为只有一辆意大利车,fitdist
比一个内核分配使用其他不适合分发到该组。
原点=分类(cellstr(原点));MPG2 = MPG(产地〜='意大利');Origin2 =原点(产地〜='意大利');Origin2 = removecats(Origin2,'意大利');
使用fitdist
将Weibull分布、正态分布、logistic分布和核分布拟合到MPG
数据。
[WeiByOrig,国家] = fitdist(MPG2,“威布尔”,'通过',Origin2);[NormByOrig,国家] = fitdist(MPG2,'正常','通过',Origin2);[LogByOrig,国家] = fitdist(MPG2,“物流”,'通过',原文2);[KerByOrig,Country]=fitdist(MPG2,'内核','通过',Origin2);
WeiByOrig
威比约里格=1×5单元阵列列1至2 {的1x1 prob.WeibullDistribution} {的1x1 prob.WeibullDistribution}列3至4 {的1x1 prob.WeibullDistribution} {的1x1 prob.WeibullDistribution}第5列{的1x1 prob.WeibullDistribution}
国家
国家=5x1电池{ '法国'} { '德国'} { '日本'} { '瑞典'} { 'USA'}
每个国家集团现拥有4个相关的分布对象。例如,单元阵列WeiByOrig
包含五个威布尔分布的目的,一个用于在采样数据表示的每个国家。同样地,单元阵列范ByOrig
包含五个正态分布对象,依此类推。每个对象都包含保存有关数据、分布和参数的信息的属性。阵列国家
按分布对象存储在单元格数组中的顺序列出每个组的原产国。
提取USA四个概率分布对象,并计算每个分布的PDF。如步骤3所示,美国是在每个单元阵列中位置5。
WeiUSA = WeiByOrig {5};NormUSA = NormByOrig {5};LogUSA = LogByOrig {5};KerUSA = KerByOrig {5};X = 0:1:50;pdf_Wei = PDF(WeiUSA,X);pdf_Norm = PDF(NormUSA,X);pdf_Log = PDF(LogUSA,X);pdf_Ker = PDF(KerUSA,X);
绘制适合美国数据的每个分布的pdf,叠加在样本数据的直方图上。将直方图规格化以便于显示。
创建美国样本数据的直方图。
数据=MPG(初始值2=='美国');图柱状图(数据,10,'正常化','PDF','FaceColor',[1,0.8,0]);
绘制每个拟合分布的PDF文件。
线(X,pdf_Wei,'线条样式',' - ','颜色','R')线(X,pdf_Norm,'线条样式',' - '。,'颜色','B')线(X,pdf_Log,'线条样式',' - ','颜色','G')行(x,pdf\uker,'线条样式',':','颜色',“k”)图例('数据',“威布尔”,'正常',“物流”,'核心','位置','最好')标题(“MPG从美国汽车公司)X标签('MPG')
将pdf图叠加在样本数据的直方图上,可以直观地比较每种类型的分布与数据的拟合程度。只有非参数核分布克鲁萨
接近揭示原始数据的两种模式。
为了研究在步骤5,组揭示了两种模式MPG
两个来源国的数据(起源
)和型号年份(车型年份
),并使用fitdist
使核分布适合每个组。
[KerByYearOrig,名称] = fitdist(MPG,'核心','通过',{原产地模型};
产地和型号年份的每一个独特的组合现在有一个与之相关的内核分配对象。
名称
名称=14x1细胞{ '法国...'} { '法国...'} { '德国...'} { '德国...'} { '德国...'} { '意大利...'} {”日本... '} { '日本...'} { '日本...'} { '瑞典...'} { '瑞典...'} { 'USA ......'} {' USA。..' } {'美国...' }
绘制单元阵列中的每个美国模型年的三个概率分布,这是在位置12,13,和14KerByYearOrig
。
数字保持在对于I = 12:14图(X,PDF(KerByYearOrig {I},X))结束传说('1970年',“1976年”,'1982年')标题('美国车型年的MPG')X标签('MPG')保持远离的
当车型年进一步分组,将PDF图显示在两个不同的峰MPG
美国制造汽车的数据-一个是1970年款的数据,另一个是1982年款的数据。这就解释了为什么美国每加仑英里数的直方图显示了两个峰值而不是一个峰值。