比较多个分布拟合

此示例示出了如何以符合多个概率分布对象相同的样本数据集,和获得的每个分布如何适合该数据的视觉比较。

步骤1.加载样本数据。

加载示例数据。

加载carsmall

该数据包含每加仑行驶哩数(MPG)用于测量不同品牌和汽车型号,由原籍国分组(起源),型号年(Model_Year)等车辆特性。

步骤2.创建分类数组。

变换起源放入一个分类数组,并从示例数据中删除意大利车。因为只有一辆意大利车,fitdist比一个内核分配使用其他不适合分发到该组。

原点=分类(cellstr(原点));MPG2 = MPG(产地〜='意大利');Origin2 =原点(产地〜='意大利');Origin2 = removecats(Origin2,'意大利');

步骤3。按组拟合多个分布。

使用fitdist拟合威布尔分布,正态分布,logistic分布和核分布的每个国家的原始组MPG数据。

[WeiByOrig,国家] = fitdist(MPG2,“威布尔”'通过', Origin2);[NormByOrig,国家] = fitdist(MPG2,'正常''通过', Origin2);[LogByOrig,国家] = fitdist(MPG2,“物流”'通过', Origin2);[KerByOrig、国家]= fitdist (MPG2“内核”'通过', Origin2);
WeiByOrig
WeiByOrig =1×5单元阵列列1至2 {的1x1 prob.WeibullDistribution} {的1x1 prob.WeibullDistribution}列3至4 {的1x1 prob.WeibullDistribution} {的1x1 prob.WeibullDistribution}第5列{的1x1 prob.WeibullDistribution}
国家
国家=5 x1细胞{ '法国'} { '德国'} { '日本'} { '瑞典'} { 'USA'}

每个国家集团现拥有4个相关的分布对象。例如,单元阵列WeiByOrig包含五个威布尔分布的目的,一个用于在采样数据表示的每个国家。同样地,单元阵列范ByOrig包含5个正态分布对象,以此类推。每个对象都包含一些属性,这些属性包含有关数据、分布和参数的信息。数组国家按与单元格数组中存储的分布对象相同的顺序列出每个组的原产国。

步骤4。计算每个分发版的pdf。

提取USA四个概率分布对象,并计算每个分布的PDF。如步骤3所示,美国是在每个单元阵列中位置5。

WeiUSA = WeiByOrig {5};NormUSA = NormByOrig {5};LogUSA = LogByOrig {5};KerUSA = KerByOrig {5};X = 0:1:50;pdf_Wei = PDF(WeiUSA,X);pdf_Norm = PDF(NormUSA,X);pdf_Log = PDF(LogUSA,X);pdf_Ker = PDF(KerUSA,X);

步骤5.剧情PDF中的每一个分布。

绘制符合美国数据的每个分布的pdf,并叠加在样本数据的柱状图上。标准化直方图以便于显示。

创建美国样本数据的直方图。

data = MPG (Origin2 = =“美国”);图直方图(数据、10'正常化''PDF''FaceColor', 1, 0.8, 0);

绘制每个拟合分布的PDF文件。

线(X,pdf_Wei,“线型”' - '“颜色”'R')线(X,pdf_Norm,“线型”' - '。“颜色”'B')线(X,pdf_Log,“线型”' - '“颜色”'G')线(x, pdf_Ker“线型”“:”“颜色”“k”)图例(“数据”“威布尔”'正常'“物流”'核心'“位置”'最好')标题(“MPG从美国汽车公司)包含('MPG'

在样品数据的直方图叠加的PDF图提供的每种类型分配的吻合程度的数据的视觉比较。只有非参数核分布KerUSA接近揭示原始数据的两种模式。

步骤6.年此外美国组数据。

为了研究在步骤5,组揭示了两种模式MPG按原产国分列的数据(起源)和型号年份(Model_Year),用fitdist以适应每个组的内核分布。

[KerByYearOrig,名称] = fitdist(MPG,'核心''通过',{起源Model_Year});

产地和型号年份的每一个独特的组合现在有一个与之相关的内核分配对象。

名称
名称=14x1细胞{ '法国...'} { '法国...'} { '德国...'} { '德国...'} { '德国...'} { '意大利...'} {”日本... '} { '日本...'} { '日本...'} { '瑞典...'} { '瑞典...'} { 'USA ......'} {' USA。..' } {'美国...' }

绘制单元阵列中的每个美国模型年的三个概率分布,这是在位置12,13,和14KerByYearOrig

图保存对于I = 12:14图(X,PDF(KerByYearOrig {I},X))结束传说('1970年'“1976”'1982年')标题(“按型号及年份划分的美国汽车的MPG”)包含('MPG')举行

当车型年进一步分组,将PDF图显示在两个不同的峰MPG美国制造的汽车数据——一个是1970年的车型,一个是1982年的车型。这就解释了为什么美国每加仑行驶里程的综合直方图显示了两个峰值,而不是一个峰值。

也可以看看

||

相关的话题