此示例示出了如何以符合多个概率分布对象相同的样本数据集,和获得的每个分布如何适合该数据的视觉比较。
加载示例数据。
加载carsmall
该数据包含每加仑行驶哩数(MPG
)用于测量不同品牌和汽车型号,由原籍国分组(起源
),型号年(Model_Year
)等车辆特性。
变换起源
放入一个分类数组,并从示例数据中删除意大利车。因为只有一辆意大利车,fitdist
比一个内核分配使用其他不适合分发到该组。
原点=分类(cellstr(原点));MPG2 = MPG(产地〜='意大利');Origin2 =原点(产地〜='意大利');Origin2 = removecats(Origin2,'意大利');
使用fitdist
拟合威布尔分布,正态分布,logistic分布和核分布的每个国家的原始组MPG
数据。
[WeiByOrig,国家] = fitdist(MPG2,“威布尔”,'通过', Origin2);[NormByOrig,国家] = fitdist(MPG2,'正常','通过', Origin2);[LogByOrig,国家] = fitdist(MPG2,“物流”,'通过', Origin2);[KerByOrig、国家]= fitdist (MPG2“内核”,'通过', Origin2);
WeiByOrig
WeiByOrig =1×5单元阵列列1至2 {的1x1 prob.WeibullDistribution} {的1x1 prob.WeibullDistribution}列3至4 {的1x1 prob.WeibullDistribution} {的1x1 prob.WeibullDistribution}第5列{的1x1 prob.WeibullDistribution}
国家
国家=5 x1细胞{ '法国'} { '德国'} { '日本'} { '瑞典'} { 'USA'}
每个国家集团现拥有4个相关的分布对象。例如,单元阵列WeiByOrig
包含五个威布尔分布的目的,一个用于在采样数据表示的每个国家。同样地,单元阵列范ByOrig
包含5个正态分布对象,以此类推。每个对象都包含一些属性,这些属性包含有关数据、分布和参数的信息。数组国家
按与单元格数组中存储的分布对象相同的顺序列出每个组的原产国。
提取USA四个概率分布对象,并计算每个分布的PDF。如步骤3所示,美国是在每个单元阵列中位置5。
WeiUSA = WeiByOrig {5};NormUSA = NormByOrig {5};LogUSA = LogByOrig {5};KerUSA = KerByOrig {5};X = 0:1:50;pdf_Wei = PDF(WeiUSA,X);pdf_Norm = PDF(NormUSA,X);pdf_Log = PDF(LogUSA,X);pdf_Ker = PDF(KerUSA,X);
绘制符合美国数据的每个分布的pdf,并叠加在样本数据的柱状图上。标准化直方图以便于显示。
创建美国样本数据的直方图。
data = MPG (Origin2 = =“美国”);图直方图(数据、10'正常化','PDF','FaceColor', 1, 0.8, 0);
绘制每个拟合分布的PDF文件。
线(X,pdf_Wei,“线型”,' - ',“颜色”,'R')线(X,pdf_Norm,“线型”,' - '。,“颜色”,'B')线(X,pdf_Log,“线型”,' - ',“颜色”,'G')线(x, pdf_Ker“线型”,“:”,“颜色”,“k”)图例(“数据”,“威布尔”,'正常',“物流”,'核心',“位置”,'最好')标题(“MPG从美国汽车公司)包含('MPG')
在样品数据的直方图叠加的PDF图提供的每种类型分配的吻合程度的数据的视觉比较。只有非参数核分布KerUSA
接近揭示原始数据的两种模式。
为了研究在步骤5,组揭示了两种模式MPG
按原产国分列的数据(起源
)和型号年份(Model_Year
),用fitdist
以适应每个组的内核分布。
[KerByYearOrig,名称] = fitdist(MPG,'核心','通过',{起源Model_Year});
产地和型号年份的每一个独特的组合现在有一个与之相关的内核分配对象。
名称
名称=14x1细胞{ '法国...'} { '法国...'} { '德国...'} { '德国...'} { '德国...'} { '意大利...'} {”日本... '} { '日本...'} { '日本...'} { '瑞典...'} { '瑞典...'} { 'USA ......'} {' USA。..' } {'美国...' }
绘制单元阵列中的每个美国模型年的三个概率分布,这是在位置12,13,和14KerByYearOrig
。
图保存在对于I = 12:14图(X,PDF(KerByYearOrig {I},X))结束传说('1970年',“1976”,'1982年')标题(“按型号及年份划分的美国汽车的MPG”)包含('MPG')举行从
当车型年进一步分组,将PDF图显示在两个不同的峰MPG
美国制造的汽车数据——一个是1970年的车型,一个是1982年的车型。这就解释了为什么美国每加仑行驶里程的综合直方图显示了两个峰值,而不是一个峰值。