分布的情节
分布的情节视觉评估样本数据的分布,通过比较数据的经验分布与理论预期值指定的分布。使用分布情节除了更正式的假设测试来确定指定的样本数据来自一个分布。学习假说测试,看看假设检验。
统计和机器学习工具箱™提供了几种分布情节选项:
正态概率图
利用正态概率图评估数据是否来自正态分布。许多统计程序假设一个潜在的分布是正常的。正态概率图可以提供一些保证来证明这一假设或提供一个警告的问题假设。正常的分析通常结合了正态概率图和假设测试正常。
25本例中生成一个数据样本来自正态分布随机数的意思是10和标准偏差,并创建一个数据的正态概率图。
rng (“默认”);%的再现性x = normrnd(10 1[25日1]);normplot (x)
加号情节经验概率与每个数据点的数据值。实线连接第25和第75百分位数的数据,和一个虚线扩展数据的目的。的y设在概率值从0到1,但也不是线性的。刻度线之间的距离y设在匹配正态分布的分位数之间的距离。中值附近的分位数靠的很近(50百分位)和伸展对称当你远离中值。
在正态概率图,如果所有线附近的数据点下降,正常的一个假设是合理的。否则,正常的一个假设是不合理的。例如,下面的生成一个数据样本100指数分布的随机数的意思是10,并创建一个数据的正态概率图。
x = exprnd (10100 1);normplot (x)
情节是强有力的证据表明,底层的分布是不正常的。
概率情节
概率情节,像正态概率图,只是一个经验cdf实验组的密谋了一个特定的分布。的y设在概率值从0到1,但也不是线性的。刻度线之间的距离是分布的分位数之间的距离。的情节,第一和第三个四分位数之间画一条线的数据。如果数据行附近的瀑布,它是合理的选择分布的模型数据。通常结合概率分布分析情节与特定分布假设测试。
创建威布尔概率图
生成样本数据并创建一个概率图。
生成样本数据。样例x1
包含500个随机数从尺度参数的威布尔分布一个= 3
和形状参数B = 3
。样例x2
包含500个随机数从瑞利分布的尺度参数B = 3
。
rng (“默认”);%的再现性x1 = wblrnd(3 3[1] 500年);x2 = raylrnd(3[1] 500年);
创建一个概率评估中的数据是否阴谋x1
和x2
来自威布尔分布。
图probplot (“威布尔”,(x1, x2)))传说(“威布尔样本”,“瑞利样本”,“位置”,“最佳”)
概率图显示的数据x1
来自威布尔分布,而数据x2
没有。
或者,您可以使用wblplot
创建一个威布尔概率图。
创建伽马概率图
生成随机的数据从一个伽马分布9形状参数和尺度参数2。
rng (“默认”)%设置随机种子再现性gammadata = gamrnd (2100 1);
符合伽马和物流数据并将结果存储在分布GammaDistribution
和LogisticDistribution
对象。
gammapd = fitdist (gammadata,“伽马”);logisticpd = fitdist (gammadata,“物流”);
比较适合数据概率分布的情节。
tiledlayout (1、2) nexttile情节(logisticpd,“PlotType”,“概率”)标题(“物流配送”)nexttile情节(gammapd“PlotType”,“概率”)标题(“伽马分布”)
伽马分布的概率图显示是更好的适合的数据。
Quantile-Quantile情节
使用quantile-quantile (qq)情节,以确定两个样本来自同一分布的家庭。qq情节是分位数计算每个样本的散点图,与第一和第三个四分位数之间画一条线。如果数据瀑布附近,它是合理的假设两个样本来自相同的分布。方法的健壮的分布位置和规模的变化。
通过使用创建一个quantile-quantile阴谋qqplot
函数。
下面的示例生成两个数据样本含有来自泊松分布的随机数与不同的参数值,并创建一个quantile-quantile阴谋。中的数据x
从泊松分布意味着10,和数据y
从泊松分布与平均5。
x = poissrnd (10 [50, 1]);y = poissrnd(5[1] 100年);qqplot (x, y)
尽管参数和样本大小是不同的,近似线性关系表明两个样品可能来自家庭相同的分布。与正态概率图,假设测试可以提供额外的理由这样的假设。统计程序,取决于两个样本来自相同的分布,然而,一个线性quantile-quantile情节通常是足够的。
下面的例子展示了底层分布会发生什么是不一样的。在这里,x
包含100个随机数生成从正态分布的意思是5和标准偏差1,y
包含100个随机数生成的威布尔分布2的尺度参数和形状参数为0.5。
x = normrnd(5 1[1] 100年);y = wblrnd(2 0.5[1] 100年);qqplot (x, y)
情节表明这些样本显然不是来自同一分布的家庭。
累积分布的情节
一个经验累积分布函数(cdf)情节显示的比例小于或等于每一数据x值的函数x。上的规模y设在是线性的;特别是,它不是任何特定的分布。实证cdf实验组的阴谋正用于比较数据cdfs cdfs特定分布。
创建一个实证cdf阴谋使用cdfplot
函数或ecdf
函数。
比较理论提供实证提供
情节的经验提供一个示例数据集和比较的理论提供的潜在分布样本数据集。在实践中,一个理论提供未知。
生成一个随机样本数据集的极值分布的位置参数0和3的尺度参数。
rng (“默认”)%的再现性y = evrnd (0, 3100, (1);
情节的经验提供示例数据集和理论提供相同的图。
cdfplot (y)在x = linspace (min (y), max (y));情节(x, evcdf (x 0 3)传说(“经验提供”,“理论提供”,“位置”,“最佳”)举行从
情节展示了实证cdf之间的相似性和理论提供。
或者,您可以使用ecdf
函数。的ecdf
函数还阴谋的95%置信区间估计使用格林公式。有关详细信息,请参见算法。
ecdf (y,“界限”,“上”)举行在情节(x, evcdf (x 0 3)网格在标题(“经验提供”)传说(“经验提供”,“低信心绑定”,“上信心绑定”,“理论提供”,“位置”,“最佳”)举行从
情节二项分布提供
0.5创建一个二项分布10试验和成功概率为每个审判。
binomialpd = makedist (“二”10 - 0.5)
binomialpd = BinomialDistribution二项分布N = 10 p = 0.5
情节的cdf实验组的二项分布
情节(binomialpd“PlotType”,“提供”)
另请参阅
normplot
|qqplot
|cdfplot
|ecdf
|probplot
|wblplot