主要内容

分布图

分布图通过将数据的经验分布与预期的指定分布预期的理论值进行比较来视觉评估样本数据的分布。除了更正式的假设测试之外,还要使用分布绘图来确定样本数据是否来自指定的分布。了解假设测试,见假设检验

统计和机器学习工具箱™提供了几个分布图选项:

正常概率图

使用正常概率图来评估数据是否来自正常分布。许多统计程序使潜在分布正常的假设。正常概率地块可以提供一些保证,以证明这种假设是符合假设问题的警告。正常性的分析通常将正常概率图与正常性的假设检验结合在一起。

该示例从具有平均10和标准偏差1的正态分布生成25个随机数的数据样本,并创建数据的正常概率图。

rng (“默认”);%的再现性x = normrnd(10,1,[25,1]);normplot(x)

图中包含一个轴。标题为正态概率图的轴包含3个线型对象。

正号表示经验概率与数据中每个点的数据值之间的关系。实线连接数据中的第25和第75个百分位数,虚线将其延伸到数据的末端。这y-轴值是从0到1的概率,但刻度不是线性的。刻度线之间的距离y-axis匹配正态分布的分位数之间的距离。这些分位数在中位数(50百分位)附近很接近,当你远离中位数时,它们会对称地伸展。

在正常概率图中,如果所有数据点均落在线附近,则正常性的假设是合理的。否则,常态的假设是不合理的。例如,下面从具有平均10的指数分布生成100个随机数的数据样本,并创建数据的正常概率图。

x = exprnd (10100 1);normplot(x)

图中包含一个轴。标题为正态概率图的轴包含3个线型对象。

这幅图是潜在分布不正常的有力证据。

概率图

与正常概率图类似的概率图只是缩小到特定分布的经验CDF曲线。这y-轴值是从0到1的概率,但刻度不是线性的。刻度线之间的距离是分布的分位数之间的距离。在图中,在数据的第一和第三个四分位数之间画了一条线。如果数据落在直线附近,选择分布作为数据的模型是合理的。分布分析通常结合特定分布的概率图和假设检验。

创建Weibull概率图

生成示例数据并创建概率图。

生成示例数据。样品X1包含500个带尺度参数的威布尔分布随机数一个= 3和形状参数B = 3.样品X2包含具有比例参数的瑞利分布的500个随机数B = 3

rng (“默认”);%的再现性x1 = wblrnd(3,3,[500,1]);x2 = raylrnd(3,[500,1]);

创建概率图以评估数据是否在X1X2来自威布尔分布。

图probplot (“威布尔”,[x1 x2])图例('weibull样本'“瑞利样本”“位置”'最好的'

图中包含一个轴。威布尔分布的概率图的坐标轴包含4个线型对象。这些对象代表威布尔样本,瑞利样本。

概率图显示了数据X1来自威布尔分布,而数据X2没有。

或者,您可以使用wblplot来创建威布尔概率图。

分位式料理

使用分位数-分位数(q-q)图来确定两个样本是否来自同一分布族。Q-Q图是从每个样本计算出的分位数的散点图,在第一和第三分位数之间画一条线。如果数据落在直线附近,可以合理地假设两个样本来自相同的分布。该方法对任意一个分布的位置和规模的变化都具有鲁棒性。

通过使用使用级别 - 定量块qqplot.函数。

下面的示例生成两个数据样本,其中包含来自具有不同参数值的泊松分布的随机数,并创建一个分位数-分位数图。中的数据X是从平均10的泊松分布和数据y是从平均5的泊松分布。

x = poissrnd (10 [50, 1]);y = poissrnd(5[1] 100年);qqplot (x, y)

图中包含一个轴。坐标轴包含3个类型为line的对象。

尽管参数和样本大小不同,近似的线性关系表明两个样本可能来自同一个分布家族。与正态概率图一样,假设检验可以为这种假设提供额外的证明。然而,对于依赖于来自同一分布的两个样本的统计过程,线性分位数-分位数图通常就足够了。

以下示例显示当底层分发不相同时会发生什么。这里,X包含100个随机数,由正态分布产生,均值为5,标准差为1,而y包含从Weibull分布生成的100个随机数,其中标度参数为2和0.5的形状参数。

x = normrnd(5 1[1] 100年);y = wblrnd(2 0.5[1] 100年);qqplot (x, y)

图中包含一个轴。坐标轴包含3个类型为line的对象。

这些图表明这些样本显然不是来自同一个分布家族。

累积分布的情节

经验累积分布函数(CDF)图显示了小于或等于每个数据的比例X价值,作为X.规模y设在是线性的;特别地,它没有被伸缩到任何特定的分布。经验cdf图用于比较特定分布的数据cdfs和cdfs。

要创建经验的CDF图,请使用cdfplot函数或ecdf函数。

比较经验cdf和理论cdf

绘制样本数据集的经验CDF,并将其与样本数据集的基本分布的理论CDF进行比较。在实践中,理论CDF可能是未知的。

生成从极值分布中的随机样本数据,其中位置参数为0和3的比例参数。

rng (“默认”%的再现性y = evrnd (0, 3100, (1);

将样本数据集的经验cdf和理论cdf绘制在同一图上。

CDFPLOT(Y)持有x = linspace (min (y), max (y));情节(x, evcdf (x 0 3)传说('经验CDF'“理论提供”“位置”'最好的')举行

图中包含一个轴。标题为Empirical CDF的坐标轴包含2个线型对象。这些对象代表了经验CDF和理论CDF。

图中显示了经验cdf和理论cdf之间的相似性。

或者,您可以使用ecdf函数。这ecdf功能还通过使用Greenwood的公式绘制95%的置信区间。有关详细信息,请参阅格林伍德的惯例

ecdf(y,“界限”'上')举行情节(x, evcdf (x 0 3)网格标题('经验CDF') 传奇('经验CDF''较低的束缚'“上信心绑定”“理论提供”“位置”'最好的')举行

图中包含一个轴。以“经验CDF”为标题的坐标轴包含楼梯式、直线式4个对象。这些对象分别代表了经验CDF,下置信限,上置信限,理论CDF。

也可以看看

|||||

相关的话题