主要内容

分布图

分布图通过将数据的经验分布与指定分布预期的理论值进行比较,通过对数据进行比较来视觉评估样本数据的分布。除了更正式的假设测试之外,还要使用分布绘图来确定样本数据是否来自指定的分布。了解假设测试,见假设检验

Statistics and Machine Learning Toolbox™提供了几个分布图选项:

  • 正常概率图——使用normplot来评估样本数据是否来自正态分布。使用probplot创建概率图对于非正态分布,或探索审查数据的分布。

  • 分位数——使用QQplot.评估两组样本数据是否来自同一分销族。对于位置和比例的差异,该曲线是强大的。

  • 累积分布的情节——使用cdfplotecdf显示样本数据的经验累积分布函数(CDF)以进行视觉比较,以与指定分布的理论CDF进行视觉比较。

正常概率图

使用正常概率图来评估数据是否来自正常分布。许多统计程序使潜在分布正常的假设。正常概率地块可以提供一些保证,以证明这种假设是符合假设问题的警告。正常性分析通常将正常概率图与正常性试验相关。

该示例从具有平均10和标准偏差1的正态分布生成25个随机数的数据样本,并创建数据的正常概率图。

rng (“默认”);%的再现性x = normrnd(10,1,[25,1]);normplot(x)

图中包含一个轴对象。标题为“正态概率图”的轴对象包含3个类型为line的对象。

加号表示经验概率与数据中每个点的数据值的关系。实线连接数据中的第25和75个百分点,虚线将其延伸到数据的末尾。这y-axis值是从0到1的概率,但比例不是线性的。标记之间的距离y-轴匹配正态分布的分位数之间的距离。分位数靠近中位数(第50个百分位数),并在远离中位数时对称地展开。

在正常概率图中,如果所有数据点均落在线附近,则正常性的假设是合理的。否则,常态的假设不合理。例如,下面从具有平均10的指数分布生成100个随机数的数据样本,并创建数据的正常概率图。

x = exprnd (10100 1);normplot(x)

图中包含一个轴对象。标题为“正态概率图”的轴对象包含3个类型为line的对象。

这张图有力地证明了潜在的分布不是正态分布。

概率图

与正常概率图类似的概率图只是缩小到特定分布的经验CDF曲线。这y-axis值是从0到1的概率,但比例不是线性的。标记之间的距离是分布的分位数之间的距离。在图中,在数据的第一和第三个四分位数之间画了一条线。如果数据落在这条线附近,选择分布作为数据模型是合理的。分布分析通常将概率图与特定分布的假设检验结合起来。

创建Weibull概率图

生成示例数据并创建概率图。

生成示例数据。样品X1包含500个带有尺度参数的威布尔分布的随机数一个= 3和形状参数B = 3.样品X2包含具有比例参数的瑞利分布的500个随机数B = 3

rng (“默认”);%的再现性X1 = WBLRND(3,3,[500,1]);x2 = raylrnd(3,[500,1]);

创建概率图以评估数据是否在X1X2来自威布尔分布。

图probplot (“威布尔”,[x1 x2])图例('weibull样本'“瑞利样本”“位置”“最佳”的)

图中包含一个轴对象。具有威布尔分布标题概率图的轴对象包含4个类型的类型。这些对象代表Weibull样本,Rayleigh样本。

概率图显示了数据X1来自威布尔分布,而其中的数据X2没有。

或者,您可以使用wblplot来绘制威布尔概率图

分位数

使用分位数(q-q)图来确定两个样本是否来自同一分布族。Q-Q图是从每个样本中计算的分位数的散点图,在第一和第三个四分位数之间画一条线。如果数据落在这条线附近,则可以合理地假设这两个样本来自同一分布。该方法对任一分布的位置和规模的变化具有鲁棒性。

使用该模拟分位式量子绘图QQplot.函数。

下面的示例生成两个数据样本,其中包含来自泊松分布的具有不同参数值的随机数,并创建分位数-分位数图。中的数据X来自泊松分布,平均10,数据y来自泊松分布,平均5。

x = poissrnd (10 [50, 1]);y = poissrnd(5[1] 100年);qqplot (x, y)

图中包含一个轴对象。轴对象包含3个类型线的对象。

尽管参数和样本大小不同,但近似的线性关系表明两个样本可能来自同一分布族。与正态概率图一样,假设检验可以为这种假设提供额外的理由。然而,对于依赖于来自同一分布的两个样本的统计过程,一个线性分位数-分位数图通常就足够了。

以下示例显示当底层分发不相同时会发生什么。这里,X包含100个由均值为5,标准差为1的正态分布生成的随机数,而y包含从Weibull分布生成的100个随机数,其中标度参数为2和0.5的形状参数。

x = normrnd(5 1[1] 100年);y = wblrnd(2 0.5[1] 100年);qqplot (x, y)

图中包含一个轴对象。轴对象包含3个类型线的对象。

图中显示,这些样本显然不是来自同一分布科。

累积分布的情节

经验累积分布函数(CDF)图显示了小于或等于每个数据的比例X价值,作为的函数X.规模y设在是线性的;特别的是,它没有被缩放到任何特定的分布。经验cdf图用于比较数据cdfs和特定分布的cdfs。

要创建经验的CDF图,请使用cdfplot函数或ecdf函数。

比较实证cdf和理论cdf

绘制样本数据集的经验CDF,并将其与样本数据集的基本分布的理论CDF进行比较。在实践中,理论CDF可能是未知的。

生成从极值分布设置的随机样本数据,其中位置参数为0和3的比例参数。

rng (“默认”的)%的再现性y = evrnd (0, 3100, (1);

在同一图上绘制样本数据集的经验cdf和理论cdf。

CDFPLOT(Y)持有x = linspace (min (y), max (y));情节(x, evcdf (x 0 3)传说('经验CDF'“理论提供”“位置”“最佳”)举行

图中包含一个轴对象。标题为Empirical CDF的轴对象包含两个类型为line的对象。这些对象分别代表经验CDF和理论CDF。

图中显示了经验cdf和理论cdf之间的相似性。

或者,您可以使用ecdf函数。这ecdf功能还绘制了使用Greenwood的公式估计的95%置信区间。有关详细信息,请参阅算法

ecdf(y,“界限”'在')举行情节(x, evcdf (x 0 3)网格标题('经验CDF') 传奇('经验CDF''较低的信心束缚'“上信心绑定”“理论提供”“位置”“最佳”)举行

图中包含一个轴对象。以经验性CDF为标题的轴对象包含楼梯型、线型4个对象。这些对象分别代表经验CDF、置信下限、置信上限、理论CDF。

也可以看看

|||||

相关的话题