重采样统计

人工重复采样

自举过程涉及选择随机样本与来自数据集的更换和分析每个样品的相同方式。与每个观察分别在随机从原始数据集选择的替换手段采样。因此,从原始数据集的特定数据点可以在给定的引导样本中出现多次。每个自举样品中的元素的数量等于在原始数据集的元素数。你获得样本估计的范围内,您可以建立你估计量的不确定性。

从埃夫隆和Tibshirani这个例子法学院入学考试(LSAT)成绩和随后的法律学校的平均成绩(GPA)为15个法学院的样本进行比较。

加载lawdata图(LSAT,GPA,'+')lsline

最小二乘拟合线表示,较高的分数LSAT具有较高的法律学校的GPA去。但是,如何可以肯定的是这个结论的?该图提供了一些直觉,但没有定量。

你可以计算使用变量的相关系数|科尔|功能。

rhohat =科尔(LSAT,GPA)
rhohat = 0.7764

现在你有一些描述LSAT和GPA之间的刚性连接;虽然它可能看起来大,你还是不知道这是否是统计上显著。

使用bootstrp功能,您可以重新取样LSATGPA载体多次,你喜欢和考虑所产生的相关系数的变化。

RNG默认%用于重现rhos1000 = bootstrp(1000,“科尔”,LSAT,GPA);

此重新采样LSATGPA矢量1000次,并计算科尔对每个样品的功能。然后,您可以绘制在直方图的结果。

直方图(rhos1000,30,'FaceColor'[8 0.8 1])

几乎所有的估计趴在区间[0.4 1.0]。

通常希望构造一个置信区间在统计推论的参数估计。使用bootci功能,您可以使用引导以获得一个置信区间LSATGPA数据。

CI = bootci(5000,@更正件,LSAT,GPA)
CI =2×10.3319 0.9427

因此,对于LSAT和GPA之间的相关系数的95%置信区间是[0.33 0.94]。这是强有力的量化证据,LSAT和GPA以后呈正相关。此外,这方面的证据并不需要对相关系数的概率分布的任何严格的假设。

虽然bootci函数计算的偏置校正的和加速的(BCA)的时间间隔为默认类型,也能够计算各种其它类型的自举置信区间,诸如学生化自举置信区间。

刀切重采样

类似于引导是折刀,其使用重采样来估计样本统计的偏压。有时它也被用来估计样本统计的标准误差。刀切法是通过统计和机器学习工具箱™功能实现折刀

刀切法重采样系统,而不是在自举进行随机。对于一个样本ñ点,刀切法计算的样本统计ñ尺寸的单独的样品ñ-1。每个样本是用省略了单个观测的原始数据。

在自举示例中,您在估计的相关系数测量的不确定性。您可以使用刀切法来估计偏差,这是样本相关系数的高估或低估真实的,未知的相关性的倾向。首先计算在数据样本相关。

加载lawdatarhohat =科尔(LSAT,GPA)
rhohat = 0.7764

接下来为计算样本刀切的相关性,并计算它们的平均值。

RNG默认;%用于重现jackrho =折刀(@更正件,LSAT,GPA);meanrho =平均值(jackrho)
meanrho = 0.7759

现在,计算偏差的估计。

N =长度(LSAT);biasrho =(N-1)*(meanrho-rhohat)
biasrho = -0.0065

样本相关系数可能是由这个量低估了真实的关系。

并行计算支持重采样方法万博1manbetx

有关在并行计算重采样的统计信息,请参阅并行计算工具箱™。