这个例子展示了如何对来自两种不同生物条件的合成短读计数数据执行未配对假设检验。
本例中的数据包含5000个基因的合成基因计数数据,代表两种不同的生物状态,如患病细胞和正常细胞。对于每种条件,都有五个样本。只有10%的基因(500个基因)有差异表达。具体来说,其中一半(250个基因)是3倍的过表达。另外250个基因是3倍的低表达。其余的基因表达数据是由两种条件下相同的负二项分布生成的。每个样本也有不同的大小因子(即覆盖范围或采样深度)。
加载数据。
的变量K
包含基因计数数据。行代表基因,列代表样本。在本例中,前五列表示来自第一个条件的样本。其他五列表示来自第二种条件的样本。的前几行显示K
.
ans =10×5日13683 14140 8281 14309 12208 8045 9446 11317 14597 14592 16028 16805 9813 16486 14076 9901 10927 13348 16999 17036 814 862 492 910 758 521 573 753 870 936 15870 16453 9857 16454 14267 9671 10997 13624 17151 17205 9422 9393 5734 898 8174 5381 6315 7752 9869 9795
在这个例子中,当基因没有差异表达时,零假设是正确的。的变量H0
包含布尔指示符,指示哪些基因的原假设是正确的(标记为1)。换句话说,H0包含您稍后将使用的已知标签来与预测结果进行比较。
在这个合成数据中,5000个基因中有4500个没有差异表达。
对两种条件下的样本进行未配对假设检验nbintest
.假设数据来自负二项分布,其中方差通过[1]中描述的局部回归的均值平滑函数与均值相关联“VarianceLink”
来“LocalRegression”
.
使用plotVarianceLink
为每个实验条件(X和Y条件)绘制散点图,用共同尺度上的样本方差与条件相关平均值的估计值进行比较。两个轴都使用线性刻度。通过设置包括所有其他联动选项的曲线“比较”
来真正的
.
的身份
线表示泊松模型,其中方差与[3]中描述的平均值相同。观察到数据似乎过于分散(也就是说,大多数点都在身份
线)。的常数
Line表示负二项式模型,其中方差是镜头噪声项(均值)和常数乘以[2]中所述的平均值的平方的总和。的当地的回归
而且常数
链接选项似乎更适合过于分散的数据。
使用plotChiSquaredFit
评估方差回归的拟合优度。它绘制卡方概率的经验CDF (ecdf)。概率是观察到的和估计的方差之间的比率,由短读计数水平分层到五个大小相等的箱子。
每个图显示了5条ecdf曲线。每条曲线表示五个短读计数级别中的一个。例如,蓝线表示0到1264之间的低短读计数的ecdf曲线。红线表示较高的计数(超过11438)。
解释曲线的一种方法是检查ecdf曲线是否在对角线之上。如果它们高于这条线,那么方差被高估了。如果它们低于这条线,那么方差被低估了。在这两个图中,对于较高的计数,方差估计似乎是正确的(即,红线跟随对角线),但对于较低的计数水平,方差估计略高。
为了评估假设检验的性能,使用已知标签和预测p值构造一个混淆矩阵。
在500个差异表达基因中,493个被正确预测(真阳性),其中7个被错误预测为非差异表达基因(假阴性)。在4500个不存在差异表达的基因中,4495个被正确预测(真阴性),其中5个被错误预测为差异表达基因(假阳性)。
为了进行比较,再次运行假设检验,假设计数由泊松分布建模,其中方差与均值相同。
绘制ecdf曲线。观察到所有曲线都在对角线以下,这意味着方差被低估了。因此,负二项式模型对数据拟合较好。