主要内容

NegativeBinomialTest

未配对假设检验结果

描述

一个NegativeBinomialTest对象返回的nbintest函数,包含对小样本量短读计数数据的未配对假设检验的结果。使用此对象访问测试的p值或创建诊断图。

创建

nbintest返回未配对假设检验结果为NegativeBinomialTest对象。你不能直接构造这个对象。

属性

全部展开

的输入的每一行的双侧p值,指定为列向量nbintest

此属性是只读的。

方差和均值之间的链接类型,指定为字符向量或字符串。下表总结了可用的链接选项。

连接选项 描述
“LocalRegression” 方差是shot noise项(均值)和一个局部回归的非参数平滑函数的均值之和,如中所述[1].这个选项是默认的。如果数据包含多行(基因),例如超过1000行,则使用此选项。
“不变” 方差是shot noise项(均值)和一个常数乘以平方的均值的总和,如中所述[2].该方法使用数据中的所有行来估计常数。如果您的数据行数较少,即少于1000行,并且过于分散,请使用此选项。
“身份” 方差等于中所描述的均值[3].计数因此由泊松分布单独为每一行建模X而且Y.使用此选项可以比较其他两个选项的结果。

此属性是只读的。

用于在两个条件之间池方差的逻辑标志,指定为1 (真正的)或0 ().默认值为0,表示对每个条件分别估计方差。

此属性是只读的。

中每列的大小(缩放)因子X而且Y,指定为两个向量的单元格数组,例如{SX, SY}SX而且SY大小为的数字向量是否等于大小(X, 2)而且大小(Y, 2)

请注意

这些属性是只读的。运行nbintest去改变它们。

对象的功能

plotVarianceLink 绘制样本方差与条件相关均值的估计值
plotChiSquaredFit 绘制方差回归的拟合优度

例子

全部折叠

这个例子展示了如何对来自两种不同生物条件的合成短读计数数据执行未配对假设检验。

本例中的数据包含5000个基因的合成基因计数数据,代表两种不同的生物状态,如患病细胞和正常细胞。对于每种条件,都有五个样本。只有10%的基因(500个基因)有差异表达。具体来说,其中一半(250个基因)是3倍的过表达。另外250个基因是3倍的低表达。其余的基因表达数据是由两种条件下相同的负二项分布生成的。每个样本也有不同的大小因子(即覆盖范围或采样深度)。

加载数据。

负载(“nbintest_data.mat”“K”“H0”);

的变量K包含基因计数数据。行代表基因,列代表样本。在本例中,前五列表示来自第一个条件的样本。其他五列表示来自第二种条件的样本。的前几行显示K

: K (1:5)
ans =10×5日13683 14140 8281 14309 12208 8045 9446 11317 14597 14592 16028 16805 9813 16486 14076 9901 10927 13348 16999 17036 814 862 492 910 758 521 573 753 870 936 15870 16453 9857 16454 14267 9671 10997 13624 17151 17205 9422 9393 5734 898 8174 5381 6315 7752 9869 9795

在这个例子中,当基因没有差异表达时,零假设是正确的。的变量H0包含布尔指示符,指示哪些基因的原假设是正确的(标记为1)。换句话说,H0包含您稍后将使用的已知标签来与预测结果进行比较。

总和(H0)
Ans = 4500

在这个合成数据中,5000个基因中有4500个没有差异表达。

对两种条件下的样本进行未配对假设检验nbintest.假设数据来自负二项分布,其中方差通过[1]中描述的局部回归的均值平滑函数与均值相关联“VarianceLink”“LocalRegression”

tLocal = nbintest(K(:,1:5),K(:,6:10),“VarianceLink”“LocalRegression”);

使用plotVarianceLink为每个实验条件(X和Y条件)绘制散点图,用共同尺度上的样本方差与条件相关平均值的估计值进行比较。两个轴都使用线性刻度。通过设置包括所有其他联动选项的曲线“比较”真正的

plotVarianceLink (tLocal“规模”“线性”“比较”,真正的)

图中包含一个轴对象。X上标题为方差链接的axis对象包含4个类型为line的对象。这些对象代表观察到的,局部回归,常数,恒等。

图中包含一个轴对象。Y上名为方差链接的axis对象包含4个类型为line的对象。这些对象代表观察到的,局部回归,常数,恒等。

身份线表示泊松模型,其中方差与[3]中描述的平均值相同。观察到数据似乎过于分散(也就是说,大多数点都在身份线)。的常数Line表示负二项式模型,其中方差是镜头噪声项(均值)和常数乘以[2]中所述的平均值的平方的总和。的当地的回归而且常数链接选项似乎更适合过于分散的数据。

使用plotChiSquaredFit评估方差回归的拟合优度。它绘制卡方概率的经验CDF (ecdf)。概率是观察到的和估计的方差之间的比率,由短读计数水平分层到五个大小相等的箱子。

plotChiSquaredFit (tLocal)

图中包含一个轴对象。标题为残差ECDF Plot的axis对象包含6个类型为行的对象。这些对象分别表示0-1472、1473-3766、3767-6636、6637-10952、> 10952。

图中包含一个轴对象。标题为残差ECDF Plot的坐标轴对象包含6个类型为一行的对象。这些对象表示0-1264、1265-4022、4023-7453、7454-11438、> 11438。

每个图显示了5条ecdf曲线。每条曲线表示五个短读计数级别中的一个。例如,蓝线表示0到1264之间的低短读计数的ecdf曲线。红线表示较高的计数(超过11438)。

解释曲线的一种方法是检查ecdf曲线是否在对角线之上。如果它们高于这条线,那么方差被高估了。如果它们低于这条线,那么方差被低估了。在这两个图中,对于较高的计数,方差估计似乎是正确的(即,红线跟随对角线),但对于较低的计数水平,方差估计略高。

为了评估假设检验的性能,使用已知标签和预测p值构造一个混淆矩阵。

confusionmat (H0 (tLocal。pValue > .001))
ans =2×2493 7 5 4495

在500个差异表达基因中,493个被正确预测(真阳性),其中7个被错误预测为非差异表达基因(假阴性)。在4500个不存在差异表达的基因中,4495个被正确预测(真阴性),其中5个被错误预测为差异表达基因(假阳性)。

为了进行比较,再次运行假设检验,假设计数由泊松分布建模,其中方差与均值相同。

tPoisson = nbintest(K(:,1:5),K(:,6:10),“VarianceLink”“身份”);

绘制ecdf曲线。观察到所有曲线都在对角线以下,这意味着方差被低估了。因此,负二项式模型对数据拟合较好。

plotChiSquaredFit (tPoisson)

图中包含一个轴对象。标题为残差ECDF Plot的axis对象包含6个类型为行的对象。这些对象分别表示0-1472、1473-3766、3767-6636、6637-10952、> 10952。

图中包含一个轴对象。标题为残差ECDF Plot的坐标轴对象包含6个类型为一行的对象。这些对象表示0-1264、1265-4022、4023-7453、7454-11438、> 11438。

参考文献

[1]安德斯,S.和胡贝尔,W.(2010)。序列计数数据的差分表达式分析。中国生物医学工程学报,26(4):344 - 344。

[2]罗宾逊,医学博士,和史密斯,G.K.(2008)。负二项离散度的小样本估计及其在SAGE数据中的应用。生物统计学,9:321 - 332。

[3]马里奥尼,j.c.,梅森,c.e.,马内,s.m.,斯蒂芬斯,M.和吉拉德,Y.(2008)。RNA-seq:技术重现性评估和与基因表达阵列的比较。基因组研究,16:1509-1517。

版本历史

在R2014b中引入

另请参阅

|