主要内容

cuffdiff

鉴定转录本表达的显著变化

描述

例子

cuffdiff (transcriptsAnnotalignmentFiles鉴定样本间转录本表达的显著变化alignmentFiles使用文本注释文件transcriptsAnnot[1]

cuffdiff要求袖扣支持包生物信息学万博1manbetx工具箱™.如果没有安装支万博1manbetx持包,则该函数提供下载链接.详细信息请参见生物信息学工具箱软件支持包万博1manbetx

cuffdiff (transcriptsAnnotalignmentFiles选择所指定的其他选项选择

cuffdiff (transcriptsAnnotalignmentFiles名称,值使用由一个或多个名-值对参数指定的其他选项。例如,cuffdiff”(“gyrAB.gtf”,[Myco_1_1。山姆”、“Myco_2_1.sam”),'NumThreads',5)指定五个并行线程。

isoformsDiffgeneDifftssDiffcdsExpsplicingDiffcdsDiffpromotersDiff= cuffdiff(___返回包含使用前面语法中任何输入参数组合的差异表达式测试结果的文件的名称。缺省情况下,该函数将所有文件保存到当前目录。

例子

全部折叠

创建一个CufflinksOptions对象定义袖扣选项,例如并行线程数和存储结果的输出目录。

cflOpt =袖扣soptions;cflOpt。NumThreads = 8; cflOpt.OutputDirectory =”。/ cufflinksOut”

本例提供的SAM文件包含对齐的读取肺炎支原体两个样本,每个重复三个。读取两个基因的模拟100bp-reads (gyrA而且gyrB)在基因组上彼此相邻。所有读取都按照引用位置进行排序袖扣

sam = [“Myco_1_1.sam”“Myco_1_2.sam”“Myco_1_3.sam”...“Myco_2_1.sam”“Myco_2_2.sam”“Myco_2_3.sam”];

从对齐的reads中组装转录组。

[gtfs,isofpkm,基因,跳过]=袖扣(sams,cflOpt);

gtfs是包含组装异构体的GTF文件列表。

比较所组装的异构体cuffcompare

统计=袖口比较(gtfs);

使用合并已组装的文本cuffmerge

mergedGTF = cuffmerge(gtfs,“OutputDirectory””。/ cuffMergeOutput ');

mergedGTF报告只有一份文字记录。这是因为感兴趣的两个基因位于彼此相邻的位置,并且cuffmerge不能区分两个不同的基因。指导cuffmerge,使用参考GTF (gyrAB.gtf)中含有这两种基因的信息。如果文件不在您运行的同一目录中cuffmerge,还必须指定文件路径。

gyrAB = which(“gyrAB.gtf”);mergedGTF2 = cuffmerge(gtfs,“OutputDirectory””。/ cuffMergeOutput2 '...“ReferenceGTF”, gyrAB);

从每个样本的对齐读数计算丰度(表达水平)。

plentiances1 = cuffquant(mergedGTF2,[“Myco_1_1.sam”“Myco_1_2.sam”“Myco_1_3.sam”),...“OutputDirectory””。/ cuffquantOutput1 ');plentiances2 = cuffquant(mergedGTF2,[“Myco_2_1.sam”“Myco_2_2.sam”“Myco_2_3.sam”),...“OutputDirectory””。/ cuffquantOutput2 ');

通过执行差异测试,评估基因和转录物在不同条件下表达变化的意义cuffdiff.的cuffdiff函数的操作分为两个不同的步骤:函数首先从对齐的读取中估计丰度,然后执行统计分析。在某些情况下(例如,在多个工作人员之间分配计算负载),需要分别执行这两个步骤。在执行第一步之后cuffquant,然后可以使用二进制CXB输出文件作为输入cuffdiff进行统计分析。因为cuffdiff返回多个文件,建议指定输出目录。

isoformDiff = cuffdiff(mergedGTF2,[丰度1,丰度2],...“OutputDirectory””。/ cuffdiffOutput ');

显示包含两个基因差异表达测试结果的表格gyrB而且gyrA

readtable (isoformDiff“文件类型”“文本”
ans = 2×14表test_id gene_id基因位点sample_1 sample_2地位value_1 value_2 log2_fold_change_ test_stat p_value q_value意义重大  ________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________ ' TCONS_00000001“XLOC_000001“gyrB“nc_000912.1:2868 - 7340 q1 ' ' ' ' ' '好吧' 1.0913 4.2228 e + e + 05年05年1.9522 - 7.8886 5 e-05 5 e-05 '是的' TCONS_00000002“XLOC_000001“gyrA ' ' nc_000912.1:2868 - 7340 ''q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'

你可以使用cuffnorm生成规范化表达式表,以供进一步分析。cuffnorm当你有很多样本,想要对它们进行聚类或绘制研究中重要基因的表达水平时,结果是有用的。请注意,不能使用cuffnorm

指定一个单元格数组,其中每个元素都是一个字符串向量,包含单个复制样本的文件名。

alignmentFiles = {[“Myco_1_1.sam”“Myco_1_2.sam”“Myco_1_3.sam”),...“Myco_2_1.sam”“Myco_2_2.sam”“Myco_2_3.sam”} isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...“OutputDirectory””。/ cuffnormOutput ');

显示一个表,其中包含每个转录本的规范化表达级别。

readtable (isoformNorm“文件类型”“文本”
ans = 2×7表tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2  ________________ __________ __________ __________ __________ __________ __________ ' TCONS_00000001 1.0913 e + 05 78628 1.2132 4.3639 e + e + 05年05年4.2228 4.2814 e + e + 05年05 TCONS_00000002“3.5158 e + 05年3.7458 e + 05年3.4238 1.0483 e + e + 05年05年1.1546 1.1105 e + e + 05年05

列名称以格式:conditionX_N,表示该列包含用于复制的值N方便

输入参数

全部折叠

记录注释文件的名称,指定为字符串或字符向量。文件可以是GTF或GFF文件袖扣cuffcompare,或其他GTF注释的来源。

例子:“gyrAB.gtf”

数据类型:字符|字符串

SAM、BAM或CXB文件的名称,其中包含每个示例的对齐记录,指定为字符串向量或单元格数组。如果使用单元格数组,则每个元素必须是字符串向量或字符向量的单元格数组,为相同示例的每个复制指定对齐文件。

例子:[" Myco_1_1。山姆”、“Myco_2_1.sam”)

数据类型:字符|字符串|细胞

cuffdiff选项,指定为CuffDiffOptions对象、字符串或字符向量。字符串或字符向量必须在原始文件中cuffdiff选项语法(以一个或两个破折号作为前缀)[1]

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。

在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字在报价。

例子:cuffdiff”(“gyrAB.gtf”,[Myco_1_1。山姆”、“Myco_2_1.sam”),'NumThreads',5,'DispersionMethod',"per-condition")

示例标签,指定为字符串、字符串向量、字符向量或字符向量的单元格数组。标签数量必须等于样本数量或该值必须为空[]

例子:“ConditionLabels”,“控制”、“Mutant1”、“Mutant2”)

数据类型:字符串|字符|细胞

对比文件名,指定为字符串或字符向量。该文件必须是一个由两列制表符分隔的文本文件,其中每行表示要比较使用的两个条件cuffdiff.文件中的条件标签必须与指定的标签之一匹配ConditionLabels或者是样本名称。文件必须有一个标题行作为第一行,后面有一行用于每个对比。下面是一个对比文件格式的例子。

condition_A condition_B

控制

Mutant1

控制

Mutant2

如果您不提供此文件,cuffdiff比较可能影响性能的每对输入条件。

例子:“ContrastFile”、“contrast.txt”

数据类型:字符|字符串

方法对多个重复之间的片段计数方差进行建模,指定为以下选项之一:

  • “池”-该函数使用每个复制的条件来建立模型,并将这些模型平均为实验中所有条件的全局模型。

  • “per-condition”-函数为每个条件生成一个模型。只有当所有条件都有副本时,才可以使用此选项。

  • “盲人”-该函数将所有样本视为单个全局分布的副本,并生成一个模型。

  • “泊松”-片段数方差采用泊松模型,其中片段数预测为多个重复的平均值。不推荐使用该方法。

根据你是否期望每组样本的可变性相似来选择方法。

  • 当比较两组时,第一组交叉复制变异性低,第二组变异性高,选择per-condition方法。

  • 如果条件具有相似的可变性水平,则选择方法。

  • 如果每种条件下只有一个副本,请选择盲目的方法。

例子:“DispersionMethod”、“盲人”

数据类型:字符|字符串

标志,以执行异构体切换测试,指定为真正的.这些测试估计有多少差异剪接存在于一个单一的初级转录本的异构体。缺省值为真正的测试结果保存在输出文件中splicing.diff

例子:“DoIsoformSwitch”,假的

数据类型:逻辑

标志将片段计数规范化为每千基每百万映射读取的片段数(FPKM),指定为真正的

例子:“EffectiveLengthCorrection”,假的

数据类型:逻辑

命令必须使用本机语法(前缀为一个或两个破折号)。使用此选项可应用未记录的标志和没有相应MATLAB的标志®属性。

例子:“ExtraCommand”、“——库类型fr-secondstrand”

数据类型:字符|字符串

在统计测试期间使用的错误发现率,指定为之间的标量0而且1

例子:“FalseDiscoveryRate”,0.01

数据类型:

FASTA文件的名称,其中包含用于检测片段计数偏差的引用转录本,指定为字符串或字符向量。文库制备可以在RNA-Seq实验中引入序列特异性偏向。提供参考转录本可以提高转录本丰度估计的准确性。

例子:“FragmentBiasCorrection”、“bias.fasta”

数据类型:字符|字符串

预期平均片段长度,指定为正整数。默认值为200碱基对。该函数可以学习每个SAM文件的平均片段长度。不建议对端读取使用此选项。

例子:“FragmentLengthMean”,100年

数据类型:

片段长度分布的预期标准偏差,指定为正标量。默认值为80碱基对。该函数可以学习每个SAM文件的片段长度标准偏差。不建议对端读取使用此选项。

例子:“FragmentLengthSD”,70年

数据类型:

标志,以创建差异分析文件(* .diff),指定为真正的

例子:“GenerateAnalysisDiff”,假的

数据类型:逻辑

标志,以便在转换为指定为的原始选项语法时,使用相应的默认值包含所有对象属性真正的.您可以将属性转换为带有一个或两个破折号前缀的原始语法(例如'-d 100 -e 80')使用getCommand.默认值意思是你打电话的时候getCommand (optionsObject),它只转换指定的属性。如果值为真正的getCommand将所有可用属性(未指定属性的默认值)转换为原始语法。

请注意

如果你设置IncludeAll真正的,该软件转换所有可用的属性,对未指定的属性使用默认值。唯一的例外是属性的默认值为[],或"",则软件不翻译相应的属性。

例子:“IncludeAll”,真的

数据类型:逻辑

用于测试差异调节基因的最小复制数,以正整数指定。当复制数小于指定值时,函数将跳过测试。

例子:“IsoformShiftReplicates”,2

数据类型:

标记要通过指定为真正的.将此值设置为只有当片段数与特征大小无关时,例如对于没有片段的小RNA文库和3'端测序,其中所有片段都具有相同的长度。

例子:“LengthCorrection”,假的

数据类型:逻辑

方法规范化库大小,指定为以下选项之一:

  • “几何”-该函数将FPKM值按片段数的中位数几何平均值进行缩放,如中所述[2]

  • “classic-fpkm”—该函数对FPKM值和分片数不进行缩放。

  • “四分位数”-该函数通过片段计数和所有库平均值之间的上四分位数比例缩放FPKM值。

例子:“LibraryNormalizationMethod”、“classic-fpkm”

数据类型:字符|字符串

包含在分析期间要忽略的转录本的GTF或GFF文件的名称,指定为字符串或字符向量。一些可以忽略的转录本例子包括注释的rRNA转录本、线粒体转录本和其他丰富的转录本。忽略这些转录本可以提高丰度估计的稳健性。

例子:“MaskFile”、“excludes.gtf”

数据类型:字符|字符串

在跳过新片段之前,每个轨迹所包含的最大片段数,指定为正整数。跳过的片段用状态标记HIDATA在文件中skipped.gtf

例子:“MaxBundleFrags”,400000年

数据类型:

在跳过新读取之前,每个片段要包含的最大对齐读取数,指定为正整数。,默认值,不限制最大对齐读数。

例子:“MaxFragAlignments”,1000年

数据类型:

丰度的最大似然估计的最大迭代次数,指定为正整数。

例子:“MaxMLEIterations”,4000年

数据类型:

对样本之间的差异进行显著性检验所需的基因座最少排列数,指定为正整数。

例子:“MinAlignmentCount”,8

数据类型:

在差异表达测试中要包括的同型异构体的最小丰度,指定为介于之间的标量0而且1.对于在指定值以下定量的替代异构体,该函数将丰度舍入为零。指定的值是主要异构体的一个分数。该函数在MLE估计之后、MAP估计之前进行滤波,以提高置信区间生成和差分表达式分析的鲁棒性。不建议使用默认值以外的参数。

例子:e-5 MinIsoformFraction, 1

数据类型:

标志来改进使用拯救方法映射到多个基因组位置的reads的丰度估计,指定为真正的.如果值为时,该函数将multimmapped read统一划分到所有映射位置。如果值为真正的,该函数使用额外的信息,包括基因丰度估计、推断的片段长度和片段偏倚,来改进转录丰度估计。

营救方法描述在[3]

例子:“MultiReadCorrection”,真的

数据类型:逻辑

标志,以仅使用与引用转录本兼容的片段来计算FPKM值,指定为真正的

例子:“NormalizeCompatibleHits”,假的

数据类型:逻辑

标志,以包括计算FPKM值的所有片段,指定为真正的.如果值为真正的,该函数包括所有片段,包括没有兼容引用的片段。

例子:“NormalizeTotalHits”,真的

数据类型:逻辑

在每个转录本上执行的片段分配数,指定为正整数。对于从转录本中提取的每个片段,该函数按概率执行指定数量的赋值,以确定转录本赋值的不确定性,并估计分配片段计数的方差-协方差矩阵。

例子:“NumFragAssignmentSamples”,40岁

数据类型:

从每个记录的负二项式随机数生成器中抽取的次数,指定为正整数。每个图都是该函数概率地分配给转录组中的转录本的片段数,以确定分配的不确定性并估计分配片段数的方差-协方差矩阵。

例子:“NumFragSamples”,90年

数据类型:

要使用的并行线程数,指定为正整数。线程在单独的处理器或内核上运行。增加线程数量通常会显著改善运行时,但会增加内存占用。

例子:“NumThreads”4

数据类型:

存储分析结果的目录,指定为字符串或字符向量。

例子:‘OutputDirectory’,”。/ AnalysisResults /”

数据类型:字符|字符串

随机数生成器的种子,指定为非负整数。种子值的设置保证了分析结果的重现性。

例子:“种子”,10

数据类型:

标志,将输入样本视为时间序列而不是独立的实验条件,指定为真正的.如果将值设置为真正的,您必须按增加时间的顺序提供样本:第一个SAM文件必须是第一个时间点,第二个SAM文件必须是第二个时间点,依此类推。

例子:TimeSeries,真的

数据类型:逻辑

输出参数

全部折叠

包含转录水平差异表达结果的文件名,以字符串形式返回。

输出字符串还包括定义的目录信息OutputDirectory.默认为当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / isoform_exp.diff”

包含基因级差异表达结果的文件名,以字符串形式返回。

输出字符串还包括定义的目录信息OutputDirectory.默认为当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / gene_exp.diff”

包含主转录差异表达式结果的文件名,以字符串形式返回。

输出字符串还包括定义的目录信息OutputDirectory.默认为当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / tss_group_exp.diff”

包含编码序列差异表达式结果的文件名,以字符串形式返回。

输出字符串还包括定义的目录信息OutputDirectory.默认为当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / cds_exp.diff”

包含异构体的差异拼接结果的文件名,以字符串形式返回。

输出字符串还包括定义的目录信息OutputDirectory.默认为当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / splicing.diff”

包含差分编码序列输出的文件名,以字符串形式返回。

输出字符串还包括定义的目录信息OutputDirectory.默认为当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / cds.diff”

包含存在于样本之间的差异启动子使用信息的文件名称,以字符串形式返回。

输出字符串还包括定义的目录信息OutputDirectory.默认为当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / promoters.diff”

参考文献

[1]特拉普内尔、科尔、布莱恩·A·威廉姆斯、Geo Pertea、阿里·莫塔扎维、戈登·关、玛丽克·J·范·巴伦、史蒂文·L·萨尔茨伯格、芭芭拉·J·沃尔德和利奥·帕切特。“RNA-Seq转录本组装和量化揭示了细胞分化过程中未注释的转录本和异构体转换。”自然生物技术28日,没有。5(五月2010):511-15。

[2]安德斯,西蒙和沃尔夫冈·胡贝尔。序列计数数据的差分表达式分析基因组生物学11日,没有。10(2010年10月):R106。https://doi.org/10.1186/gb - 2010 - 11 - 10 - r106。

[3]Mortazavi, Ali, Brian A Williams, Kenneth McCue, Lorian Schaeffer和Barbara Wold。通过RNA-Seq绘制和量化哺乳动物转录组自然方法5,不。7 (July 2008): 621-28。https://doi.org/10.1038/nmeth.1226

版本历史

在R2019a中引入