主要内容

cuffnorm

规范化转录表达水平

描述

例子

cuffnorm (transcriptsAnnotalignmentFiles中样本的转录表达规范化为FPKMalignmentFiles并修正了库大小的差异[1]

cuffnorm要求生物信息学工具箱的袖万博1manbetx扣支持包.如果没有安装支万博1manbetx持包,则该功能提供下载链接.有关详细信息,请参见生物信息学工具箱软件支持包万博1manbetx

cuffnorm (transcriptsAnnotalignmentFiles选择使用指定的附加选项选择

cuffnorm (transcriptsAnnotalignmentFiles名称,值使用由一个或多个名称-值对参数指定的其他选项。例如,cuffnorm”(“gyrAB.gtf”,[Myco_1_1。山姆”、“Myco_2_1.sam”),'NumThreads',5)指定使用五个并行线程。

同种型基因tsscd) = cuffnorm (___使用前面语法中的任何输入参数组合返回包含规范化结果的文件名。缺省情况下,该函数将所有文件保存到当前目录。

例子

全部折叠

创建一个CufflinksOptions对象来定义袖扣选项,例如并行线程的数量和存储结果的输出目录。

cflOpt = CufflinksOptions;cflOpt。NumThreads = 8; cflOpt.OutputDirectory =”。/ cufflinksOut”

为本例提供的SAM文件包含对齐的读取肺炎支原体来自两个样本,每个样本有三个重复。两个基因的reads模拟为100bp-reads (gyrA而且gyrB)位于基因组上彼此相邻的位置。所有读取都按引用位置排序袖扣

地空导弹= [“Myco_1_1.sam”“Myco_1_2.sam”“Myco_1_3.sam”...“Myco_2_1.sam”“Myco_2_2.sam”“Myco_2_3.sam”];

从对齐的reads中组装转录组。

[gtfs isofpkm,基因,跳过]=袖扣(sams、cflOpt);

gtfs是包含已组装异构体的GTF文件的列表。

比较组装的异构体使用cuffcompare

统计= cuffcompare (gtfs);

使用合并组装的转录本cuffmerge

mergedGTF = cuffmerge (gtfs,“OutputDirectory””。/ cuffMergeOutput ');

mergedGTF只有一份文字记录。这是因为这两个感兴趣的基因位于彼此相邻的位置,而且cuffmerge不能区分两个不同的基因。指导cuffmerge,使用参考GTF (gyrAB.gtf)包含这两个基因的信息。如果文件不在您运行的同一目录中cuffmerge,还必须指定文件路径。

gyrAB = (“gyrAB.gtf”);mergedGTF2 = cuffmerge (gtfs,“OutputDirectory””。/ cuffMergeOutput2 '...“ReferenceGTF”, gyrAB);

从每个样本的对齐读取计算丰度(表达水平)。

abundances1 = cuffquant (mergedGTF2, (“Myco_1_1.sam”“Myco_1_2.sam”“Myco_1_3.sam”),...“OutputDirectory””。/ cuffquantOutput1 ');abundances2 = cuffquant (mergedGTF2, (“Myco_2_1.sam”“Myco_2_2.sam”“Myco_2_3.sam”),...“OutputDirectory””。/ cuffquantOutput2 ');

评估基因和转录本在不同条件下表达变化的意义cuffdiff.的cuffdiff函数分两个不同的步骤进行操作:函数首先从对齐的读取中估计丰度,然后执行统计分析。在某些情况下(例如,在多个工作者之间分配计算负载),需要分别执行这两个步骤。在执行第一步之后cuffquant,然后可以使用二进制CXB输出文件作为cuffdiff进行统计分析。因为cuffdiff返回多个文件,建议指定输出目录。

isoformDiff = cuffdiff (mergedGTF2 [abundances1 abundances2),...“OutputDirectory””。/ cuffdiffOutput ');

显示包含两个基因差异表达测试结果的表格gyrB而且gyrA

readtable (isoformDiff“文件类型”“文本”
ans = 2×14表test_id gene_id基因位点sample_1 sample_2地位value_1 value_2 log2_fold_change_ test_stat p_value q_value意义重大  ________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________ ' TCONS_00000001“XLOC_000001“gyrB“nc_000912.1:2868 - 7340 q1 ' ' ' ' ' '好吧' 1.0913 4.2228 e + e + 05年05年1.9522 - 7.8886 5 e-05 5 e-05 '是的' TCONS_00000002“XLOC_000001“gyrA ' ' nc_000912.1:2868 - 7340 ''q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'

您可以使用cuffnorm生成规范化表达式表以供进一步分析。cuffnorm当你有很多样本,你想将它们聚类或绘制在你的研究中重要的基因表达水平时,结果是有用的。方法不能执行差异表达式分析cuffnorm

指定一个单元格数组,其中每个元素都是字符串向量,包含单个带有复制的样本的文件名。

alignmentFiles = {(“Myco_1_1.sam”“Myco_1_2.sam”“Myco_1_3.sam”),...“Myco_2_1.sam”“Myco_2_2.sam”“Myco_2_3.sam”} isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...“OutputDirectory””。/ cuffnormOutput ');

显示包含每个转录本的规范化表达式级别的表。

readtable (isoformNorm“文件类型”“文本”
ans = 2×7表tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2  ________________ __________ __________ __________ __________ __________ __________ ' TCONS_00000001 1.0913 e + 05 78628 1.2132 4.3639 e + e + 05年05年4.2228 4.2814 e + e + 05年05 TCONS_00000002“3.5158 e + 05年3.7458 e + 05年3.4238 1.0483 e + e + 05年05年1.1546 1.1105 e + e + 05年05

格式:conditionX_N,表示该列包含用于复制的值N方便

输入参数

全部折叠

抄本注释文件的名称,指定为字符串或字符向量。文件可以是由生成的GTF或GFF文件袖扣cuffcompare,或者其他GTF注释的来源。

例子:“gyrAB.gtf”

数据类型:字符|字符串

包含每个示例的对齐记录的SAM、BAM或CXB文件的名称,指定为字符串向量或单元格数组。如果使用单元格数组,则每个元素必须是字符串向量或字符向量的单元格数组,为相同示例的每个复制指定对齐文件。

例子:[" Myco_1_1。山姆”、“Myco_2_1.sam”)

数据类型:字符|字符串|细胞

cuffnorm选项,指定为CuffNormOptions对象、字符串或字符向量。字符串或字符向量必须在原始文件中cuffnorm选项语法(以一个或两个破折号作为前缀)[1]

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。

在R2021a之前,名称和值之间用逗号隔开,并括起来的名字在报价。

例子:cuffnorm”(“gyrAB.gtf”,[Myco_1_1。山姆”、“Myco_2_1.sam”),'NumThreads',5)

命令必须采用本机语法(以一个或两个破折号作为前缀)。使用此选项可应用无文档记录的标志和没有相应MATLAB的标志®属性。

例子:“ExtraCommand”、“——库类型fr-secondstrand”

数据类型:字符|字符串

原始(本机)语法的前缀是一两个破折号。默认情况下,该函数只转换指定的选项。如果值为真正的,该软件将所有可用选项(未指定选项的默认值)转换为原始语法。

请注意

如果你设置IncludeAll真正的,该软件将转换所有可用的属性,对未指定的属性使用默认值。唯一的例外是属性的默认值为[],或"",则软件不翻译相应的属性。

例子:“IncludeAll”,真的

数据类型:逻辑

样本的标签,指定为字符串、字符向量、字符串向量或字符向量的单元格数组。如果要提供标签,则必须指定与输入样例相同数量的标签。

例子:“标签”,(“mutant1”、“mutant2”)

数据类型:字符|字符串|细胞

方法规范化库大小,指定为以下选项之一:

  • “几何”-该函数通过所有库中片段计数的中位数几何平均值来缩放FPKM值,如[2]

  • “classic-fpkm”—该函数对FPKM值和分片计数不进行缩放。

  • “四分位数”-这个函数根据片段计数和所有库的平均值之间的上四分位数的比值来缩放FPKM值。

例子:“LibraryNormalizationMethod”、“classic-fpkm”

数据类型:字符|字符串

标志,以只使用与引用记录兼容的片段来计算FPKM值,指定为真正的

例子:“NormalizeCompatibleHits”,假的

数据类型:逻辑

标志包含计算FPKM值的所有片段,指定为真正的.如果值为真正的,该函数包含所有片段,包括没有兼容引用的片段。

例子:“NormalizeTotalHits”,真的

数据类型:逻辑

要使用的并行线程数,指定为正整数。线程在单独的处理器或核心上运行。增加线程数量通常会显著改善运行时,但会增加内存占用。

例子:“NumThreads”4

数据类型:

存储分析结果的目录,指定为字符串或字符向量。

例子:‘OutputDirectory’,”。/ AnalysisResults /”

数据类型:字符|字符串

结果文件的格式,指定为“简单的表”“cuffdiff”

  • “简单的表”—输出为以tab分隔的表格格式。

  • “cuffdiff”—输出格式与cuffdiff

例子:“OutputFormat”、“cuffdiff”

数据类型:字符|字符串

随机数生成器的种子,指定为非负整数。设置种子值可以确保分析结果的可重复性。

例子:“种子”,10

数据类型:

输出参数

全部折叠

包含每个isoform的规范化表达式级别的文件名,以字符串形式返回。

的定义的目录信息OutputDirectory.默认是当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / isoforms.fpkm_table”

包含每个基因的规范化表达级别的文件名,以字符串形式返回。

的定义的目录信息OutputDirectory.默认是当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / genes.fpkm_table”

包含每个抄本起始站点(TSS)的规范化表达式级别的文件名,以字符串形式返回。

的定义的目录信息OutputDirectory.默认是当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / tss_groups.fpkm_table”

包含每个编码序列的规范化表达式级别的文件名,以字符串形式返回。

的定义的目录信息OutputDirectory.默认是当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / cds.fpkm_table”

参考文献

[1]特拉普内尔,科尔,布莱恩A威廉姆斯,Geo Pertea, Ali Mortazavi,戈登关,Marijke J van Baren,史蒂文L萨尔茨伯格,芭芭拉J Wold和Lior Pachter。RNA-Seq转录本组装和量化揭示了细胞分化过程中无注释转录本和亚型转换。自然生物技术28日,没有。5(2010年5月):511-15。

版本历史

介绍了R2019a