主要内容

袖扣

从对齐的reads中组装转录组

描述

例子

袖扣(alignmentFiles从对齐的reads中组装转录组alignmentFile并量化每个转录本的表达水平[1].默认情况下,该函数将结果写入一个名为transcripts.gtf在当前目录。

袖扣要求袖扣支持包生物信息学万博1manbetx工具箱™.如果没有安装支万博1manbetx持包,则该函数提供下载链接.详细信息请参见生物信息学工具箱软件支持包万博1manbetx

袖扣(alignmentFilescufflinksOptions所指定的其他选项cufflinksOptions

袖扣(alignmentFiles名称,值使用由一个或多个名-值对参数指定的其他选项。例如,袖扣(alignmentFile TrimCoverageThreshold的5)指定3'端修剪的最小平均覆盖率。

成绩单亚型基因skippedTranscripts] =袖扣(___使用前面语法中的任何输入参数组合返回组合后的转录组的文件名。缺省情况下,该函数将所有文件保存到当前目录。

例子

全部折叠

创建一个CufflinksOptions对象定义袖扣选项,例如并行线程数和存储结果的输出目录。

cflOpt =袖扣soptions;cflOpt。NumThreads = 8; cflOpt.OutputDirectory =”。/ cufflinksOut”

本例提供的SAM文件包含对齐的读取肺炎支原体两个样本,每个重复三个。读取两个基因的模拟100bp-reads (gyrA而且gyrB)在基因组上彼此相邻。所有读取都按照引用位置进行排序袖扣

sam = [“Myco_1_1.sam”“Myco_1_2.sam”“Myco_1_3.sam”...“Myco_2_1.sam”“Myco_2_2.sam”“Myco_2_3.sam”];

从对齐的reads中组装转录组。

[gtfs,isofpkm,基因,跳过]=袖扣(sams,cflOpt);

gtfs是包含组装异构体的GTF文件列表。

比较所组装的异构体cuffcompare

统计=袖口比较(gtfs);

使用合并已组装的文本cuffmerge

mergedGTF = cuffmerge(gtfs,“OutputDirectory””。/ cuffMergeOutput ');

mergedGTF报告只有一份文字记录。这是因为感兴趣的两个基因位于彼此相邻的位置,并且cuffmerge不能区分两个不同的基因。指导cuffmerge,使用参考GTF (gyrAB.gtf)中含有这两种基因的信息。如果文件不在您运行的同一目录中cuffmerge,还必须指定文件路径。

gyrAB = which(“gyrAB.gtf”);mergedGTF2 = cuffmerge(gtfs,“OutputDirectory””。/ cuffMergeOutput2 '...“ReferenceGTF”, gyrAB);

从每个样本的对齐读数计算丰度(表达水平)。

plentiances1 = cuffquant(mergedGTF2,[“Myco_1_1.sam”“Myco_1_2.sam”“Myco_1_3.sam”),...“OutputDirectory””。/ cuffquantOutput1 ');plentiances2 = cuffquant(mergedGTF2,[“Myco_2_1.sam”“Myco_2_2.sam”“Myco_2_3.sam”),...“OutputDirectory””。/ cuffquantOutput2 ');

通过执行差异测试,评估基因和转录物在不同条件下表达变化的意义cuffdiff.的cuffdiff函数的操作分为两个不同的步骤:函数首先从对齐的读取中估计丰度,然后执行统计分析。在某些情况下(例如,在多个工作人员之间分配计算负载),需要分别执行这两个步骤。在执行第一步之后cuffquant,然后可以使用二进制CXB输出文件作为输入cuffdiff进行统计分析。因为cuffdiff返回多个文件,建议指定输出目录。

isoformDiff = cuffdiff(mergedGTF2,[丰度1,丰度2],...“OutputDirectory””。/ cuffdiffOutput ');

显示包含两个基因差异表达测试结果的表格gyrB而且gyrA

readtable (isoformDiff“文件类型”“文本”
ans = 2×14表test_id gene_id基因位点sample_1 sample_2地位value_1 value_2 log2_fold_change_ test_stat p_value q_value意义重大  ________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________ ' TCONS_00000001“XLOC_000001“gyrB“nc_000912.1:2868 - 7340 q1 ' ' ' ' ' '好吧' 1.0913 4.2228 e + e + 05年05年1.9522 - 7.8886 5 e-05 5 e-05 '是的' TCONS_00000002“XLOC_000001“gyrA ' ' nc_000912.1:2868 - 7340 ''q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'

你可以使用cuffnorm生成规范化表达式表,以供进一步分析。cuffnorm当你有很多样本,想要对它们进行聚类或绘制研究中重要基因的表达水平时,结果是有用的。请注意,不能使用cuffnorm

指定一个单元格数组,其中每个元素都是一个字符串向量,包含单个复制样本的文件名。

alignmentFiles = {[“Myco_1_1.sam”“Myco_1_2.sam”“Myco_1_3.sam”),...“Myco_2_1.sam”“Myco_2_2.sam”“Myco_2_3.sam”} isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...“OutputDirectory””。/ cuffnormOutput ');

显示一个表,其中包含每个转录本的规范化表达级别。

readtable (isoformNorm“文件类型”“文本”
ans = 2×7表tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2  ________________ __________ __________ __________ __________ __________ __________ ' TCONS_00000001 1.0913 e + 05 78628 1.2132 4.3639 e + e + 05年05年4.2228 4.2814 e + e + 05年05 TCONS_00000002“3.5158 e + 05年3.7458 e + 05年3.4238 1.0483 e + e + 05年05年1.1546 1.1105 e + e + 05年05

列名称以格式:conditionX_N,表示该列包含用于复制的值N方便

输入参数

全部折叠

SAM或BAM文件的名称,指定为字符串、字符串向量、字符向量或字符向量的单元格数组。输入文件必须按引用位置排序。

例子:“Myco_1_1.sam”

数据类型:字符|字符串

袖扣选项,指定为CufflinksOptions对象、字符向量或字符串。字符向量或字符串必须采用cufflinks选项语法(以一个或两个破折号作为前缀)[1]

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名称-值参数必须出现在其他参数之后,但对的顺序无关紧要。

在R2021a之前,使用逗号分隔每个名称和值,并将其括起来的名字在报价。

例子:袖扣(alignmentFile TrimCoverageThreshold的5‘FragmentLengthMean’,180)

标志将片段计数规范化为每千基每百万映射读取的片段数(FPKM),指定为真正的

例子:“EffectiveLengthCorrection”,假的

数据类型:逻辑

附加命令,指定为字符串或字符向量。

命令必须使用本机语法(前缀为一个或两个破折号)。使用此选项可应用未记录的标志和没有相应MATLAB的标志®属性。

例子:“ExtraCommand”、“——库类型fr-secondstrand”

数据类型:字符|字符串

标记,以在RABT(基于高级引用注释的转录本)汇编期间将引用转录本作为假读包含在汇编输出中,指定为真正的

请注意

如果指定,该函数只执行RABT程序集GTFGuide.否则,FauxReadTiling,不管真正的,对汇编后的文字记录没有影响。

例子:“FauxReadTiling”,假的

数据类型:逻辑

FASTA文件的名称,其中包含用于检测片段计数偏差的引用转录本,指定为字符串或字符向量。文库制备可以在RNA-Seq实验中引入序列特异性偏向。提供参考转录本可以提高转录本丰度估计的准确性。

例子:“FragmentBiasCorrection”、“ref.fasta”

数据类型:字符|字符串

预期平均片段长度,指定为正整数。默认值为200碱基对。该函数可以学习每个SAM文件的平均片段长度。不建议对端读取使用此选项。

例子:“FragmentLengthMean”,100年

数据类型:

片段长度分布的预期标准偏差,指定为正标量。默认值为80碱基对。该函数可以学习每个SAM文件的片段长度标准偏差。不建议对端读取使用此选项。

例子:“FragmentLengthSTD”,70年

数据类型:

引导RABT程序集的GTF文件的名称,指定为字符串或字符向量。

例子:“GTFGuide”、“tr.gtf”

数据类型:字符|字符串

标志,以在转换为指定的原始选项语法时,包含所有具有相应默认值的可用选项真正的

原始(本地)语法的前缀是一个或两个破折号。默认情况下,该函数只转换指定的选项。如果值为真正的,该软件将所有可用选项(未指定选项的默认值)转换为原始语法。

请注意

如果你设置IncludeAll真正的,该软件转换所有可用的属性,对未指定的属性使用默认值。唯一的例外是属性的默认值为[],或"",则软件不翻译相应的属性。

例子:“IncludeAll”,真的

数据类型:逻辑

在RABT组装过程中,当确定一个读是否可映射到另一个转录本时,允许来自一个读的碱基对与转录本内含子重叠的数目,指定为正整数。默认值为8

请注意

如果指定,该函数只执行RABT程序集GTFGuide.否则,RABTOverhangTolerance对汇编文本没有影响。

例子:“IntronOverhangTolerance”,10

数据类型:

二项测试中的Alpha值,用于过滤假阳性对齐,指定为之间的标量0而且1

例子:“JunctionAlpha”,0.005

数据类型:

标记要通过指定为真正的.将此值设置为只有当片段数与特征大小无关时,例如对于没有片段的小RNA文库和3'端测序,其中所有片段都具有相同的长度。

例子:“LengthCorrection”,假的

数据类型:逻辑

包含在分析期间要忽略的转录本的GTF或GFF文件的名称,指定为字符串或字符向量。一些可以忽略的转录本例子包括注释的rRNA转录本、线粒体转录本和其他丰富的转录本。忽略这些转录本可以提高丰度估计的稳健性。

例子:“MaskFile”、“excludes.gtf”

数据类型:字符|字符串

在跳过新片段之前,每个轨迹所包含的最大片段数,指定为正整数。跳过的片段用状态标记HIDATA在文件中skipped.gtf

例子:“MaxBundleFrags”,400000年

数据类型:

束的最大基因组长度(以碱基对为单位),指定为正整数。

例子:“MaxBundleLength”,3400000

数据类型:

在跳过新读取之前,每个片段要包含的最大对齐读取数,指定为正整数。,默认值,不限制最大对齐读数。

例子:“MaxFragAlignments”,1000年

数据类型:

内含子中要报告的最大碱基数,以正整数指定。袖扣也会忽略与REF_SKIP CIGAR操作的SAM对齐时间长于此属性值。

例子:“MaxIntronLength”,350000年

数据类型:

丰度的最大似然估计的最大迭代次数,指定为正整数。

例子:“MaxMLEIterations”,4000年

数据类型:

在组装的转片段上报告的对齐RNA-Seq片段的最小数目,指定为正整数。

例子:“MinFragsPerTransfrag”,15

数据类型:

基因组中内含子的最小碱基对数量,用正整数表示。

例子:“MinIntronLength”,50岁

数据类型:

报告某一特定异构体丰度的袖off值,作为最丰富的异构体(主要异构体)的一个分数,指定为之间的标量0而且1.该功能过滤掉丰度低于指定值的转录本,因为低水平表达的异构体通常不能可靠地组装。默认值是该基因主要亚型的0.1或10%。

例子:“MinIsoformFraction”,0.20

数据类型:

标志来改进使用拯救方法映射到多个基因组位置的reads的丰度估计,指定为真正的.如果值为时,该函数将multimmapped read统一划分到所有映射位置。如果值为真正的,该函数使用额外的信息,包括基因丰度估计、推断的片段长度和片段偏倚,来改进转录丰度估计。

营救方法描述在[2]

例子:真正的

数据类型:逻辑

标志,以仅使用与引用转录本兼容的片段来计算FPKM值,指定为真正的

例子:“NormalizeCompatibleHits”,假的

数据类型:逻辑

标志,以包括计算FPKM值的所有片段,指定为真正的.如果值为真正的,该函数包括所有片段,包括没有兼容引用的片段。

例子:“NormalizeTotalHits”,真的

数据类型:逻辑

在每个转录本上执行的片段分配数,指定为正整数。对于从转录本中提取的每个片段,该函数按概率执行指定数量的赋值,以确定转录本赋值的不确定性,并估计分配片段计数的方差-协方差矩阵。

例子:“NumFragAssignmentSamples”,40岁

数据类型:

从每个记录的负二项式随机数生成器中抽取的次数,指定为正整数。每个图都是该函数概率地分配给转录组中的转录本的片段数,以确定分配的不确定性并估计分配片段数的方差-协方差矩阵。

例子:“NumFragSamples”,90年

数据类型:

要使用的并行线程数,指定为正整数。线程在单独的处理器或内核上运行。增加线程数量通常会显著改善运行时,但会增加内存占用。

例子:“NumThreads”4

数据类型:

存储分析结果的目录,指定为字符串或字符向量。

例子:‘OutputDirectory’,”。/ AnalysisResults /”

数据类型:字符|字符串

与内含子重叠的碱基对数,该函数在确定读取的数据是否与另一个转录本兼容时允许的碱基对数,以正整数指定。

例子:“OverhangTolerance”,5

数据类型:

在RABT组装过程中允许悬挂在每个参考转录本的3'端上的碱基对数目,指定为正整数。该函数在决定组合的文本是新的还是应该与引用合并时使用此属性。

请注意

如果指定,该函数只执行RABT程序集GTFGuide.否则,RABTOverhangTolerance3对汇编文本没有影响。

例子:“OverhangTolerance3”,500年

数据类型:

转片段之间的距离,指定为正整数。如果距离低于指定值,则该函数合并传输片段。默认值为50碱基对。

例子:“OverlapRadius”,40岁

数据类型:

在程序集中包含内含子间隔对齐的阈值,指定为之间的标量0而且1.如果最小覆盖深度除以拼接读取数低于指定值,该函数将忽略内含子对齐。使用此属性可过滤来自不完全拼接的转录本的读取。

例子:“PreMRNAFraction”,0.10

数据类型:

包含用于估计异构体表达式的引用注释的GTF或GFF文件的名称,指定为字符串或字符向量。如果你提供ReferenceGTF文件中,该函数不组装任何新的转录本,并忽略与引用转录本不兼容的任何对齐。

例子:“ReferenceGTF”、“isoest.gtf”

数据类型:字符|字符串

随机数生成器的种子,指定为非负整数。种子值的设置保证了分析结果的重现性。

例子:“种子”,10

数据类型:

拼接接点两边对齐的最小百分比,指定为之间的标量0而且1.函数筛选器在组装前以小于此属性值的百分比对齐。

例子:“SmallAnchorFraction”,0.1

数据类型:

输出GTF文件中报告的传输片段的前缀,指定为字符串或字符向量。此选项必须是长度非零的字符串或字符向量。

例子:“TranscriptPrefix”、“tfrags”

数据类型:字符|字符串

3'修剪的最小平均覆盖率,指定为正整数。

例子:“TrimCoverageThreshold”,8

数据类型:

用于修饰已组装转录本的3'端的平均覆盖的最小百分比,指定为之间的标量0而且1

例子:“TrimDropoffFraction”,0.15

数据类型:

输出参数

全部折叠

文本文件名称,以字符串形式返回。文件名为“transcripts.gtf”.该文件包含组装的异构体,以及描述来自每个转录本的大量读取的属性。

输出字符串还包括定义的目录信息OutputDirectory.默认为当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / transcripts.gtf”

估计的isoform级表达式文件名,作为字符串返回。缺省情况下,文件名为“isoforms.fpkm_tracking”.该文件包含对中isoform级表达式的估计袖扣FPKM跟踪格式。

输出字符串还包括定义的目录信息OutputDirectory.默认为当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / isoforms.fpkm_tracking”

估计的基因级表达式文件名,以字符串形式返回。缺省情况下,文件名为“genes.fpkm_tracking”.该文件包含估计的基因水平表达袖扣FPKM跟踪格式。

输出字符串还包括定义的目录信息OutputDirectory.默认为当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / genes.fpkm_tracking”

处理轨迹时包含跳过的文本的文件名,以字符串形式返回。缺省情况下,文件名为“skipped.gtf”.的“MaxBundleFrags”选项指定每个位点包含的转录本(片段)的最大数量。达到阈值后,该函数将跳过的片段放入该文件中。

输出字符串还包括定义的目录信息OutputDirectory.默认为当前目录。如果你设置OutputDirectory“/地方/ tmp /”,输出变为“/地方/ tmp / skipped.gtf”

参考文献

[1]特拉普内尔、科尔、布莱恩·A·威廉姆斯、Geo Pertea、阿里·莫塔扎维、戈登·关、玛丽克·J·范·巴伦、史蒂文·L·萨尔茨伯格、芭芭拉·J·沃尔德和利奥·帕切特。“RNA-Seq转录本组装和量化揭示了细胞分化过程中未注释的转录本和异构体转换。”自然生物技术28日,没有。5(五月2010):511-15。

[2]Mortazavi, Ali, Brian A Williams, Kenneth McCue, Lorian Schaeffer和Barbara Wold。通过RNA-Seq绘制和量化哺乳动物转录组自然方法5,不。7 (July 2008): 621-28。https://doi.org/10.1038/nmeth.1226

版本历史

在R2019a中引入