主要内容

CufflinksOptions

选项设置袖扣

自从R2019a

描述

一个CufflinksOptions对象包含选项袖扣从对齐读取功能,组装一个转录组[1]

创建

描述

例子

cufflinksOpt= CufflinksOptions创建一个CufflinksOptions对象的默认属性值。

CufflinksOptions要求生物信息学工具箱™袖万博1manbetx扣支持包。如果支持包没有万博1manbetx安装,那么该函数提供了一个下载链接。有关详细信息,请参见生物信息工具箱软件支持包万博1manbetx

cufflinksOpt= CufflinksOptions(名称,值)设置对象属性使用一个或多个名称-值对参数。在报价附上每个属性的名字。例如,cufflinksOpt = CufflinksOptions (TrimCoverageThreshold, 5)指定了最小平均覆盖3 '末端修剪。

cufflinksOpt= CufflinksOptions (年代)使用一个字符串或字符向量指定可选参数年代

输入参数

全部展开

袖扣的选项,指定为一个字符或字符串向量。年代必须在袖扣选项语法(由一个或两个破折号前缀)。

例子:”——trim-3-avgcov-thresh 5 '

属性

全部展开

国旗规范化每百万映射读取片段数每千碱基片段(FPKM),指定为真正的

例子:

数据类型:逻辑

额外的命令,指定为一个字符或字符串向量。

必须在本机的命令语法(由一个或两个破折号前缀)。使用这个选项没有相应的MATLAB应用无证旗帜和标志®属性。

当软件MATLAB属性转换原始的旗帜,它存储这个属性的任何未识别的标志。

例子:”——库类型fr-secondstrand”

数据类型:字符|字符串

国旗在组装的输出包括参考记录期间faux-reads RABT(高级参考基于注释的成绩单)大会,指定为真正的

请注意

函数只执行RABT组装如果指定GTFGuide。否则,FauxReadTiling的,不管真正的对组装好的成绩单,没有影响。

例子:

数据类型:逻辑

FASTA文件名称与参考转录片段计数检测偏差,指定为字符串或字符向量。图书馆可以导致RNA-Seq sequence-specific偏差实验做准备。提供参考记录提高了转录丰度估计的准确性。

例子:“bias.fasta”

数据类型:字符|字符串

预期意味着片段长度,指定为一个正整数。默认值是200年碱基对。函数可以学习每个山姆的片段长度的意思是文件。不推荐使用此选项paired-end读取。

例子:One hundred.

数据类型:

预期片段长度分布的标准差,指定为一个积极的标量。默认值是80年碱基对。函数可以学习每个山姆的片段长度标准偏差文件。不推荐使用此选项paired-end读取。

例子:70年

数据类型:

名字GTF文件指导RABT大会,指定为字符串或字符向量。

例子:“tr.gtf”

数据类型:字符|字符串

标志包括所有对象属性与相应的默认值转换成原来的选项的语法时,指定为真正的。你可以将属性转换为原始语法由一个或两个破折号(如前缀“- d 100 - e 80”)通过使用getCommand。默认值意味着当你调用getCommand (optionsObject),它只将指定的属性。如果该值为真正的,getCommand将所有可用的属性,默认值为未指定的属性,原来的语法。

请注意

如果你设置IncludeAll真正的,软件将所有可用的属性,与未指定的属性的默认值。唯一的例外是当属性的默认值,,[],,或”“,那么软件不会翻译相应的属性。

例子:真正的

数据类型:逻辑

Alpha值在二项测试过滤假阳性比对,指定为一个标量之间01

例子:0.005

数据类型:

国旗的正确记录长度指定为真正的。将这个值设置为只有当片段统计独立的特征尺寸,比如小RNA图书馆没有碎片和3 '末端测序,所有片段长度相同。

例子:

数据类型:逻辑

GTF的名称或人造石铺地面文件包含成绩单忽视分析期间,指定为字符串或字符向量。成绩单忽略的一些例子包括注释rRNA成绩单、线粒体成绩单和其他丰富的成绩单。忽视这些记录提高了丰度估计的鲁棒性。

例子:“excludes.gtf”

数据类型:字符|字符串

最大数量每个位点的片段包括跳过新片段之前,指定为一个正整数。跳过碎片状态HIDATA在文件中skipped.gtf

例子:400000年

数据类型:

最大的基因组长度的碱基对一捆,指定为一个正整数。

例子:3400000

数据类型:

最大数量的一致读包括对于每个片段跳过新读之前,指定为一个正整数。默认值,集对齐读取的最大数量上没有限制。

例子:1000年

数据类型:

最大数量的基地在内含子报告,指定为一个正整数。袖扣也忽视了山姆比对与REF_SKIP雪茄操作超过这个属性值。

例子:350000年

数据类型:

最大数量的迭代最大似然估计的丰度,指定为一个正整数。

例子:4000年

数据类型:

最小数量的对齐RNA-Seq片段组装transfrag报告,指定为一个正整数。

例子:15

数据类型:

最小数量的碱基对内含子的基因组,指定为一个正整数。

例子:50

数据类型:

Cuffoff价值报告大量的一个特定的同种型的一小部分最丰富的同种型(主要同种型),指定为一个标量之间01。函数过滤掉转录丰度低于指定值因为亚型表达在低水平往往不能可靠地组装。默认值是0.1点,涨幅10%,主要的同种型的基因。

例子:0.20

数据类型:

国旗改进读取映射到多个基因丰度估计的位置使用救援方法,指定为真正的。如果该值为,该函数将多重映射读取所有映射位置一致。如果该值为真正的,函数使用额外的信息,包括基因丰度估计,推断片段长度,和片段偏见,改善转录丰度估计。

救援方法中描述[2]

例子:真正的

数据类型:逻辑

国旗只使用片段兼容的引用记录计算FPKM值,指定为真正的

例子:真正的

数据类型:逻辑

标志包括所有碎片FPKM计算值,指定为真正的。如果该值为真正的,功能包括所有碎片,包括碎片没有兼容的参考。

例子:真正的

数据类型:逻辑

执行在每个记录片段的数量分配,指定为一个正整数。对于每个片段来自一个成绩单,函数执行指定数量的分配概率确定记录任务不确定性和估计的variance-covariance矩阵分配的碎片数量。

例子:40

数据类型:

吸引了数量从每个记录的负二项随机数字生成器,指定为一个正整数。每个画是一个函数的概率分配的碎片数量记录在转录组来确定任务的不确定性和估计variance-covariance矩阵分配片段。

例子:90年

数据类型:

使用并行线程的数量,指定为一个正整数。线程运行在不同的处理器或核心。增加线程的数量通常显著提高了运行时,但增加了内存占用。

例子:4

数据类型:

目录存储分析结果,指定为字符串或字符向量。

例子:”。/ AnalysisResults /”

数据类型:字符|字符串

重叠的碱基对数量与一个内含子函数允许在确定如果读是兼容与另一个记录,指定为一个正整数。

例子:5

数据类型:

transfrags之间的距离,指定为一个正整数。如果距离低于指定值,函数合并transfrags。默认值是50碱基对。

例子:40

数据类型:

阈值包括intronic间隔排列的大会,指定为一个标量之间01。函数忽略了intronic排列的最小深度报道的数量除以拼接读取低于指定值。使用这个属性来过滤读取来自拼接不完全的记录。

例子:0.10

数据类型:

碱基对数量从读允许重叠与转录基因内区在确定如果读可映射到另一个记录RABT大会期间,指定为一个正整数。默认值是8

请注意

函数只执行RABT组装如果指定GTFGuide。否则,RABTOverhangTolerance不影响组装成绩单。

例子:10

数据类型:

碱基对数量允许过剩3 '年底每个引用记录RABT大会期间,指定为一个正整数。函数使用这个属性在决定如果一个组装的成绩单是小说或应该合并与参考。

请注意

函数只执行RABT组装如果指定GTFGuide。否则,RABTOverhangTolerance3不影响组装成绩单。

例子:500年

数据类型:

GTF名称或人造石铺地面文件包含引用注释用来估计同种型表达式,指定为一个字符串或字符向量。如果你提供一个ReferenceGTF文件,函数不组装任何小说成绩单和忽略任何阵营与参考转录不相容。

例子:“isoest.gtf”

数据类型:字符|字符串

随机数生成器的种子,指定为一个非负整数。设置一个种子值确保分析结果的再现性。

例子:10

数据类型:

最低的百分比两边对齐接头连接,指定为一个标量之间01。函数过滤行业比例小于装配之前这个属性值。

例子:0.1

数据类型:

前缀的报道transfrags GTF的输出文件,指定为字符串或字符向量。这个选项必须是一个向量和一个非零长度字符串或字符。

例子:“tfrags”

数据类型:字符|字符串

最小平均覆盖3 '修剪,指定为一个正整数。

例子:8

数据类型:

最低的比例平均覆盖率修剪3 '组装记录,指定为一个标量之间01

例子:0.15

数据类型:

这个属性是只读的。

万博1manbetx支持软件原始版本的袖扣,作为字符串返回。

例子:“2.2.1”

数据类型:字符串

对象的功能

getCommand 对象属性转换成原来的选项的语法
getOptionsTable 返回表与所有属性和等价选项在原始语法

例子

全部折叠

创建一个CufflinksOptions对象的默认值。

选择= CufflinksOptions;

创建一个对象使用名称-值对。

opt2 = CufflinksOptions (“TranscriptPrefix”,“MATLAB”,“NumThreads”4)

通过使用原始的创建一个对象袖扣语法。

opt3 = CufflinksOptions (“——标签MATLAB num-threads 4”)

创建一个CufflinksOptions对象定义袖扣的选项,如并行线程的数量和输出目录来存储结果。

cflOpt = CufflinksOptions;cflOpt。NumThreads = 8; cflOpt.OutputDirectory =”。/ cufflinksOut”;

山姆文件提供了对于这个示例包含一致读肺炎支原体从两个样品三个复制。两个基因的读取模拟100 bp-reads (gyrAgyrB)位于相邻的基因组。所有的阅读都是按参考位置,根据袖扣

地空导弹= [“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”,“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”];

组装的转录组对齐。

[gtfs isofpkm,基因,跳过]=袖扣(sams、cflOpt);

gtfsGTF文件的列表,包含组装亚型。

比较亚型组装使用cuffcompare

统计= cuffcompare (gtfs);

合并组装记录使用cuffmerge

mergedGTF = cuffmerge (gtfs,“OutputDirectory”,”。/ cuffMergeOutput ');

mergedGTF报告只有一个成绩单。这是因为感兴趣的两个基因位于相邻cuffmerge无法区分两种不同的基因。指导cuffmerge,使用参考GTF (gyrAB.gtf这两个基因)包含的信息。如果文件不是位于同一个目录中运行的cuffmerge,您还必须指定文件路径。

gyrAB = (“gyrAB.gtf”);mergedGTF2 = cuffmerge (gtfs,“OutputDirectory”,”。/ cuffMergeOutput2 ',“ReferenceGTF”,gyrAB);

计算丰度(表达水平)读取每个样本保持一致。

abundances1 = cuffquant (mergedGTF2, (“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”),“OutputDirectory”,”。/ cuffquantOutput1 ');abundances2 = cuffquant (mergedGTF2, (“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”),“OutputDirectory”,”。/ cuffquantOutput2 ');

评估的意义变化之间的基因和转录表达条件进行微分测试使用cuffdiff。的cuffdiff函数在两个不同的步骤:读取函数首先估计丰度的结合,然后执行统计分析。在某些情况下(例如,分配计算负载在多个工人),执行两个步骤分别是可取的。后执行的第一步cuffquant,你可以使用二进制CXB输出文件作为输入cuffdiff执行统计分析。因为cuffdiff返回几个文件,建议指定输出目录。

isoformDiff = cuffdiff (mergedGTF2 [abundances1 abundances2),“OutputDirectory”,”。/ cuffdiffOutput ');

显示一个表包含两个基因的微分表达式测试结果gyrBgyrA

readtable (isoformDiff“文件类型”,“文本”)
ans = 2×14表test_id gene_id基因位点sample_1 sample_2地位value_1 value_2 log2_fold_change_ test_stat p_value q_value重要___________ _________________ ______ _______________________说______ __________ __________ _________________ ____ ____ ____ ___________的TCONS_00000001 XLOC_000001的‘gyrB’‘nc_000912.1:2868 - 7340 q1的“第二季”“OK”1.0913 4.2228 e + e + 05年05年1.9522 - 7.8886 5 e-05 5 e-05‘是的’‘TCONS_00000002’‘XLOC_000001’‘gyrA’‘nc_000912.1:2868 - 7340 q1的“第二季”“OK”3.5158 1.1546 e + e + 05年05年-1.6064 - -7.3811 5 e-05 5 e-05 '是的'

您可以使用cuffnorm生成规范化表达表进行进一步的分析。cuffnorm结果是有用的,当你有很多样品和你想集群或情节的基因表达水平在你的研究很重要。请注意,您不能执行微分表达式分析使用cuffnorm

指定一个单元阵列,其中每个元素是一个字符串向量包含文件名与复制单个样本。

alignmentFiles = {(“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”),(“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”]}isoformNorm = cuffnorm (mergedGTF2 alignmentFiles,“OutputDirectory”,”。/ cuffnormOutput ');

显示一个表包含每个记录的规范化表达水平。

readtable (isoformNorm“文件类型”,“文本”)
ans = 2×7表tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2 ___________ __________ __________ __________, __________ __________ __________的TCONS_00000001 1.0913 e + 05 78628 1.2132 4.3639 e + e + 05年05年4.2228 4.2814 e + e + 05年05年的TCONS_00000002 3.5158 e + 05年3.7458 e + 05年3.4238 1.0483 e + e + 05年05年1.1546 1.1105 e + e + 05年05

列名开始格式:conditionX_N,显示的列值复制N方便

引用

[1]杰尔科尔,布莱恩·威廉姆斯,地理Pertea阿里Mortazavi关荣乐Marijke J货车压印垫板,芭芭拉·J的山地,史蒂文•L扎尔茨贝格Lior帕特。“记录装配和量化RNA-Seq揭示未经成绩单和同种型开关在细胞分化。”自然生物技术28日,没有。5(2010年5月):511 - 15所示。

[2]Mortazavi,阿里,布莱恩·威廉姆斯,肯尼思•麦丘洛谢弗和芭芭拉的山地。“哺乳动物映射和量化转录组RNA-Seq。”自然方法5,不。7(2008年7月):621 - 28。https://doi.org/10.1038/nmeth.1226

版本历史

介绍了R2019a