cuffnorm
规范化转录表达水平
语法
描述
cuffnorm (
中样本的转录表达规范化为FPKMtranscriptsAnnot
,alignmentFiles
)alignmentFiles
并修正了库大小的差异[1].
cuffnorm
要求生物信息学工具箱的袖万博1manbetx扣支持包.如果没有安装支万博1manbetx持包,则该功能提供下载链接.有关详细信息,请参见生物信息学工具箱软件支持包万博1manbetx.
cuffnorm (
使用指定的附加选项transcriptsAnnot
,alignmentFiles
,选择
)选择
.
cuffnorm (
使用由一个或多个名称-值对参数指定的其他选项。例如,transcriptsAnnot
,alignmentFiles
,名称,值
)cuffnorm”(“gyrAB.gtf”,[Myco_1_1。山姆”、“Myco_2_1.sam”),'NumThreads',5)
指定使用五个并行线程。
例子
组装转录组和规范化表达水平
创建一个CufflinksOptions
对象来定义袖扣选项,例如并行线程的数量和存储结果的输出目录。
cflOpt = CufflinksOptions;cflOpt。NumThreads = 8; cflOpt.OutputDirectory =”。/ cufflinksOut”;
为本例提供的SAM文件包含对齐的读取肺炎支原体来自两个样本,每个样本有三个重复。两个基因的reads模拟为100bp-reads (gyrA
而且gyrB
)位于基因组上彼此相邻的位置。所有读取都按引用位置排序袖扣
.
地空导弹= [“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”,...“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”];
从对齐的reads中组装转录组。
[gtfs isofpkm,基因,跳过]=袖扣(sams、cflOpt);
gtfs
是包含已组装异构体的GTF文件的列表。
比较组装的异构体使用cuffcompare
.
统计= cuffcompare (gtfs);
使用合并组装的转录本cuffmerge
.
mergedGTF = cuffmerge (gtfs,“OutputDirectory”,”。/ cuffMergeOutput ');
mergedGTF
只有一份文字记录。这是因为这两个感兴趣的基因位于彼此相邻的位置,而且cuffmerge
不能区分两个不同的基因。指导cuffmerge
,使用参考GTF (gyrAB.gtf
)包含这两个基因的信息。如果文件不在您运行的同一目录中cuffmerge
,还必须指定文件路径。
gyrAB = (“gyrAB.gtf”);mergedGTF2 = cuffmerge (gtfs,“OutputDirectory”,”。/ cuffMergeOutput2 ',...“ReferenceGTF”, gyrAB);
从每个样本的对齐读取计算丰度(表达水平)。
abundances1 = cuffquant (mergedGTF2, (“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”),...“OutputDirectory”,”。/ cuffquantOutput1 ');abundances2 = cuffquant (mergedGTF2, (“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”),...“OutputDirectory”,”。/ cuffquantOutput2 ');
评估基因和转录本在不同条件下表达变化的意义cuffdiff
.的cuffdiff
函数分两个不同的步骤进行操作:函数首先从对齐的读取中估计丰度,然后执行统计分析。在某些情况下(例如,在多个工作者之间分配计算负载),需要分别执行这两个步骤。在执行第一步之后cuffquant
,然后可以使用二进制CXB输出文件作为cuffdiff
进行统计分析。因为cuffdiff
返回多个文件,建议指定输出目录。
isoformDiff = cuffdiff (mergedGTF2 [abundances1 abundances2),...“OutputDirectory”,”。/ cuffdiffOutput ');
显示包含两个基因差异表达测试结果的表格gyrB
而且gyrA
.
readtable (isoformDiff“文件类型”,“文本”)
ans = 2×14表test_id gene_id基因位点sample_1 sample_2地位value_1 value_2 log2_fold_change_ test_stat p_value q_value意义重大 ________________ _____________ ______ _______________________ ________ ________ ______ __________ __________ _________________ _________ _______ _______ ___________ ' TCONS_00000001“XLOC_000001“gyrB“nc_000912.1:2868 - 7340 q1 ' ' ' ' ' '好吧' 1.0913 4.2228 e + e + 05年05年1.9522 - 7.8886 5 e-05 5 e-05 '是的' TCONS_00000002“XLOC_000001“gyrA ' ' nc_000912.1:2868 - 7340 ''q1' 'q2' 'OK' 3.5158e+05 1.1546e+05 -1.6064 -7.3811 5e-05 5e-05 'yes'
您可以使用cuffnorm
生成规范化表达式表以供进一步分析。cuffnorm
当你有很多样本,你想将它们聚类或绘制在你的研究中重要的基因表达水平时,结果是有用的。方法不能执行差异表达式分析cuffnorm
.
指定一个单元格数组,其中每个元素都是字符串向量,包含单个带有复制的样本的文件名。
alignmentFiles = {(“Myco_1_1.sam”,“Myco_1_2.sam”,“Myco_1_3.sam”),...[“Myco_2_1.sam”,“Myco_2_2.sam”,“Myco_2_3.sam”} isoformNorm = cuffnorm(mergedGTF2, alignmentFiles,...“OutputDirectory”,”。/ cuffnormOutput ');
显示包含每个转录本的规范化表达式级别的表。
readtable (isoformNorm“文件类型”,“文本”)
ans = 2×7表tracking_id q1_0 q1_2 q1_1 q2_1 q2_0 q2_2 ________________ __________ __________ __________ __________ __________ __________ ' TCONS_00000001 1.0913 e + 05 78628 1.2132 4.3639 e + e + 05年05年4.2228 4.2814 e + e + 05年05 TCONS_00000002“3.5158 e + 05年3.7458 e + 05年3.4238 1.0483 e + e + 05年05年1.1546 1.1105 e + e + 05年05
以问格式:conditionX_N,表示该列包含用于复制的值N的方便.
输入参数
transcriptsAnnot
- - - - - -成绩单注释文件名称
字符串|特征向量
抄本注释文件的名称,指定为字符串或字符向量。文件可以是由生成的GTF或GFF文件袖扣
,cuffcompare
,或者其他GTF注释的来源。
例子:“gyrAB.gtf”
数据类型:字符
|字符串
alignmentFiles
- - - - - -SAM、BAM或CXB文件的名称
字符串向量|单元阵列
包含每个示例的对齐记录的SAM、BAM或CXB文件的名称,指定为字符串向量或单元格数组。如果使用单元格数组,则每个元素必须是字符串向量或字符向量的单元格数组,为相同示例的每个复制指定对齐文件。
例子:[" Myco_1_1。山姆”、“Myco_2_1.sam”)
数据类型:字符
|字符串
|细胞
选择
- - - - - -cuffnorm
选项
CuffNormOptions
对象|字符串|特征向量
cuffnorm
选项,指定为CuffNormOptions
对象、字符串或字符向量。字符串或字符向量必须在原始文件中cuffnorm
选项语法(以一个或两个破折号作为前缀)[1].
名称-值参数
指定可选参数对为Name1 = Value1,…,以=家
,在那里的名字
参数名称和价值
对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。
在R2021a之前,名称和值之间用逗号隔开,并括起来的名字
在报价。
例子:cuffnorm”(“gyrAB.gtf”,[Myco_1_1。山姆”、“Myco_2_1.sam”),'NumThreads',5)
ExtraCommand
- - - - - -额外的命令
""
(默认)|字符串|特征向量
命令必须采用本机语法(以一个或两个破折号作为前缀)。使用此选项可应用无文档记录的标志和没有相应MATLAB的标志®属性。
例子:“ExtraCommand”、“——库类型fr-secondstrand”
数据类型:字符
|字符串
IncludeAll
- - - - - -标记以应用所有可用选项
假
(默认)|真正的
原始(本机)语法的前缀是一两个破折号。默认情况下,该函数只转换指定的选项。如果值为真正的
,该软件将所有可用选项(未指定选项的默认值)转换为原始语法。
请注意
如果你设置IncludeAll
来真正的
,该软件将转换所有可用的属性,对未指定的属性使用默认值。唯一的例外是属性的默认值为南
,正
,[]
,”
,或""
,则软件不翻译相应的属性。
例子:“IncludeAll”,真的
数据类型:逻辑
标签
- - - - - -标签样本
[]
(默认)|字符串|特征向量|字符串向量|字符向量的单元格数组
样本的标签,指定为字符串、字符向量、字符串向量或字符向量的单元格数组。如果要提供标签,则必须指定与输入样例相同数量的标签。
例子:“标签”,(“mutant1”、“mutant2”)
数据类型:字符
|字符串
|细胞
LibraryNormalizationMethod
- - - - - -方法来规范化库大小
“几何”
(默认)|“classic-fpkm”
|“四分位数”
方法规范化库大小,指定为以下选项之一:
“几何”
-该函数通过所有库中片段计数的中位数几何平均值来缩放FPKM值,如[2].“classic-fpkm”
—该函数对FPKM值和分片计数不进行缩放。“四分位数”
-这个函数根据片段计数和所有库的平均值之间的上四分位数的比值来缩放FPKM值。
例子:“LibraryNormalizationMethod”、“classic-fpkm”
数据类型:字符
|字符串
NormalizeCompatibleHits
- - - - - -标志只使用与参考文本兼容的片段来计算FPKM值
真正的
(默认)|假
标志,以只使用与引用记录兼容的片段来计算FPKM值,指定为真正的
或假
.
例子:“NormalizeCompatibleHits”,假的
数据类型:逻辑
NormalizeTotalHits
- - - - - -标志包含计算FPKM值的所有片段
假
(默认)|真正的
标志包含计算FPKM值的所有片段,指定为真正的
或假
.如果值为真正的
,该函数包含所有片段,包括没有兼容引用的片段。
例子:“NormalizeTotalHits”,真的
数据类型:逻辑
NumThreads
- - - - - -要使用的并行线程数
1
(默认)|正整数
要使用的并行线程数,指定为正整数。线程在单独的处理器或核心上运行。增加线程数量通常会显著改善运行时,但会增加内存占用。
例子:“NumThreads”4
数据类型:双
OutputDirectory
- - - - - -目录,用于存储分析结果
当前目录(“。/”
)(默认)|字符串|特征向量
存储分析结果的目录,指定为字符串或字符向量。
例子:‘OutputDirectory’,”。/ AnalysisResults /”
数据类型:字符
|字符串
OutputFormat
- - - - - -结果文件的格式
“简单的表”
(默认)|“cuffdiff”
结果文件的格式,指定为“简单的表”
或“cuffdiff”
.
“简单的表”
—输出为以tab分隔的表格格式。“cuffdiff”
—输出格式与cuffdiff
.
例子:“OutputFormat”、“cuffdiff”
数据类型:字符
|字符串
种子
- - - - - -随机数生成器的种子
0
(默认)|非负整数
随机数生成器的种子,指定为非负整数。设置种子值可以确保分析结果的可重复性。
例子:“种子”,10
数据类型:双
输出参数
同种型
-包含isoform的规范化表达级别的文件名
”。/ isoforms.fpkm_table”
包含每个isoform的规范化表达式级别的文件名,以字符串形式返回。
的定义的目录信息OutputDirectory
.默认是当前目录。如果你设置OutputDirectory
来“/地方/ tmp /”
,输出变为“/地方/ tmp / isoforms.fpkm_table”
.
基因
-包含基因规范化表达水平的文件名称
”。/ genes.fpkm_table”
包含每个基因的规范化表达级别的文件名,以字符串形式返回。
的定义的目录信息OutputDirectory
.默认是当前目录。如果你设置OutputDirectory
来“/地方/ tmp /”
,输出变为“/地方/ tmp / genes.fpkm_table”
.
tss
-包含成绩单起始站点规范化表达级别的文件名称
”。/ tss_groups.fpkm_table”
包含每个抄本起始站点(TSS)的规范化表达式级别的文件名,以字符串形式返回。
的定义的目录信息OutputDirectory
.默认是当前目录。如果你设置OutputDirectory
来“/地方/ tmp /”
,输出变为“/地方/ tmp / tss_groups.fpkm_table”
.
cd
-包含编码序列的规范化表达式级别的文件名
”。/ cds.fpkm_table”
包含每个编码序列的规范化表达式级别的文件名,以字符串形式返回。
的定义的目录信息OutputDirectory
.默认是当前目录。如果你设置OutputDirectory
来“/地方/ tmp /”
,输出变为“/地方/ tmp / cds.fpkm_table”
.
参考文献
[1]特拉普内尔,科尔,布莱恩A威廉姆斯,Geo Pertea, Ali Mortazavi,戈登关,Marijke J van Baren,史蒂文L萨尔茨伯格,芭芭拉J Wold和Lior Pachter。RNA-Seq转录本组装和量化揭示了细胞分化过程中无注释转录本和亚型转换。自然生物技术28日,没有。5(2010年5月):511-15。
版本历史
介绍了R2019a
MATLAB命令
你点击了一个对应于这个MATLAB命令的链接:
在MATLAB命令窗口中输入命令来运行该命令。Web浏览器不支持MATLAB命令。万博1manbetx
您也可以从以下列表中选择网站:
如何获得最佳的网站性能
选择中国网站(中文或英文)以获得最佳的网站表现。其他MathWorks国家网站没有针对从您的位置访问进行优化。