主要内容

swalign

使用Smith-Waterman算法局部对齐两个序列

语法

分数= swalign (Seq1Seq2
分数,对齐= swaign (Seq1Seq2
得分,对齐,开始= swaign (Seq1Seq2
...= swalign (Seq1Seq2……“字母”,AlphabetValue
...= swalign (Seq1Seq2……“ScoringMatrix”,ScoringMatrixValue,……)
...= swalign (Seq1Seq2,“规模”,ScaleValue,……)
...= swalign (Seq1Seq2……“GapOpen”,GapOpenValue,……)
...= swalign (Seq1Seq2……“ExtendGap”,ExtendGapValue,……)
...= swalign (Seq1Seq2……“Showscore”,ShowscoreValue,……)

输入参数

Seq1Seq2

氨基酸或核苷酸序列。输入以下任意一项:

  • 表示氨基酸或核苷酸的字符向量或字符串,如由返回int2aaint2nt

  • 表示氨基酸或核苷酸的整数向量,如由返回的aa2intnt2int

  • 结构,该结构包含序列

提示

有关氨基酸和核苷酸的字母和整数表示的帮助,请参见氨基酸查找核苷酸查找

AlphabetValue 指定序列类型的字符向量或字符串。的选择是“AA”(默认)或“NT”
ScoringMatrixValue

下列任何一项:

  • 字符向量或字符串,指定用于局部对齐的计分矩阵。氨基酸序列选择如下:

    • “BLOSUM62”

    • “BLOSUM30”增加了5“BLOSUM90”

    • “BLOSUM100”

    • “PAM10”增加了10“PAM500”

    • “DAYHOFF”

    • “GONNET”

    默认是:

    • “BLOSUM50”——当AlphabetValue=“AA”

    • “NUC44”——当AlphabetValue=“NT”

    请注意

    软件提供的上述评分矩阵还包括一个包含比例因子的结构,该比例因子将输出评分单位转换为比特。你也可以使用“规模”属性指定一个附加比例因子,以将输出分数从位转换为另一个单位。

  • 方法返回的,表示用于局部对齐的评分矩阵blosum帕姆dayhoffgonnet,或nuc44函数。

    请注意

    如果您使用您创建的或由上述函数之一创建的评分矩阵,则该矩阵不包括比例因子。输出分数将以与评分矩阵相同的单位返回。您可以使用“规模”属性指定一个比例因子,以将输出分数转换为另一个单位。

请注意

如果需要编译swalign独立应用程序或软件组件使用MATLAB®编译器™,使用矩阵代替字符向量或字符串ScoringMatrixValue

ScaleValue

值,该值指定应用于输出分数的比例因子。

例如,如果输出分数最初以比特为单位确定,那么您输入日志(2)ScaleValue,然后swalign返回分数nats。

默认是1,它不会改变输出分数的单位。

请注意

如果“ScoringMatrix”属性还指定缩放因子,则swalign首先使用它缩放输出分数,然后应用指定的缩放因子ScaleValue重新调整输出分数。

提示

在比较来自多个对齐的对齐分数之前,确保分数在相同的单位中。您可以使用“规模”属性来控制输出分数的单位。

GapOpenValue

正数值,指定在对齐中打开间隙的惩罚。默认是8

ExtendGapValue

指定使用仿射间隔惩罚方案延长间隔的惩罚的正值。

请注意

如果指定这个值,swalign采用仿射间隔罚方案,即在第一个间隔处使用GapOpenValue并得分后续的差距使用ExtendGapValue.如果不指定此值,swalign等分所有差距,使用GapOpenValue点球。

ShowscoreValue 控制得分空间的显示和对齐的获胜路径。的选择是真正的(默认)。

输出参数

分数 以位为单位的最佳本地对齐分数。
对齐 显示两个序列的3 × n字符数组,Seq1而且Seq2,在第一行和第三行中,以及在第二行中表示它们之间的最佳局部对齐的符号。
开始 2乘1的索引向量,表示每个序列的对齐起点。

描述

分数= swalign (Seq1Seq2返回以位为单位的最优本地对齐分数。用于计算分数的比例因子由评分矩阵提供。

分数,对齐= swaign (Seq1Seq2返回一个3 × n字符数组,显示这两个序列,Seq1而且Seq2,在第一行和第三行中,以及在第二行中表示它们之间的最佳局部对齐的符号。符号|表示完全匹配的氨基酸或核苷酸。符号表示由评分矩阵定义的相关氨基酸或核苷酸(评分矩阵值为零或正的不匹配项)。

得分,对齐,开始= swaign (Seq1Seq2返回一个2乘1的索引向量,指示对齐的每个序列中的起始点。

...= swalign (Seq1Seq2,……”PropertyName”,PropertyValue,……)调用swalign可选属性使用属性名/属性值对。您可以以任意顺序指定一个或多个属性。每一个PropertyName必须用单引号括起来,不区分大小写。这些属性名/属性值对如下所示:

...= swalign (Seq1Seq2……“字母”,AlphabetValue指定序列的类型。的选择是“AA”(默认)或“NT”

...= swalign (Seq1Seq2……“ScoringMatrix”,ScoringMatrixValue,……)指定用于局部对齐的评分矩阵。默认是:

  • “BLOSUM50”——当AlphabetValue=“AA”

  • “NUC44”——当AlphabetValue=“NT”

...= swalign (Seq1Seq2,“规模”,ScaleValue,……)指定应用于输出分数的比例因子,从而控制输出分数的单位。选择是任何正的值。

...= swalign (Seq1Seq2……“GapOpen”,GapOpenValue,……)指定在对齐中打开间隙的惩罚值。选择是任何正的值。默认是8

...= swalign (Seq1Seq2……“ExtendGap”,ExtendGapValue,……)指定使用仿射间隔惩罚方案扩展间隔的惩罚。选择是任何正的值。

...= swalign (Seq1Seq2……“Showscore”,ShowscoreValue,……)控制得分空间的显示和对齐的获胜路径。的选择是真正的(默认)。

得分空间是一个热图,显示两个序列的所有部分对齐的最佳得分。每种颜色(n1、n2)的坐标表示子序列配对的最佳分数Seq1 (s1: n1)而且Seq2 (s2: n2),在那里n1是一个职位Seq1n2是一个职位Seq2s1是否有任何职位Seq1之间的1: n1,s2是否有任何职位Seq2之间的1:氮气.特定子序列配对的最佳分数是通过对匹配和间隔惩罚的总和对子序列的所有可能对齐进行评分来确定的。

获胜路径由得分空间中的黑点表示,它说明了最佳局部对齐中的位置配对。获胜路径的最后一个点(右下)的颜色表示两个序列的最优局部对齐得分,为分数返回的输出swalign

请注意

评分空间直观地显示串联重复,可能对齐的小片段,以及来自重排序列的部分区域对齐。

例子

  1. 局部排列两个氨基酸序列使用BLOSUM50(默认)评分矩阵和默认值为GapOpen而且ExtendGap属性。返回以位为单位的最优局部对齐分数和对齐字符数组。

    [分数,对齐]= swalign(“VSPAGMASGYD”“IPGKASYD”)得分= 8.6667对齐= PAGMASGYD || || || P-GKAS-YD
  2. 局部排列两个氨基酸序列,指定PAM250得分矩阵和罚球差距开了5

    [分数,对齐]= swalign(“HEAGAWGHEE”“PAWHEAE”...“ScoringMatrix”“pam250”...“GapOpen”,5)得分= 8对齐= GAWGHE:|| || PAW-HE

  3. 局部排列两个氨基酸序列,返回分数在NAT单位(nats)中指定缩放因子日志(2)

    [分数,对齐]= swalign(“HEAGAWGHEE”“PAWHEAE”“规模”,log(2))评分= 6.4694对齐= AWGHE || || AW-HE

参考文献

[1] Durbin, R., Eddy, S., Krogh, A.和Mitchison, G.(1998)。生物序列分析(剑桥大学出版社)。

[2]史密斯,T.和沃特曼,M.(1981)。共同分子子序列的鉴定。分子生物学杂志147, 195 - 197。

版本历史

R2006a之前介绍