主要内容

对准序列对

这个例子展示了如何从GenBank®中提取一些序列,找到开放阅读帧(orf),然后使用全局和局部对齐算法对序列进行对齐。

从MATLAB®工作空间访问NCBI数据

NCBI网站上许多引人入胜的部分之一是基因和疾病科.本节全面介绍医学遗传学。

在这个例子中,你将看到与家族黑蒙性白痴病.Tay-Sachs是一种常染色体隐性遗传疾病,由15号染色体上一个基因(HEXA,编码己糖氨基酶a的α亚单位)的两个等位基因突变引起。

HEXA的NCBI参考序列有登录号NM_000520.您可以使用getgenbank函数从NCBI数据存储库检索序列信息并将其加载到MATLAB®。

humanHEXA = getgenbank(“NM_000520”);

通过BLAST搜索或者在老鼠基因组中搜索,你可以找到一个正交基因,AK080777为小鼠己糖胺酶a基因的登录号。

鼠标hexa = getgenbank(“AK080777”);

为方便起见,以前下载的序列包含在mat文件中。注意,公共存储库中的数据经常被管理和更新;因此,当您使用最新的数据集时,本例的结果可能略有不同。

负载(“hexosaminidase.mat”“humanHEXA”“mouseHEXA”

探索开放阅读框架(orf)

你可以使用这个函数seqshoworfs在人类HEXA基因序列中寻找orf。请注意,最长的ORF位于第一个读取帧上。变量中的输出值humanORFs是一个结构,给出了每个读取帧上所有orf的开始和停止密码子的位置。

humanORFs = seqshoworfs(humanHEXA.Sequence)

{

humanORFs =1×3包含字段的struct数组:开始停止

现在看看小鼠HEXA基因中的orf。在这种情况下,ORF也在第一帧上。

mouseORFs = seqshoworfs(mouseHEXA.Sequence)

{

mouseORFs =1×3包含字段的struct数组:开始停止

排列序列

第一步是使用全局序列比对来寻找这些序列之间的相似性。你可以看看核苷酸序列之间的排列,但通常更有指导意义的是看看蛋白质序列之间的排列,在这个例子中,我们知道这些序列是编码序列。使用nt2aa将核苷酸序列转换为相应氨基酸序列的函数。注意,HEXA基因出现在两个序列的第一帧中,否则应该使用input参数框架指定一个可选的编码帧。

humanProtein = nt2aa(humanHEXA.Sequence);mouseProtein = nt2aa(mouseHEXA.Sequence);

寻找序列之间相似性的最简单方法之一是使用点图。

seqdotplot (mouseProtein humanProtein)
警告:匹配矩阵的点比可用屏幕像素多。将图像缩放为X的1倍和Y的2倍。
包含(“人己糖胺酶A”); ylabel (“小鼠己糖胺酶A”);

{

在默认设置下,点阵图有点难以解释,因此您可以尝试稍微严格一点的点阵图。

seqdotplot (mouseProtein humanProtein 4, 3)
警告:匹配矩阵的点比可用屏幕像素多。将图像缩放为X的1倍和Y的2倍。
包含(“人己糖胺酶A”); ylabel (“小鼠己糖胺酶A”);

{

对角线表示可能存在良好的对齐方式,因此现在可以使用该函数查看全局对齐方式nwalign它使用了Needleman-Wunsch算法。

[score, globalalign] = nwalign(humanProtein,mouseProtein)
分数= 634.3333
globalAlignment =3x812字符数组“SCRRPAQSAARSRSLRSRPEVKGQGVGPPGVAGAEPPLVT * FADKSRGRRSPDQGLTWPAPSERGDQRAMTSSRLWFSLLLAAAFAGRATALWPWPQNFQTSDQRYVLYPNNFQFQYDVSSAAQPGCSVLDEAFQRYRDLLFGSGSWPRPYLTGKRHTLEKNVLVVSVVTPGCNQLPTLESVENYTLTINDDQCLLLSETVWGALRGLETFSQLVWKSAEGTFFINKTEIEDFPRFPHRGLLLDTSRHYLPLSSILDTLDVMAYNKLNVFHWHLVDDPSFPYESFTFPELMRKGSYNPVTHIYTAQDVKEVIEYARLRGIRVLAEFDTPGHTLSWGPGIPGLLTPCYSGSEPSGTFGPVNPSLNNTYEFMSTFFLEVSSVFPDFYLHLGGDEVDFTCWKSNPEIQDFMRKKGFGEDFKQLESFYIQTLLDIVSSYGKGYVVWQEVFDNKVKIQPDTIIQVWREDIPVNYMKELELVTKAGFRALLSAPWYLNRISYGPDwkdfyiveplafegtpeqkalviggeacmwgeyvdntnlvprlwpragavaerlwsnkltltfayerlshfrcellrrgvqaqplnvgfceqefeqt * apgteegagcr * mvvepgfhcilargrsplpscplpacpcawrergrcwrshsiksnvaffynkhglpvfkkksvngvrvraqpgwsqclplrsfklragnetyslcavlpcl * amslpshs * pysrhlp * ssacslhfciisprrwymekdvgawrcsgqwgglqtqpghrrasppcilihlpplelfsfgflaasilynhylniikhilfs ' ' || |: || || | ||::||| |||||||:| ||||||||| :|| :||:||||||||:| |||||| || ||||||:|||:||||||||||| :::|::|| ||:||||||| ||::|:|||||||||||||||||| |||||||||||||||||||||||||||||||:|:|||||||||:|||||||||||||||||||||||||:|||||||||| |||||||||||| ||||:|||||||||||||||||||||||||||||||||||||||||| |||||||||||: ||||||||||||:||:||||:|||:|||||||||||||||||||||||||:|| ||:|||| ||||||||||||||||||:| |||||||||||||||::||||||||||::||:|| |:: :|:|||||||||||||||::|||||||:| ||||||:||||||||||||||||||||||:||||||||||||||||||||::||:::||::|||||||||:|||:||||::|| |||||||||| | :| : :|| | | || |: :: | | :: | : :| : | :| : : | ::: | | |::| : | | | :| ||::|| | |: | | | :: |:|””——AA ------------ GR - G - G r - W ---------- AMAGCRLWVSLLLAAALACLATALWPWPQYIQTYHRRYTLYPNNFQFRYHVSSAAQAGCVVLDEAFRRYRNLLFGSGSWPRPSFSNKQQTLGKNILVVSVVTAECNEFPNLESVENYTLTINDDQCLLASETVWGALRGLETFSQLVWKSAEGTFFINKTKIKDFPRFPHRGVLLDTSRHYLPLSSILDTLDVMAYNKFNVFHWHLVDDSSFPYESFTFPELTRKGSFNPVTHIYTAQDVKEVIEYARLRGIRVLAEFDTPGHTLSWGPGAPGLLTPCYSGSHLSGTFGPVNPSLNSTYDFMSTLFLEISSVFPDFYLHLGGDEVDFTCWKSNPNIQAFMKKKGF-TDFKQLESFYIQTLLDIVSDYDKGYVVWQEVFDNKVKVRPDTIIQVWREEMPVEYMLEMQDITRAGFRALLSAPWYLNRVKYGPDWKDMYKVEPLAFHGTPEQKALVIGGEACMWGEYVDSTNLVPRLWPRAGAVAERLWSSNLTTNIDFAFKRLSHFRCELVRRGIQAQPISVGCCEQEFEQT *——T - SA - E -高压天然气- G - C - CP - L-SQ-LR - * - P - RR-V——LALR-E Q-VP——G-Q G - *平米——A-SRPGES T - P - CP - C - APVT——TEKEAGA GT——问——问——* R ----------------------- S-MW-HF——L '

使用半全局对齐进行精炼

除末端段外,对中效果很好。例如,请注意第一个位置上的稀疏匹配对。这是因为全局对齐试图将匹配一直强制到结束,并且在某个点上打开新间隙的惩罚与匹配残差的分数相当。在某些情况下,可取的做法是删除在全局对齐结束时添加的间隙惩罚;这允许您更好地匹配这对序列。这种技术通常被称为“半全局”对齐或“全球局部”对齐。

[score, globalalign] = nwalign(humanProtein,mouseProtein,“全球本土化”,真正的)
得分= 1.0413e+03
globalAlignment =3x825字符数组“SCRRPAQSAARSRSLRSRPEVKGQGVGPPGVAGAEPPLVT * FADKSRGRRSPDQGLTWPAPSERGDQR-AMTSSRLWFSLLLAAAFAGRATALWPWPQNFQTSDQRYVLYPNNFQFQYDVSSAAQPGCSVLDEAFQRYRDLLFGSGSWPRPYLTGKRHTLEKNVLVVSVVTPGCNQLPTLESVENYTLTINDDQCLLLSETVWGALRGLETFSQLVWKSAEGTFFINKTEIEDFPRFPHRGLLLDTSRHYLPLSSILDTLDVMAYNKLNVFHWHLVDDPSFPYESFTFPELMRKGSYNPVTHIYTAQDVKEVIEYARLRGIRVLAEFDTPGHTLSWGPGIPGLLTPCYSGSEPSGTFGPVNPSLNNTYEFMSTFFLEVSSVFPDFYLHLGGDEVDFTCWKSNPEIQDFMRKKGFGEDFKQLESFYIQTLLDIVSSYGKGYVVWQEVFDNKVKIQPDTIIQVWREDIPVNYMKELELVTKAGFRALLSAPWYLNRISYGPdwkdfyiveplafegtpeqkalviggeacmwgeyvdntnlvprlwpragavaerlwsnkltltfayerlshfrcellrrgvqaqplnvgfceqefeqt * apgteegagcr * mv-vepgfhcila-r ---- gr——splpscp-lpa-cpca-wrergrcwrshsik-snvaffynkhglpvfkkksvngvrvraqpgwsqclplrsfklragnetyslcavlpcl * amslpshs * pysrhlp * ssacslhfciisprrwymekdvgawrcsgqwgglqtqpghrrasppcilihlpplelfsfgflaasilynhylniikhilfs ' ': || | ||::||| |||||||:| ||||||||| :|| :||:||||||||:| |||||| || ||||||:|||:||||||||||| :::|::|| ||:||||||| ||::|:|||||||||||||||||| |||||||||||||||||||||||||||||||:|:|||||||||:|||||||||||||||||||||||||:|||||||||| |||||||||||| ||||:|||||||||||||||||||||||||||||||||||||||||| |||||||||||: ||||||||||||:||:||||:|||:|||||||||||||||||||||||||:|| ||:|||| ||||||||||||||||||:| |||||||||||||||::||||||||||::||:|| |:: :|:|||||||||||||||::|||||||:| ||||||:||||||||||||||||||||||:||||||||||||||||||||::||:::||::|||||||||:|||:||||::|| |||||||||| ::|: :|| : :: : : :|| | |: | | | : |||| : : : ::: ::|”'------------------------------------------------------------ AAGRGAGRWAMAGCRLWVSLLLAAALACLATALWPWPQYIQTYHRRYTLYPNNFQFRYHVSSAAQAGCVVLDEAFRRYRNLLFGSGSWPRPSFSNKQQTLGKNILVVSVVTAECNEFPNLESVENYTLTINDDQCLLASETVWGALRGLETFSQLVWKSAEGTFFINKTKIKDFPRFPHRGVLLDTSRHYLPLSSILDTLDVMAYNKFNVFHWHLVDDSSFPYESFTFPELTRKGSFNPVTHIYTAQDVKEVIEYARLRGIRVLAEFDTPGHTLSWGPGAPGLLTPCYSGSHLSGTFGPVNPSLNSTYDFMSTLFLEISSVFPDFYLHLGGDEVDFTCWKSNPNIQAFMKKKGF-TDFKQLESFYIQTLLDIVSDYDKGYVVWQEVFDNKVKVRPDTIIQVWREEMPVEYMLEMQDITRAGFRALLSAPWYLNRVKYGPDWKDMYKVEPLAFHGTPEQKALVIGGEACMWGEYVDSTNLVPRLWPRAGAVAERLWSSNLTTNIDFAFKRLSHFRCELVRRGIQAQPISVGCCEQEFEQT * ATSAEHPGGCCPLSQLR * APRRVLALREQVPGQG * SFTASRPGESTPCPCAPVTTEKEAGAGTGVQ * RSMWHFL -------------------------------------------------------------------------------------------------------------------------------------------------------'

通过提取蛋白质序列来优化排列

另一种改进排列的方法是只使用蛋白质序列。请注意,序列中的对齐区域由起始(m -蛋氨酸)和终止(*)氨基酸分隔。如果序列被缩短,只考虑已翻译的区域,那么您可能会得到更好的对齐。使用找到命令查找每个序列中起始氨基酸的索引:

humanStart = find(humanProtein ==“米”, 1)
humanStart = 70
mouseStart = find(mouseProtein ==“米”, 1)
mouseStart = 11

类似地,使用找到命令查找转换开始后出现的第一个停止的索引。需要特别注意的是,在开头也有一个停顿humanProtein序列。

humanStop = find(humanProtein(humanStart:end)==‘*’,1) + humanStart - 1
humanStop = 599
mouseStop = find(mouseProtein(mouseStart:end)==‘*’,1) + mouseStart - 1
mouseStop = 539

使用这些索引截断序列。

humanSeq = humanProtein(humanStart:humanStop);humanseqformatting = seqdisp(humanSeq)
humanSeqFormatted =9x70字符数组'1 MTSSRLWFSL llaaafagra talwpwpqnf qtsdqryvly pnnfqfqydv ssaaqpgcsv ' ' 61 ldeafqryrd LLFGSGSWPR pyltgkrhtl eknvlvvsvv TPGCNQLPTL esvenytlti ' '121 nddqclllse tvwgalrgle tfsqlvwwksa egtffinkte iedfprfphr gllldtsrhy ' '181 lplssildtl dvmaynklnv FHWHLVDDPS fpyesftfpe lmrkgsynpv thiytaqdvk ' ' '241 evieyarlrg irvlaefdtp ghtlswgpgi pglltpcysg sepsgtfgpv npslnntyef ' '301 mstfflevss vfpdfylhlg gdevdftcwk snpeiqdfmr kkgfgedfkq lesfyiqtll ' '361 divssygkwqevfdnk vkiqpdtiiq vwredipvny mkelelvtkaGfrallsapw ' '421 ylnrisygpd wkdfivepl afegtpeqka lviggeacmw geyvdntnlv prlwpragav ' '481 aerlwsnklt sdltfayerl shfrcellrr gvqaqplnvg fceqefeqt * '
mouseSeq = mouseProtein(mouseStart:mouseStop);mouseseqformatting = seqdisp(mouseSeq)
mouseSeqFormatted =9x70字符数组'1 magcrlwvsl llaaalacla talwpwpqyi qtyhrrytly pnnfqfryhv ssaaqagcvv ' ' 61 ldeafrryrn LLFGSGSWPR PSFSNKQQTL gknilvvsvv taecnefpnl esvenytlti ' '121 nddqcllase tvwgalrgle tfsqlvwwksa egtffinktk ikdfprfphr gvlldtsrhy ' '181 lplssildtl dvmaynkffnnv FHWHLVDDSS fpyesftfpe LTRKGSFNPV thiytaqdvk ' ' '241 evieyarlrg irvlaefdtp ghtlswgpga pglltpcysg SHLSGTFGPV npslnstydf ' ' '301 mstlfleiss vfpddfylhlg gdevdftcwk snpniqafmk KKGFTDFKQL esfyiqtlld ' '361 ivsdydkgyv vwqevfdnkv kvrpdtiiqv wreempveym lemqditragFrallsapwy ' '421 lnrvkygpdw kdmykvepla fhgtpeqkal viggeacmwg eyvdstnlvp rlwpragava ' '481 erlwssnltt nidfafkrls hfrcelvrrg iqaqpisvgc ceqefeqt ' '

对齐这两个序列。

[score, alignment] = nwalign(humanSeq,mouseSeq)
得分= 1.0423e+03
对齐=3x530字符数组“MTSSRLWFSLLLAAAFAGRATALWPWPQNFQTSDQRYVLYPNNFQFQYDVSSAAQPGCSVLDEAFQRYRDLLFGSGSWPRPYLTGKRHTLEKNVLVVSVVTPGCNQLPTLESVENYTLTINDDQCLLLSETVWGALRGLETFSQLVWKSAEGTFFINKTEIEDFPRFPHRGLLLDTSRHYLPLSSILDTLDVMAYNKLNVFHWHLVDDPSFPYESFTFPELMRKGSYNPVTHIYTAQDVKEVIEYARLRGIRVLAEFDTPGHTLSWGPGIPGLLTPCYSGSEPSGTFGPVNPSLNNTYEFMSTFFLEVSSVFPDFYLHLGGDEVDFTCWKSNPEIQDFMRKKGFGEDFKQLESFYIQTLLDIVSSYGKGYVVWQEVFDNKVKIQPDTIIQVWREDIPVNYMKELELVTKAGFRALLSAPWYLNRISYGPDWKDFYIVEPLAFEGTPEQKALVIGGEACMWGEYVDNTNLVPRLWPRAGAVAERLWSNKLTSDLTFAYERLSHFRCELLRRGVQAQPLNVGFCEQEFEQT *' '|:: ||| |||||||:| ||||||||| :|| :||:||||||||:| |||||| || ||||||:|||:||||||||||| :::|::|| ||:||||||| ||::|:|||||||||||||||||| |||||||||||||||||||||||||||||||:|:|||||||||:|||||||||||||||||||||||||:|||||||||| |||||||||||| ||||:|||||||||||||||||||||||||||||||||||||||||| |||||||||||: ||||||||||||:||:||||:|||:|||||||||||||||||||||||||:|| ||:|||| ||||||||||||||||||:| |||||||||||||||::||||||||||::||:|| |:::|:|||||||||||||||::|||||||:| ||||||:||||||||||||||||||||||:||||||||||||||||||||::||:::||::|||||||||:|||:||||::|| |||||||||'“MAGCRLWVSLLLAAALACLATALWPWPQYIQTYHRRYTLYPNNFQFRYHVSSAAQAGCVVLDEAFRRYRNLLFGSGSWPRPSFSNKQQTLGKNILVVSVVTAECNEFPNLESVENYTLTINDDQCLLASETVWGALRGLETFSQLVWKSAEGTFFINKTKIKDFPRFPHRGVLLDTSRHYLPLSSILDTLDVMAYNKFNVFHWHLVDDSSFPYESFTFPELTRKGSFNPVTHIYTAQDVKEVIEYARLRGIRVLAEFDTPGHTLSWGPGAPGLLTPCYSGSHLSGTFGPVNPSLNSTYDFMSTLFLEISSVFPDFYLHLGGDEVDFTCWKSNPNIQAFMKKKGF-TDFKQLESFYIQTLLDIVSDYDKGYVVWQEVFDNKVKVRPDTIIQVWREEMPVEYMLEMQDITRAGFRALLSAPWYLNRVKYGPDWKDMYKVEPLAFHGTPEQKALVIGGEACMWGEYVDSTNLVPRLWPRAGAVAERLWSSNLTTNIDFAFKRLSHFRCELVRRGIQAQPISVGCCEQEFEQT *’

打开阅读框的信息也可从输出中获得seqshoworfs命令,但索引是基于核苷酸序列的。使用这些指标来修剪原始的核苷酸序列,然后将它们翻译成氨基酸。

humanPORF = nt2aa(humanHEXA.Sequence(humanORFs(1).Start(1):humanORFs(1).Stop(1)));mousePORF = nt2aa(mouseHEXA.Sequence(mouseORFs(1).Start(1):mouseORFs(1).Stop(1)));[score, ORFAlignment] = nwalign(humanPORF,mousePORF)
分数= 1042
ORFAlignment =3x529字符数组“MTSSRLWFSLLLAAAFAGRATALWPWPQNFQTSDQRYVLYPNNFQFQYDVSSAAQPGCSVLDEAFQRYRDLLFGSGSWPRPYLTGKRHTLEKNVLVVSVVTPGCNQLPTLESVENYTLTINDDQCLLLSETVWGALRGLETFSQLVWKSAEGTFFINKTEIEDFPRFPHRGLLLDTSRHYLPLSSILDTLDVMAYNKLNVFHWHLVDDPSFPYESFTFPELMRKGSYNPVTHIYTAQDVKEVIEYARLRGIRVLAEFDTPGHTLSWGPGIPGLLTPCYSGSEPSGTFGPVNPSLNNTYEFMSTFFLEVSSVFPDFYLHLGGDEVDFTCWKSNPEIQDFMRKKGFGEDFKQLESFYIQTLLDIVSSYGKGYVVWQEVFDNKVKIQPDTIIQVWREDIPVNYMKELELVTKAGFRALLSAPWYLNRISYGPDWKDFYIVEPLAFEGTPEQKALVIGGEACMWGEYVDNTNLVPRLWPRAGAVAERLWSNKLTSDLTFAYERLSHFRCELLRRGVQAQPLNVGFCEQEFEQT ' '|:: ||| |||||||:| ||||||||| :|| :||:||||||||:| |||||| || ||||||:|||:||||||||||| :::|::|| ||:||||||| ||::|:|||||||||||||||||| |||||||||||||||||||||||||||||||:|:|||||||||:|||||||||||||||||||||||||:|||||||||| |||||||||||| ||||:|||||||||||||||||||||||||||||||||||||||||| |||||||||||: ||||||||||||:||:||||:|||:|||||||||||||||||||||||||:|| ||:|||| ||||||||||||||||||:| |||||||||||||||::||||||||||::||:|| |:::|:|||||||||||||||::|||||||:| ||||||:||||||||||||||||||||||:||||||||||||||||||||::||:::||::|||||||||:|||:||||::|| ||||||||'“MAGCRLWVSLLLAAALACLATALWPWPQYIQTYHRRYTLYPNNFQFRYHVSSAAQAGCVVLDEAFRRYRNLLFGSGSWPRPSFSNKQQTLGKNILVVSVVTAECNEFPNLESVENYTLTINDDQCLLASETVWGALRGLETFSQLVWKSAEGTFFINKTKIKDFPRFPHRGVLLDTSRHYLPLSSILDTLDVMAYNKFNVFHWHLVDDSSFPYESFTFPELTRKGSFNPVTHIYTAQDVKEVIEYARLRGIRVLAEFDTPGHTLSWGPGAPGLLTPCYSGSHLSGTFGPVNPSLNSTYDFMSTLFLEISSVFPDFYLHLGGDEVDFTCWKSNPNIQAFMKKKGF-TDFKQLESFYIQTLLDIVSDYDKGYVVWQEVFDNKVKVRPDTIIQVWREEMPVEYMLEMQDITRAGFRALLSAPWYLNRVKYGPDWKDMYKVEPLAFHGTPEQKALVIGGEACMWGEYVDSTNLVPRLWPRAGAVAERLWSSNLTTNIDFAFKRLSHFRCELVRRGIQAQPISVGCCEQEFEQT”

或者,您可以使用来自GenBank数据结构的编码区信息(CDS)来查找基因的编码区。

idx = humanHEXA.CDS.indices;humanCodingRegion = humanHEXA.Sequence(idx(1):idx(2));idx = mouseHEXA.CDS.indices;mouseCodingRegion = mouseHEXA.Sequence(idx(1):idx(2));

你也可以从这个结构中得到编码区域的转换。

humanTranslatedRegion = humanHEXA.CDS.translation;mouseTranslatedRegion = mouseHEXA.CDS.translation;

局部比对

与其截断序列以寻找更好的对齐,另一种方法是使用局部对齐。这个函数swalign使用Smith-Waterman算法进行局部对齐。这表明整个编码区都有很好的排列,在基因两端之外的一些残基也有合理的相似性。

[score, localalign] = swalign(humanProtein,mouseProtein)
得分= 1057
localAlignment =3x547字符数组“RGDQR-AMTSSRLWFSLLLAAAFAGRATALWPWPQNFQTSDQRYVLYPNNFQFQYDVSSAAQPGCSVLDEAFQRYRDLLFGSGSWPRPYLTGKRHTLEKNVLVVSVVTPGCNQLPTLESVENYTLTINDDQCLLLSETVWGALRGLETFSQLVWKSAEGTFFINKTEIEDFPRFPHRGLLLDTSRHYLPLSSILDTLDVMAYNKLNVFHWHLVDDPSFPYESFTFPELMRKGSYNPVTHIYTAQDVKEVIEYARLRGIRVLAEFDTPGHTLSWGPGIPGLLTPCYSGSEPSGTFGPVNPSLNNTYEFMSTFFLEVSSVFPDFYLHLGGDEVDFTCWKSNPEIQDFMRKKGFGEDFKQLESFYIQTLLDIVSSYGKGYVVWQEVFDNKVKIQPDTIIQVWREDIPVNYMKELELVTKAGFRALLSAPWYLNRISYGPDWKDFYIVEPLAFEGTPEQKALVIGGEACMWGEYVDNTNLVPRLWPRAGAVAERLWSNKLTSDLTFAYERLSHFRCELLRRGVQAQPLNVGFCEQEFEQT * APGTEEGAGC ' '|| | ||:: ||| |||||||:| ||||||||| :|| :||:||||||||:| |||||| || ||||||:|||:||||||||||| :::|::|| ||:||||||| ||::|:|||||||||||||||||| |||||||||||||||||||||||||||||||:|:|||||||||:|||||||||||||||||||||||||:|||||||||| |||||||||||| ||||:|||||||||||||||||||||||||||||||||||||||||| |||||||||||: ||||||||||||:||:||||:|||:|||||||||||||||||||||||||:|| ||:|||| ||||||||||||||||||:| |||||||||||||||::||||||||||::||:|| |:::|:|||||||||||||||::|||||||:| ||||||:||||||||||||||||||||||:||||||||||||||||||||::||::: ||::|||||||||:|||:||||::|| |||||||||| ::|:: | |”“RGAGRWAMAGCRLWVSLLLAAALACLATALWPWPQYIQTYHRRYTLYPNNFQFRYHVSSAAQAGCVVLDEAFRRYRNLLFGSGSWPRPSFSNKQQTLGKNILVVSVVTAECNEFPNLESVENYTLTINDDQCLLASETVWGALRGLETFSQLVWKSAEGTFFINKTKIKDFPRFPHRGVLLDTSRHYLPLSSILDTLDVMAYNKFNVFHWHLVDDSSFPYESFTFPELTRKGSFNPVTHIYTAQDVKEVIEYARLRGIRVLAEFDTPGHTLSWGPGAPGLLTPCYSGSHLSGTFGPVNPSLNSTYDFMSTLFLEISSVFPDFYLHLGGDEVDFTCWKSNPNIQAFMKKKGF-TDFKQLESFYIQTLLDIVSDYDKGYVVWQEVFDNKVKVRPDTIIQVWREEMPVEYMLEMQDITRAGFRALLSAPWYLNRVKYGPDWKDMYKVEPLAFHGTPEQKALVIGGEACMWGEYVDSTNLVPRLWPRAGAVAERLWSSNLTTNIDFAFKRLSHFRCELVRRGIQAQPISVGCCEQEFEQT * ATSAEHPGGC’

互补DNA序列的比对

MATLAB中提供的所有序列比对函数都可以定制。例如,通过修改评分矩阵的行和列,您可以根据补码而不是单位来排列序列。在这种情况下,可以重新排序NUC44得分矩阵;补语得分为正,其他补语得分为负。来自小鼠HEXA基因的前30个核苷酸将与它的补体对齐。

[M, info] = nuc44;map = nt2int(seqcomplement(info.Order))
地图=1x15 uint8行向量4 3 2 1 6 5 8 7 9 10 14 13 12 11 15
Mc = M(:,map)
Mc =15×154 4 4 5 4 1 1 4 4 1 1 1 1 4 2 4 5 1 4 1 4 1 1 1 1 2 4 5 4 4 4 1 1 1 4 1 1 1 2 5 4 4 4 1 4 4 1 4 1 1 1 1 2 4 1 4 1 1 2 2 2 2 1 3 1 1 1 4 1 4 1 4 2 2 2 2 3 3 1 1 1 1 4 4 2 2 4 1 2 2 3 3 1 1 1 4 4 1 1 2 2 1 4 2 2 1 1 3 3 1 4 1 1 4 2 2 2 2 1 4 1 3 3 1 1 1 4 4 1 2 2 2 2 4 1 3 1 1 3 1⋮
[score, compAlignment] = nwalign(mouseHEXA.Sequence(1:30),...seqcomplement (mouseHEXA.Sequence (1:30)),“SCORINGMATRIX”...Mc,“字母”“NT”
得分= 150
compAlignment =3x30字符数组“GCTGCTGGAAGGGGAGCTGGCCGGTGGGCC ' '::::::::::::::::::::::::::::::' ' CGACGACCTTCCCCTCGACCGGCCACCCGG”
关闭所有