BioMap类

超:BioRead

包含序列,质量,对准和映射数据

描述

BioMap类从短读序列,包括序列标头,读序列,质量评分为序列,以及有关如何每个序列对准到给定的基准数据包含数据。这个数据通常是由高通量测序仪获得。

构造一个BioMap对象从短读取的序列数据。对象中的每个元素都有一个序列、标题、质量分数和与之关联的对齐/映射信息。在分析或查看数据之前,使用对象属性和方法探索、访问、筛选和操作所有或部分数据。

施工

BioMapobj= BioMap结构体BioMapobj,这是一个空BioMap对象。

BioMapobj= BioMap (文件结构体BioMapobj, 一个BioMap对象,从文件中,SAM-或BAM格式的文​​件,其中的读出是通过在参考序列的开始位置排序。该数据仍然在源文件中,以及BioMap它使用一个或两个辅助索引文件对象访问。对于SAM格式的文​​件,MATLAB®使用或创建一个索引文件必须具有相同的名称作为源文件,但与.IDX延期。对于BAM格式的文​​件,MATLAB使用或创建必须具有相同的名称为源文件中的两个索引文件,但* .bai* .linearindex扩展。如果在与源文件相同的文件夹中没有找到索引文件,则BioMap构造函数创建该文件夹中的索引文件。

当您在一个无序BAM格式的文​​件传递,构造自动订单文件,并使用相同的基本名和扩展名与扩展之前“.ordered”增加的特征向量将数据写入到一个有序的文件。新的文件索引和用于实例化新BioMap对象。

注意

因为数据保留在源文件中,使用索引文件访问:

  • 不要删除源文件(SAM或BAM)。

  • 不要删除索引文件(*。idx, *。, 要么 *。linearindex)。

  • 您不能修改BioMapobj属性。

小费

要确定包含在源文件中的参考序列的数量,使用saminfo要么baminfo函数。使用SAMtools检查源文件中的读取是否按引用序列中的位置排序,如果需要,还可以重新排序。

BioMapobj= BioMap (结构结构体BioMapobj, 一个BioMap对象,从结构,含MATLAB结构序列和取向的信息,如由返回samread要么bamread函数。从数据结构保存在内存中,使您可以修改BioMapobj属性。

BioMapobj= BioMap (___的名字”,构建了BioMap对象使用任何的前面的输入参数和附加选项,指定为名称 - 值对的参数如下。

BioMapobj= BioMap (___“SelectReference”SelectRefValue选择一个或当源数据包含映射到一个以上的参考序列的更多的引用。默认情况下,构造包括所有源文件的头部词典的引用。当标题字典不可用,构造函数默认为包括在源数据中发现的所有参考名称。SelectRefValue是一个字符向量,字符串,字符串矢量,或字符向量的单元阵列。通过使用此选项,可以防止BioMap构造函数从引用,你不会在你的分析中使用创建辅助索引文件。如果任何读取映射到所选择的参考配对和BioMapobj写入文件时,伙伴的引用序列也包含在文件头中。

BioMapobj= BioMap (文件'在记忆中'InMemoryValue指定是否将内存中的数据或者在源文件中留下的数据。在源文件中留下的数据,并透过一个索引文件是更多的内存效率,但不会让你修改的属性BioMapobj。的选择是真正要么(默认)。如果第一个输入参数不是文件名,那么这个名称-值对参数将被忽略,数据将自动放在内存中。

小费

设置'在记忆中'名称 - 值对参数真正如果要修改的属性BioMapobj

BioMapobj= BioMap (___“IndexDir”IndexDirValue指定索引文件(*)所在文件夹的路径。idx, *。, 要么 *。linearindex)或者存在或将被创建。

小费

使用“IndexDir”名称 - 值对的说法,如果你没有到源文件所在的文件夹的写权限。

BioMapobj= BioMap (___'序列'SequenceValue结构体BioMapobj, 一个BioMap对象,从SequenceValue包含核苷酸序列的字母表示。如果将数据读入内存,此名称 - 值对才有效。

BioMapobj= BioMap (___“标头”HeaderValue结构体BioMapobj, 一个BioMap对象,从HeaderValue包含核苷酸序列的标题文本。如果将数据读入内存,此名称 - 值对才有效。

BioMapobj= BioMap (___'质量'QualityValue结构体BioMapobj, 一个BioMap对象,从QualityValue包含的每个碱基质量分数对于核苷酸序列的ASCII表示。如果将数据读入内存,此名称 - 值对才有效。

BioMapobj= BioMap (___'参考'ReferenceValue结构体BioMapobj, 一个BioMap对象,并设置参考属性ReferenceValue包含参考序列的名称。如果将数据读入内存,此名称 - 值对才有效。

BioMapobj= BioMap (___'签名'SignatureValue结构体BioMapobj, 一个BioMap对象,从SignatureValue包含描述与参考序列中的每个读出序列的比对信息。如果将数据读入内存,此名称 - 值对才有效。

BioMapobj= BioMap (___'开始'StartValue结构体BioMapobj, 一个BioMap对象,从StartValue的正整数,指定在各读出序列的比对开始所述参考序列中的位置的向量。如果将数据读入内存,此名称 - 值对才有效。

BioMapobj= BioMap (___'旗'FlagValue结构体BioMapobj, 一个BioMap对象,从FlagValue,指示供SAM格式规范中规定的11个标志的状态的逐位信息正整数的向量。这些标志描述的读取序列的不同的测序和对准方面。如果将数据读入内存,此名称 - 值对才有效。

BioMapobj= BioMap (___“MappingQuality”MappingQualityValue结构体BioMapobj, 一个BioMap对象,从MappingQualityValue,一个正整数向量,指定每个读取序列的映射质量。如果将数据读入内存,此名称 - 值对才有效。

BioMapobj= BioMap (___'MatePosition'MatePositionValue结构体BioMapobj, 一个BioMap对象,从MatePositionValue,非负整数指定为每个配合位置的向量读取序列。如果将数据读入内存,此名称 - 值对才有效。

输入参数

文件

字符向量或字符串指定SAM-或BAM格式的文​​件只包含一个参考序列,其读取通过在参考序列的开始位置排序。

结构

MATLAB结构中包含序列和对齐信息,如返回的samread要么bamread函数。结构必须有一个基于一个起始位置。

SelectRefValue

中指定引用序列名称的字符向量、字符串、字符串向量或字符向量的单元数组文件要么结构。用saminfo要么baminfo看参考序列的完整列表文件

InMemoryValue

逻辑指定是否将内存中的数据或者在源文件中留下的数据。在源文件中留下数据,并通过一个索引文件访问是更多的内存效率,但不会让你修改的属性BioMap对象。如果第一个输入参数不是文件名,那么这个名称-值对参数将被忽略,数据将自动放在内存中。

默认:

IndexDirValue

指定索引文件存在或将要创建的文件夹的路径的字符向量或字符串。

默认:文件夹中文件位于

SequenceValue

包含核苷酸序列字母表示的字符串向量或字符向量的单元数组。此信息填充BioMap对象序列属性。该samreadbamread函数返回该信息序列输出结构的字段中。

QualityValue

字符串向量或字符向量的单元数组,包含核苷酸序列按基质量分数的ASCII表示。此信息填充BioMap对象质量属性。该samreadbamread函数返回该信息质量输出结构的字段中。

HeaderValue

串矢量或包含核苷酸序列的标题文本字符向量的单元阵列。此信息填充BioMap对象属性。该samreadbamread函数返回该信息QueryName返回结构领域。

NameValue

属性的字符向量或字符串BioMap对象。此信息填充对象的的名字属性。

默认:' ',空字符向量

ReferenceValue

串矢量或包含参考序列的名称字符向量的单元阵列。此信息填充对象的参考属性。该samread函数返回此信息ReferenceName领域SAMStruct输出参数。该bamread函数返回此信息参考领域HeaderStruct输出结构。

SignatureValue

串矢量或包含描述与参考序列中的每个读出序列的比对信息的字符向量的单元阵列。该samreadbamread函数返回该信息CigarString返回结构领域。此信息填充对象的签名属性。

StartValue

正整数的向量指定在所述参考序列中的位置,其中每个读出的序列开始的比对。此信息填充对象的开始属性。该samreadbamread函数返回该信息位置输出结构的字段中。

FlagValue

指示供SAM格式规范规定的11个标志的状态逐位信息正整数的向量。这些标志描述的读取序列的不同的测序和对准方面。此信息填充对象的属性。该samreadbamread函数返回该信息输出结构的字段中。

MappingQualityValue

正整数指定为每个读取序列的映射质量的向量。此信息填充对象的MappingQuality属性。该samreadbamread函数返回该信息MappingQuality输出结构的字段中。

MatePositionValue

非负整数指定为每个读序列大副位置的矢量。此信息填充对象的MatePosition属性。该samreadbamread函数返回该信息MatePosition输出结构的字段中。

属性

与所有阅读序列相关联的旗帜在表示BioMap对象。

正整数的载体中,使得存在用于对象中的每个读序列的整数。每个整数表示指定由SAM格式说明书中描述的11个标志的状态逐位信息。这些标志描述读取序列的不同测序和比对方面。元素的数量和顺序之间存在一个一对一的关系序列,除非是空载体。

与所有阅读序列相关联的标头中所表示的BioMap对象。

字符向量的单元阵列中,使得存在于对象中的每个读取序列的标头。头可以是空的。元素的数量和顺序之间存在一个一对一的关系序列,除非是一个空单元格数组。

MatePosition

中所表示的所有读序列的配对位置BioMap对象。

非负整数的载体中,使得存在用于对象中的每个读序列的整数。每个整数指示对应的伴侣序列相对于参考序列中的位置,。元素的数量和顺序之间存在一个一对一的关系MatePosition序列,除非MatePosition是空载体。

在不是所有的值MatePosition矢量代表有效配合位置,例如,配合其映射到一个不同的参考序列或配合没有映射。如果要判断一个队友的位置是有效的,使用filterByFlag方法与“pairedInMap”旗。

MappingQuality

中所表示的所有读取序列相关联的映射质量分数BioMap对象。

整数向量,这样对象中的每个读序列都有一个映射质量分数。元素的数量和顺序之间存在一个一对一的关系MappingQuality序列,除非MappingQuality是空载体。

的名字

的说明BioMap对象。

描述字符向量BioMap对象。

默认:' ',空字符向量

NSeqs

在序列数BioMap对象。

此信息是只读的。

质量

中所表示的所有读取序列的每基质量分数BioMap对象。

字符向量的单元阵列中,使得存在于对象中的每个读出序列的质量。每个质量是每碱基质量分数为读序列的ASCII表示。质量可以是一个空字符向量。元素的数量和顺序之间存在一个一对一的关系质量序列,除非质量是一个空单元格数组。

参考

在参照序列BioMap对象。

BioMapobj.NSeqs由字符向量组成的-1单元格数组,指定引用序列的名称。

参考序列是针对其读出的序列进行比对的序列。

序列

在读取序列BioMap对象。

单元阵列包含所读取的序列的信表示字符向量。

SequenceDictionary

字符向量的单元阵列编目引用的名称中的可用BioMap对象。

此信息是只读的。

签名

与所有阅读序列相关联的对准信息在表示BioMap对象。

雪茄格式化字符向量的单元阵列中,使得存在于对象中的每个读出的序列比对信息。每个字符向量表示如何读序列对准到的参考序列。签名可以是空的字符向量。元素的数量和顺序之间存在一个一对一的关系签名序列,除非签名是一个空单元格数组。

开始

所有排列阅读序列的开始位置的代表BioMap对象。

整数的向量,使得存在用于对象中的每个读出顺序的开始位置。每个整数指定对准读取序列相对于参考序列的位置编号的起始位置。元素的数量和顺序之间存在一个一对一的关系开始序列,除非开始是空载体。

方法

filterByFlag 筛选序列读取由SAM标志
getAlignment 表示的构造对齐BioMap目的
getBaseCoverage 中返回参考序列的碱基对碱基比对覆盖BioMap目的
getCompactAlignment 中表示的紧致对齐BioMap目的
getCounts 读取序列的返回计数对准参考序列中BioMap目的
getFlag 检索读取序列标志BioMap目的
getIndex 返回与引用序列对齐的读序列的索引BioMap目的
getInfo 的单个元素检索信息BioMap目的
getMappingQuality 检索来自序列映射的质量分值BioMap目的
getMatePosition 检索来自阅读序列配对的位置BioMap目的
getReference 检索参考序列BioMap目的
getSignature 检索来自签名(对准信息)BioMap目的
getStart 检索对准读取序列的起始位置BioMap目的
getStop 从对齐阅读序列的计算停止位置BioMap目的
getSummary 打印的汇总BioMap目的
setFlag 设置读取顺序为标志BioMap目的
setMappingQuality 集合列映射质量得分BioMap目的
setMatePosition 在读取序列的设置位置的队友BioMap目的
setReference 参考序列集名称BioMap目的
setSignature 集签名(校准信息)BioMap目的
setStart 在排列阅读序列的设置开始位置BioMap目的

继承的方法

结合 合并两个对象
得到 检索对象的属性
getHeader 从对象中检索序列标头
getQuality 检索对象的序列的质量信息
某个getSequence 检索对象的序列
getSubsequence 检索对象的部分序列
getSubset 检索对象元素的子集
设置对象属性
的setHeader 更新读取的标题信息
setQuality 更新质量信息
setSequence 更新阅读序列
setSubsequence 更新部分序列
setSubset 对象的更新内容
BioRead或BioMap对象的内容写入到文件

复制语义

值。要了解值类如何影响复制操作,请参阅复制对象(MATLAB)的MATLAB编程基础文档。

索引

BioMap对象支持点。万博1manbetx索引中提取,分配和删除数据。

例子

全部收缩

该示例示出了如何从SAM文件,并从一个结构构造BioMap对象。

从提供有生物信息工具箱™和设置Name属性SAM格式的文​​件构造一个BioMap对象。

BMObj1 = BioMap('ex1.sam''名称''为MyObject'
BMObj1 = BioMap与属性:SequenceDictionary: 'SEQ1' 参考文献:[1501x1文件索引属性]签名:[1501x1文件索引属性]开始:[1501x1文件索引属性] MappingQuality:[1501x1文件索引属性]标记:[1501x1文件索引属性] MatePosition:[1501x1文件索引属性]质量:[1501x1文件索引属性]顺序:[1501x1文件索引属性]部首:[1501x1文件索引属性] NSeqs:1501名称: '为MyObject'

构造一个包含SAM文件信息的结构。

SAMStruct = samread('ex1.sam');

构造从该结构的BioMap对象。

BMObj2 = BioMap (SAMStruct)
BMObj2 = BioMap与属性:SequenceDictionary:{ 'SEQ1'}参考:{1501x1细胞}签名:{1501x1细胞}开始:[1501x1 UINT32] MappingQuality:[1501x1 UINT8]标记:[1501x1 UINT16] MatePosition:[1501x1 UINT32]质量:{1501x1细胞}序列:{1501x1细胞}部首:{1501x1细胞} NSeqs:1501名称: ''