samread

从SAM文件读取数据

语法

SAMStruct= samread (文件)
(SAMStruct,HeaderStruct] = samread(文件)
... = samread(文件参数名称”,ParameterValue)

描述

SAMStruct= samread (文件)读取一个sam格式的文件并在MATLAB中返回数据®数组的结构。

(SAMStruct,HeaderStruct] = samread(文件)在两个单独的变量中返回对齐和头数据。

... = samread(文件参数名称”,ParameterValue)接受一个或多个以逗号分隔的参数名/值对。指定参数名称在单引号。

输入参数

文件

矢量字符或字符串指定SAM格式的文​​件的文件名,路径和文件名,或者SAM格式文件的文本。如果只指定一个文件名,文件必须在MATLAB搜索路径或当前文件夹。

名称-值对的观点

“标签”

控制对sam格式文件中每次对齐的前11个字段之外的可选标记的读取。的选择是真正(默认)或

“ReadGroup”

字符向量或字符串,指定要为其从读对准记录所读取的组ID。默认为所有组读取记录。

提示

对于读取组的列表(如果存在),以单独的方式返回头信息构造和查看ReadGroup字段在该结构中。

'BlockRead'

标量或矢量,其控制从包含多个序列的SAM格式的文​​件中的单个序列或条目序列条目的块的读取。输入一个标N,阅读N文件中的th项。输入一个1乘2的向量[M1,M2,从。开始读取一个条目块M1入口和结束在M2条目。读取文件中的所有剩余的条目开始在M1输入,为输入一个正值M1并进入天道酬勤M2

输出参数

SAMStruct

一个N* 1结构数组,包含来自萨姆格式文件的序列对齐和映射信息,其中N是存储在SAM格式的文​​件排列的记录数。每个结构包含以下字段。

描述
QueryName

读取序列的名称(如果未配对)或序列对名称(如果配对)。

提示

您可以使用此信息来填充生物地图对象的属性。

整数,指示指定SAM格式规范所描述的11个标志中的每个标志的状态的按位信息。

提示

你可以使用bitget函数确定特定SAM标志的状态。

引用名称 参考序列的名称。
位置 前向引用序列的位置(基于1的偏移量),读取序列的最左基开始的位置。
MappingQuality 整数,指定读取序列的映射质量分数。
CigarString 代表如何与参考序列的读取序列对齐雪茄格式化字符向量。
MateReferenceName 与匹配关联的引用序列的名称。如果这个名字是相同的引用名称,那么这个值是=。如果没有队友,那么这个值是*
MatePosition 前向引用序列的位置(基于偏移量),在此位置上读取序列的匹配的最左基开始。
InsertSize 读序列和它的对偶,当两个被映射到相同的参考序列之间的碱基位置的数目。否则,这个值是0
序列 包含读取序列的字母表示形式的字符向量。如果读序列与参考序列的反链对齐,则称为逆补。
质量 字符向量,包含读取序列的每基质量分数的ASCII表示。如果读序列与参考序列的反链对齐,则质量分数颠倒。
标签 适用SAM标签和值的列表。

HeaderStruct

结构,在以下字段中包含萨姆格式文件的头信息。

描述
* 结构中含有文件格式版本,排序顺序和组订单。
SequenceDictionary*

结构包含:

  • 序列的名字

  • 序列长度

  • 基因组装配标识符

  • 序列的MD5校验和

  • URI的序列

  • 物种

ReadGroup*

结构包含:

  • 阅读组标识符

  • 样本

  • 图书馆

  • 描述

  • 平台单元

  • 预测中位值插入大小

  • 测序中心

  • 日期

  • 平台

程序*

结构包含:

  • 程序名

  • 版本

  • 命令行

*-这些结构及其字段只有在SAM文件中才会出现在输出结构中。这些结构中的信息取决于SAM文件中的信息。

例子

读出的标头信息,并从所述对准数据ex1.sam文件包含生物信息工具箱™,然后在两个独立的变量返回的信息:

[数据报头] = samread( 'ex1.sam');

属性中读取一个条目块,其中不包括标记ex1.sam文件,然后以结构数组的形式返回信息:

%读取条目5至10,并且不包括标签数据= samread( 'ex1.sam', 'blockread',[5 10], '标签',假);

提示

  • 使用saminfo功能使用前调查一个SAM格式的文​​件的大小和内容samread函数将文件内容读入MATLAB结构数组中。

  • 如果你的sam格式的文件太大,使用可用内存读取,尝试以下之一:

    • 使用BlockRead参数与samread函数读取项的子集。

    • 创建一个从SAM格式文件BioIndexedFile对象,然后访问使用方法的条目BioIndexedFile类。

  • 使用SAMStruct输出参数,samread返回来创建BioMap对象,它可以让你探索,访问,过滤和操纵数据的全部或一个子集,做后续分析和查看数据之前。

介绍了R2010a版本