生物信息学的工具箱
阅读、分析和可视化基因组和蛋白质组数据
Bioinformatics Toolbox™提供了用于下一代测序(NGS)、微阵列分析、质谱分析和基因本体的算法和应用程序。使用工具箱功能,您可以从标准文件格式(如SAM、FASTA、CEL和CDF)以及在线数据库(如NCBI Gene Expression Omnibus和GenBank)读取基因组和蛋白质组数据®.您可以使用序列浏览器、空间热图和集群图来研究和可视化这些数据。工具箱还提供了用于检测峰值、为缺失数据输入值和选择特征的统计技术。
您可以组合工具箱功能来支持通用生物信息学工作流程。万博1manbetx你可以使用ChIP-Seq数据来识别转录因子;分析RNA-Seq数据,识别差异表达基因;在微阵列数据中识别拷贝数变异和snp;并利用质谱数据对蛋白质谱进行分类。
了解更多关于计算生物学.
开始:
生物信息学工具箱为下一代测序分析提供算法和可视化技术。工具箱使您能够在执行碱基对分辨率的计算时分析整个基因组。您可以使用NGS浏览器可视化和研究短读对齐使用单端或对端短读。您还可以构建自定义分析例程,如下面的示例所示。
可视化和调查短读对齐
使用NGS浏览器,您可以验证和研究短读序列的比对,以支持测量遗传变异和基因表达的分析。万博1manbetxNGS浏览器让你:
- 可视化短读数据与核苷酸参考序列对齐
- 比较多个数据集对齐的公共参考序列
- 查看参考序列的不同碱基和区域的覆盖范围
- 调查对齐阅读的质量和其他细节
- 识别由于基调用错误或多态性而导致的不匹配
- 可视化插入和删除
- 检索相对于参考序列的特定区域的特征注释
存储和管理短读序列数据
在下一代测序分析中使用的数据集往往太大,无法装入物理内存。生物信息学工具箱提供专门的数据容器,使您能够分析整个基因组。
的BioIndexedFile
对象允许您访问包含非统一大小条目的文本文件的内容,如序列、注释和对数据集的交叉引用。您可以从表、平面文件或特定于应用程序的格式(如SAM、FASTA和FASTQ)生成这些对象。
的BioMap
类存储来自短读序列的信息,包括序列头、读取序列、质量分数以及关于对齐和映射到单个引用序列的数据。可以使用对象属性和方法来探索、访问、筛选和操作BioMap对象中包含的数据。
微阵列正常化
可以使用几种方法对微阵列数据进行归一化,包括low、全局均值、中位数绝对偏差(MAD)和分位数归一化。您可以将这些方法应用于整个微阵列芯片或特定区域或块。过滤和输入函数可以让您在运行分析和可视化例程之前清理原始数据。
数据分析与可视化
生物信息学工具箱让您执行背景调整和计算基因(探针集)表达值从Affymetrix®微阵列探针级数据使用鲁棒多阵列平均(RMA)和GC鲁棒多阵列平均(GCRMA)程序。您可以将圆形二值分割应用于阵列CGH数据,并估计来自微阵列实验的基因表达数据的多个假设检验的错误发现率。您还可以对多个Affymetrix CEL文件的探针强度或来自两种不同实验条件的基因表达值执行等级不变集规范化。
可视化微阵列数据的专门程序包括火山图、盒图、对数图、I-R图和微阵列的空间热图。你也可以用g带模式来形象化表意文字。
使用例程从统计和机器学习工具箱™,您可以对结果进行分类,执行分层和K-means聚类,并在统计可视化中表示微阵列数据,例如具有最优叶子排序的2D聚类图、热图、主成分图和分类树。
生物信息学工具箱提供了一套质谱数据分析功能。通过这些功能,可以对SELDI、MALDI、LC/MS和GC/MS数据进行预处理、分类和标记识别。预处理功能包括基线校正、平滑、校准和重采样。您可以使用M/Z轴校准原始光谱数据,并在LC/MS和GC/MS数据上执行保留时间校准。你可以同时绘制多个光谱。
您可以平滑、对齐和标准化光谱,然后使用分类和统计学习工具创建分类器,并识别潜在的生物标志物
图论与可视化
生物信息学工具箱使您能够将基本图论应用于稀疏矩阵。您可以创建、查看和操作图形,如交互图、层次图和路径。您可以在图中确定和查看最短路径,在有向图中测试循环,并发现两个图之间的同构。
统计学习与可视化
生物信息学工具箱提供基于分类和统计学习算法的功能统计和机器学习工具箱,包括:
- 万博1manbetx支持向量机(SVM)和k近邻分类器
- 建立交叉验证实验和测量不同分类方法的性能的功能
- 交互式工具的特征选择,映射,并显示层次图和路径
基因本体论
生物信息学工具箱使您能够从MATLAB中访问基因本体论数据库®,解析带有注释的基因本体文件,并获得本体的子集,如祖先、后代或亲属。
序列比对
工具箱提供用于序列分析的函数、对象和方法,包括成对序列、序列配置文件和多序列比对。这些包括:
- 用于局部和全局序列对齐的标准算法的MATLAB实现,如Needleman-Wunsch、Smith-Waterman和profile-hidden Markov模型算法
- 渐进多序列比对
- 对齐结果矩阵的图形表示
- 标准评分矩阵,如PAM和BLOSUM矩阵族
- 一致序列计算和序列标识显示
序列实用程序和统计
这个工具箱允许您操作和分析序列,以更深入地理解数据。您可以:
- 利用遗传密码将DNA或RNA序列转换为氨基酸序列
- 对序列进行统计分析,并在序列中搜索特定的模式
- 应用限制性内切酶和蛋白酶对序列进行硅内消化,或为测试用例创建随机序列
- 预测RNA序列的最小自由能二级结构
序列可视化
工具箱使您能够可视化序列和对齐。您可以查看带有GenBank功能注释的序列的线性或圆形地图。你可以可视化一个RNA序列的二级结构图。交互式查看器让您探索和修改成对和多个序列比对。
系统发育树分析
工具箱允许您创建和编辑系统发育树。可以使用广泛的相似性度量,如Jukes-Cantor、p-distance、校准得分或用户定义的距离方法,计算对齐或未对齐的核苷酸或氨基酸序列之间的成对距离。系统发育树采用分层连接技术,包括邻居连接、单连接和完全连接以及未加权对组方法平均(UPGMA)。
工具箱支持加权和重根树、万博1manbetx计算子树和计算树的规范形式。系统发育树查看器可以让你修剪、重新排序和重命名分支;探索距离;读写newick格式的文件。您还可以使用MATLAB中的注释工具来创建具有表示质量的树。
蛋白质功能分析
该工具箱提供蛋白质序列分析技术,包括计算肽序列特性的程序,如原子组成、等电点和分子量。你可以确定蛋白质序列的氨基酸组成,用酶裂解蛋白质,并创建PDB数据的主干图和Ramachandran图。您可以使用序列工具来查看氨基酸序列的属性,或者使用分子查看器来显示和操作3D分子结构。
文件格式和数据库访问
您可以访问生物数据、在线数据库和Web站点的标准文件格式。生物信息学工具箱使您:
- 从标准文件格式读取序列数据,包括FASTA, PDB和SCF
- 读取微阵列数据的文件格式,如Affymetrix DAT, EXP, CEL, CHP和CDF文件;ImaGene®结果格式数据;安捷伦科技公司®特征提取软件文件;和GenePix®GPR和GAL文件
- 从GenBank、EMBL、NCBI BLAST、PDB等在线数据库读取数据
- 从NCBI基因表达综合网站直接导入数据,只需一个命令
- 从NCBI表意文字或UCSC细胞带文本文件读取细胞遗传学带信息
- 从MZXML和JCAMP-DX文件中读取质谱数据
共享算法和部署应用程序
MATLAB提供的工具,让您把您的数据分析程序变成定制的软件应用程序。这些工具包括用于构建用户界面的开发工具、可视化集成开发环境和分析器。MATLAB应用程序部署产品可以让您将MATLAB算法与现有s manbetx 845的C、c++和Java™应用程序集成,将开发的算法和自定义接口部署为独立的应用程序,将MATLAB算法转换为Microsoft®.NET或COM组件可以从任何基于COM的应用程序访问,并创建Microsoft Excel®插件。
您可以将MATLAB与常用的生物信息学工具(如BioPerl)、基于soap的Web服务和COM插件集成。