Cyber​​genetics TrueAllele技术实现以前无法使用DNA证据的客观性分析

由Mark W.培林博士,Cyber​​genetics

2006年,约翰·耶伦尼克博士被发现在他位于宾夕法尼亚州布莱尔斯维尔的家中被谋杀。他的指甲里大部分是他自己的DNA,但也有一小部分来自别人的DNA——可能是他出于自卫抓伤攻击者时留下的。事实上,DNA混合物的这一微量成分将犯罪嫌疑人凯文·福利(Kevin Foley)与一名法医专家所说的1.3万名匹配数据联系在了一起。

DNA混合物的数据可以是坚硬的人类专家来解释。他们的实验室协议简化了这些数据,通常低估了匹配号码。Foley的辩护律师说,指甲证据不排除其他犯罪嫌疑人,因为有一个13000机会,从DNA比他的其他客户有人来。

人类专家对DNA证据的评估是具有挑战性的,即使是对简单的样本。执行检查的分析人员需要大量的培训,并且审查过程缓慢而乏味。人类的解释方法可能无法消除自然的检查偏差。截断数据的启发式方法会使证据失去很多证明价值。

今天,大多数的DNA样本并不简单。它们可以含有少量DNA,表现出退化,或混合在一起的几个人的DNA。这些因素化合物中的数据分析的困难。有时,专业分析师都无法得出一个结论,尽管花费相当大的精力。其结果是,有价值的证据,宣判有罪或无罪无辜成为在法庭上无法使用。

Cybergenetics TrueAllele®技术,开发了MATLAB®,使用信号处理和先进的统计方法从DNA数据提取识别信息。TrueAllele的概率方法更彻底,更客观,而且比人工分析更快。这些优势让犯罪实验室从以前不确定的样本中提取信息,并减少的证据等待审查的积压。在福利的情况下,TrueAllele启用了人类专家的13000估计一百万倍的改善,客观地计算了有说服力的189个十亿DNA匹配统计,帮助确保定罪。

DNA鉴定术语表

脱氧核糖核酸:线性信息分子编码人生的操作系统和程序。DNA是用四个化学字母(A,C,G和T)的字母。
染色体:大包驻留在细胞核的DNA分子。人DNA包括23对染色体,与一个拷贝从每个亲本继承。
轨迹:染色体,对于一个基因或一些其他DNA序列编码上的位置。
等位基因:一个基因位点上的DNA句子。一个个体在每个位点上都有两个等位基因(一个来自母亲,另一个来自父亲),除了在X和Y性染色体上。
基因型:细胞或个体的基因组成。在特定基因座,一个个体的基因型是等位基因对。
鉴别:通过使用天然存在的基因型变异从另一个区分开一个个体。

简单加工和混合的DNA样本

当从DNA测序仪得到的数据被绘制出来时,等位基因对明显表现为一个或两个主峰(图1)。峰的位置沿x轴确定等位基因,而其高度沿y轴反映了DNA的数量。当DNA数据来自单个个体时,分析人员可以很容易地从峰中推断出个体的基因型。

图1. DNA数据表示两个峰,从该个体的(13,15)的基因型可以推断。

当一个样本包含一个以上的人的DNA时,数据和基因型之间的关系就不那么明显了。实验室数据包含多个峰值,表明贡献等位基因和它们的相对数量(图2)。一个峰值高度计算放大的DNA分子的数量。根据概率和化学定律,这样的计数数据在重复的实验中是不同的。

图2.从混合样品DNA数据,显示多个峰。

在试图解决这一数据的变化,DNA证据的人检查适用“阈值”。每个实验室设置自己的阈值水平,基于内部校准。高于此阈值的高度的峰被给予相等的权重,而较少使用了低于阈值的峰值。这些阈值不计数数据及其变化很好地工作。信息性DNA样品往往最终错误分类为不确定的,并且没有报道。更精确的方法是使用计算机和概率数学模型峰高度变化的证据数据的参数。

利用MATLAB分析复杂的DNA样本

TrueAllele技术使用MATLAB、信号处理工具箱™、统计和机器学习工具箱™,以数学方式将混合DNA数据分离为个体贡献者及其各自的基因型。由于解可能是不确定的,所推断的基因型值被赋予了概率。

DNA测序产生的激光检测到的荧光的数据作为一维信号,许多基因座的多色多路复用。与信号处理工具箱开发的TrueAllele分析模块处理的信号数据以去除伪像,峰进行分类,确定峰值大小和高度,并执行其他的质量检查。

最初的分析后,TrueAllele解释使用概率模型的数据。该模型包含几百变量,包括有助于样品,DNA数量时,即使信号失真扩增假象,以及这些变量的不确定性个体的未知基因型。许多变量是分层的,这意味着它们包括子模型,每个都有自己的参数和不确定性。从DNA数据开始,TrueAllele解决通过马尔可夫链蒙特卡罗(MCMC)抽样统计模型,使用带有统计和机器学习工具箱开发的都市黑斯廷斯算法。

为了解释DNA证据,TrueAllele为解决空间变量提出了10万个可能值的不同组合,并评估每个解决方案解释DNA数据的能力。基于MATLAB的软件计算概率密度,得到可行解的概率分布。万博 尤文图斯万博 尤文图斯更准确地描述观测数据的解有更高的概率,而较差的解释有更低的概率。

对于一些样品,计算机可以将混合物数学分离成几乎单一来源成分,具有分配给每个基因型的可能性高。对于其它样品,结果与更扩散概率少某些和产量基因型。无论如何,基因型答案是一个概率分布,从客观证据仅仅推断。

当数据支持证据和嫌疑人的基因万博1manbetx型匹配时,TrueAllele模型使分析人员能够计算DNA匹配统计数据。为了形成这样的匹配统计,或“似然比”,MATLAB程序将从证据中推断出的基因型与嫌疑人的参考基因型进行比较。为了消除检查偏差的可能性,此比较仅在计算机基因型推断完成后进行。

匹配计算包括表示随机群体,它提供了匹配的概率比较重合所需的分母的第三基因型。陈述的数学结果用通俗易懂的语言,法医科学家可以报告,例如,认为“证据项与犯罪嫌疑人之间的匹配是一个千万亿次不仅仅是巧合可能的。”

开发用户界面并添加数据库支持万博1manbetx

为了本TrueAllele结果的图片,直观的科学家,律师,或陪审员,Cyber​​genetics使用MATLAB开发可视化用户界面(VUIer™)工具。所述VUIer显示关键变量的视觉表示,如数据,混合物的重量,基因型贡献者概率,以及匹配强度(图3)。VUIer能够替代基因型和混合可能性,在教学中有用的“假设”分析。该用户界面来计算似然比和置信区间,并且可以产生一个DNA匹配报告。

图3. VUIer用户界面。左上:数据图,示出在某一场所混合物峰。右上图:示出为两个分量计算机分离混合物图。左下:基因型视图,显示匹配的证据(蓝色)和犯罪嫌疑人(墨绿色)的基因型不符合其他人的基因型(浅绿色)。右下图:赛图,示出对数刻度,积极匹配嫌疑人(蓝色)和别人负失配(红色)。

Cyber​​genetics使用MATLAB编译器™给VUIer客户端打包成一个独立的可执行程序。这个用户界面客户端的跨平台和运行在Mac OS X和微软都®视窗®操作系统。TrueAllele服务器在运行Linux的多台计算机上并行执行MCMC基因分型计算®操作系统。MATLAB能够在可部署到三个不同的平台的单一环境的发展。

该VUIer客户端软件通过访问数据库工具箱TrueAllele数据库服务器™。这PostgreSQL数据库用作DNA数据,解释请求和结果的资料库。中央服务器数据库自动通过MATLAB写一个自定义监控专家系统坐标系统的运行情况。

TrueAllele系统提供DNA数据库匹配功能,可以帮助破案、寻找失踪人员或识别遗体。为了解决一个冷案例,数据库系统将从案例证据中推断出的基因型与从数千名潜在嫌疑人中获得的参考基因型进行比较。与政府提供的软件不同,TrueAllele智能数据库是高度敏感和特定的,因为它使用数学来表示基因型和计算匹配强度。

使世界成为一个更安全的地方

TrueAllele的可靠性得到广泛验证,并经受住了法院受理的挑战。该系统已在美国被使用,在国际上百余情况下,对于罪行,包括强奸,杀人,绑架,和恐怖。TrueAllele在世贸中心灾难用来帮助确定遇难者遗体。凯文·弗利的他终身监禁的Yelenic博士谋杀的上诉不成功导致已建立一个全州TrueAllele先例宾夕法尼亚州高级和最高法院的裁决。

无论是在Cyber​​genetics或犯罪实验室,以前无法使用的生物证据TrueAllele的MATLAB解释现在可以计算出准确的DNA鉴定信息。

出版于2013 - 92093v00


查看文章为相关行业