技术文章和通讯

网络遗传学真等位基因技术使以前无法使用的DNA证据的客观分析成为可能

马克·佩林博士,网络遗传学


2006年,约翰·耶利尼博士被发现在宾夕法尼亚州布拉斯维尔的家中被谋杀。他的指甲里大部分是他自己的DNA,但也有少量其他人的DNA,可能是他在自卫时抓伤袭击者时留下的。事实上,DNA混合物中的这一小部分将犯罪嫌疑人凯文·弗利与犯罪联系在一起,一位法医专家称其匹配数据为13000。

DNA混合数据对人类专家来说很难解释。他们的实验室协议简化了这些数据,并通常低估了匹配数字。福利的辩护律师表示,指甲证据并没有排除其他嫌疑人,因为DNA来自他的当事人以外的人的概率是1.3万分之一。

人类专家对DNA证据的评估可能具有挑战性,即使是在更简单的样本上。执行检查的分析员需要大量的培训,审查过程缓慢而乏味。人类解释方法可能无法消除自然检查偏差。截断数据的启发式方法可以剥夺证据的许多证明价值。

如今,大多数DNA样本并不简单。它们可能含有少量DNA,表现出降解,或将几个人的DNA混合在一起。这些因素加剧了数据分析的困难。有时,专家分析师尽管付出了相当大的努力,却无法得出结论。因此,有价值的证据可以证明有罪或无罪无辜者在法庭上无法使用。

Cybergenetics TrueAllele®技术,用MATLAB开发®,利用信号处理和先进的统计方法从DNA数据中提取识别信息。TrueAllele的概率方法比人类的分析更彻底、更客观、更快。这些优势使犯罪实验室可以从以前不确定的样本中提取信息,并减少等待审查的证据积压。在弗利的案例中,TrueAllele使人类专家估计的13000倍提高了100万倍,客观地计算出了1890亿份令人信服的DNA匹配数据,帮助确定了定罪。

DNA鉴定术语表

背景:编码生命操作系统和程序的线性信息分子。DNA是用四个化学字母(A、C、G和T)组成的字母表书写的。
染色体:细胞核内的大包DNA分子。人类DNA由23对染色体组成,每对染色体都有一份遗传自父母。
轨迹:染色体上编码基因或其他DNA序列的位置。
等位基因:基因位点上的DNA句子。一个人在每个基因座上都有两个等位基因(一个来自母亲,一个来自父亲),X和Y性染色体除外。
基因型:细胞或个体的遗传组成在一个特定的位点上,个体的基因型是等位基因对。
标识:利用自然发生的基因型变异来区分个体。

处理简单和混合DNA样本

当绘制DNA测序仪的数据时,等位基因对表现为一个或两个主峰(图1)。峰值沿x轴的位置确定了等位基因,而其沿y轴的高度反映了DNA数量。当DNA数据来自单个个体时,分析员可以很容易地从峰值推断个体的基因型。

图1所示。DNA数据显示了两个峰值,从这两个峰值可以推断出一个个体的(13,15)基因型。

当一个样本包含多人的DNA时,数据和基因型之间的关系可能不太明显。实验室数据包含多个峰值,表明了贡献等位基因及其相对数量(图2)。峰高计算扩增DNA分子的数量。根据概率和化学定律,这种计数数据在重复实验中会有所不同。

图2.混合样本的DNA数据,显示多个峰。

为了解决这种数据差异,人类对DNA证据的检查采用“阈值”。每个实验室根据内部校准设置自己的阈值水平。高度高于该阈值的峰值被赋予相等的权重,而低于该阈值的峰值使用较少。这些阈值不适用于计数数据及其变化。信息丰富的DNA样本常常被错误地归类为不确定,并且没有报告。更准确的方法是使用计算机和概率对峰高方差进行数学建模,作为证据数据的参数。

用MATLAB分析复杂DNA样品

TrueAllege技术使用MATLAB,信号处理工具箱™, 统计和机器学习工具箱™ 以数学方式将混合DNA数据分离为个体贡献者及其各自的基因型。由于解可能是不确定的,因此推断的基因型值被分配为概率。

DNA测序仪将激光检测到的荧光数据生成为一维信号,即多个基因座的多色复合信号。使用信号处理工具箱开发的TrueAllege分析模块处理信号数据,以去除伪影,对峰值进行分类,确定峰值大小和高度,并执行其他质量检查。

初始分析后,TrueAllege使用概率模型解释数据。该模型包含数百个变量,包括对样本有贡献的个体的未知基因型、DNA数量、扭曲信号的放大伪影以及这些变量的不确定性。许多变量是分层的,这意味着它们包括子模型,每个子模型都有自己的参数和不确定性。从DNA数据开始,TrueAllege使用统计和机器学习工具箱开发的Metropolis-Hastings算法,通过马尔可夫链蒙特卡罗(MCMC)统计抽样对模型进行求解。

为了解释DNA证据,TrueAllele提出了10万个不同的解空间变量的可能值组合,并评估每个提出的解对DNA数据的解释程度。然后,基于MATLAB的软件计算概率密度,生成一个可行解的概率分布。万博 尤文图斯万博 尤文图斯更准确地描述观测数据的解决方案有更高的概率,而较差的解释有更低的概率。

对于一些样本,计算机可以用数学方法将混合物分离成几乎单一来源的成分,并以高概率分配给每个基因型。对于其他样本,结果不那么确定,产生的基因型概率更分散。无论如何,基因型答案是一个概率分布,仅从证据客观推断。

当数据支持证据与嫌疑人的基因万博1manbetx型匹配时,TrueAllele模型使分析人员能够计算出DNA匹配统计数据。为了形成这样的匹配统计,或“似然比”,MATLAB程序将从证据中推断出的基因型与嫌疑人的参考基因型进行比较。为了消除检查偏倚的可能性,只有在计算机基因型推断完成后才进行这种比较。

匹配计算包括代表随机群体的第三个基因型,它提供了比较匹配概率与巧合概率所需的分母。例如,用通俗易懂的语言表述数学结果的法医学家可以报告说,“证据项目和嫌疑人之间匹配的可能性比巧合的可能性要大上万亿倍。”

开发用户界面并添加数据库支持万博1manbetx

为了在科学家、律师或陪审员直观的图片中呈现TrueAllege结果,Cybergenetics使用MATLAB开发了一个可视化用户界面(VUIer)™) VUIer显示关键变量的可视化表示,如数据、混合权重、基因型贡献者概率和匹配强度(图3)。VUIer启用“假设”分析在教学中有用的替代基因型和混合可能性。用户界面计算似然比和置信区间,并可以生成DNA匹配报告。

图3。VUIer用户界面。左上角:显示轨迹处混合峰的数据视图。右上角:显示计算机分成两个组件的混合视图。左下角:基因型视图,显示与另一个人的基因型(浅绿色)不匹配的匹配证据(蓝色)和可疑(深绿色)基因型。右下角:匹配视图,以对数刻度显示与可疑对象的正匹配(蓝色)和与其他人的负匹配(红色)。

网络遗传学在MATLAB编译器中的应用™ 将VUIer客户端打包为独立的可执行程序。此用户界面客户端是跨平台的,可在Mac OS X和Microsoft上运行®窗户®操作系统。TrueAllege服务器在运行Linux的多台计算机上并行执行MCMC基因分型计算®操作系统。MATLAB支持在单个环境中进行开发,该环境可以部署到三个不同的平台。

VUIer客户端软件通过database Toolbox™访问TrueAllele数据库服务器。这个PostgreSQL数据库作为DNA数据、解释请求和结果的存储库。中央服务器数据库通过一个用MATLAB编写的自定义监督专家系统自主地协调系统的运行。

TrueAllege系统提供DNA数据库匹配功能,可以帮助解决犯罪、寻找失踪人员或识别人类遗骸。为了解决一个冷案例,数据库系统将从案例证据推断的基因型与数千名潜在嫌疑人的参考基因型进行比较。TrueAllege intelligence数据库具有高度的敏感性和特异性(与政府提供的软件不同),因为它使用数学来表示基因型和计算匹配强度。

让世界变得更安全

TrueAllege的可靠性已得到广泛验证,并经受住了法院受理的挑战。该系统已在美国和国际上的100多起案件中使用,用于强奸、杀人、绑架和恐怖等犯罪。TrueAllege曾在世贸中心灾难中被用于帮助识别受害者遗体。Kevin Foley因谋杀Yelenic博士而被判无期徒刑的上诉失败,导致宾夕法尼亚州高等法院和最高法院的裁决确立了全州TrueAllege的先例。

无论是在网络遗传学还是在犯罪实验室,TrueAllege对以前无法使用的生物证据的MATLAB解释现在都可以计算出准确的DNA识别信息。

2013年出版-92093v00

查看相关行业的文章