技术文章及通讯

网络遗传学真等位基因技术使以前无法使用的DNA证据得以客观分析

作者:Mark W. Perlin博士,网络遗传学


2006年,约翰·耶伦尼博士被发现在宾夕法尼亚州布莱尔斯维尔的家中被谋杀。他的指甲中大部分含有他自己的DNA,但也有少量来自其他人的DNA——可能是他出于自卫抓伤攻击者时留下的。事实上,DNA混合物中的这一微小成分将嫌疑人凯文·福利与犯罪联系在一起,一位法医专家表示,匹配数据为1.3万份。

DNA混合数据对人类专家来说很难解释。他们的实验室协议简化了这些数据,通常会少报匹配数。福利的辩护律师说,指甲证据并不排除其他嫌疑人,因为DNA来自他人而不是他的当事人的几率为13000分之一。

人类专家对DNA证据的评估可能具有挑战性,即使是在更简单的样本上。进行检查的分析人员需要大量的培训,并且审查过程缓慢而乏味。人类的解释方法可能无法消除自然的检查偏差。截断数据的启发式方法会使证据失去很多证明价值。

今天,大多数DNA样本并不简单。它们可能含有很少的DNA,表现出降解,或者将几个人的DNA混合在一起。这些因素加剧了数据分析的困难。有时,专家分析人员即使付出了相当大的努力,也无法得出结论。结果,判定有罪或免除无辜的有价值的证据在法庭上变得无用。

Cybergenetics TrueAllele®技术,用MATLAB开发®,利用信号处理和先进的统计方法从DNA数据中提取识别信息。TrueAllele的概率方法比人工分析更彻底、更客观、更快。这些优势使犯罪实验室可以从以前不确定的样本中提取信息,并减少等待审查的积压证据。在弗利案中,TrueAllele使人类专家估计的13000个DNA匹配数据提高了100万倍,客观地计算出1890亿个有说服力的DNA匹配统计数据,帮助确保了定罪。

DNA鉴定术语

背景:编码生命操作系统和程序的线性信息分子。DNA是由四个化学字母(A, C, G和T)组成的字母表。
染色体:细胞核内有一大包DNA分子。人类的DNA由23对染色体组成,每个拷贝来自父母双方。
轨迹:染色体上编码基因或其他DNA序列的位置。
等位基因:一个基因位点上的DNA句子。一个个体在每个位点上有两个等位基因(一个来自母亲,一个来自父亲),除了在X和Y性染色体上。
基因型:基因:一个细胞或个体的遗传组成在一个特定的位点上,个体的基因型是一个等位基因对。
标识:利用自然发生的基因型变异来区分个体。

处理简单和混合DNA样本

当DNA测序仪的数据被绘制出来时,一个等位基因对明显地表现为一个或两个主峰(图1)。峰沿x轴的位置标识了等位基因,而其沿y轴的高度反映了DNA的数量。当DNA数据来自单个个体时,分析人员可以很容易地从峰值推断出该个体的基因型。

图1。DNA数据显示两个峰值,从中可以推断出一个人的(13,15)基因型。
图1。DNA数据显示两个峰值,从中可以推断出一个人的(13,15)基因型。

当一个样本中含有不止一个人的DNA时,数据和基因型之间的关系可能不那么明显。实验室数据包含多个峰,表明贡献等位基因及其相对数量(图2)。峰的高度计算扩增DNA分子的数量。根据概率和化学定律,这种计数数据在重复的实验中有所不同。

图2。DNA数据来自混合样本,显示多个峰值。
图2。DNA数据来自混合样本,显示多个峰值。

为了解决这种数据变化,人类对DNA证据的检查应用了“阈值”。每个实验室根据内部校准设置自己的阈值水平。高度高于此阈值的山峰具有同等的权重,而低于该阈值的山峰则较少使用。这些阈值不能很好地处理计数数据及其变化。信息丰富的DNA样本通常会被错误地归类为不确定的,并且不会被报告。更准确的方法是利用计算机和概率对峰高方差作为证据数据的参数进行数学建模。

利用MATLAB分析复杂DNA样本

TrueAllele技术使用MATLAB、信号处理工具箱™和统计和机器学习工具箱™,以数学方式将混合DNA数据分离为单个贡献者及其各自的基因型。由于解决方案可能是不确定的,推断的基因型值被赋予概率。

DNA测序仪产生激光检测荧光数据作为一个一维信号,一个多色的多重位点。使用信号处理工具箱开发的TrueAllele分析模块对信号数据进行处理,以去除伪影,对峰进行分类,确定峰的大小和高度,并执行其他质量检查。

在初步分析之后,TrueAllele使用概率模型解释数据。该模型包含了数百个变量,包括对样本有贡献的个体的未知基因型、DNA数量、扭曲信号的放大伪影以及这些变量的不确定性。许多变量是分层的,这意味着它们包括子模型,每个子模型都有自己的参数和不确定性。TrueAllele从DNA数据开始,通过马尔科夫链蒙特卡罗(MCMC)统计采样,使用统计学和机器学习工具箱开发的Metropolis-Hastings算法求解模型。

为了解释DNA证据,TrueAllele为解空间变量提出了10万个不同的可能值组合,并评估每个提出的解解释DNA数据的效果。然后,基于MATLAB的软件计算概率密度,以产生可行解的概率分布。万博 尤文图斯万博 尤文图斯更准确地描述观测数据的解具有更高的概率,而解释较差的解具有较低的概率。

对于一些样本,计算机可以用数学方法将混合物分离成几乎单一来源的成分,并有很大概率将每种基因型分配给它们。对于其他样本,结果不太确定,产生的基因型的概率更分散。无论如何,基因型的答案是一个概率分布,仅从证据客观推断。

当数据支持证据与嫌疑人的基因万博1manbetx型之间的匹配时,TrueAllele模型使分析人员能够计算DNA匹配统计数据。为了形成这样的匹配统计量,或“似然比”,MATLAB程序将从证据推断出的基因型与来自嫌疑人的参考基因型进行比较。为了消除检查偏倚的可能性,该比较仅在计算机基因型推断完成后进行。

匹配计算包括代表随机群体的第三个基因型,它提供了比较匹配概率与巧合所需的分母。用通俗易懂的语言陈述数学结果,法医科学家可以报告,例如,“证据和嫌疑人之间的匹配比巧合的可能性要高千万亿倍。”

开发用户界面并添加数据库支持万博1manbetx

为了将TrueAllele结果以图片的形式呈现给科学家、律师或陪审员,Cybergenetics使用MATLAB开发了一个可视化用户界面(vier™)工具。VUIer显示了关键变量的可视化表示,如数据、混合权重、基因型贡献者概率和匹配强度(图3)。VUIer可以对教学中有用的替代基因型和混合可能性进行“假设”分析。用户界面计算似然比和置信区间,并可以生成DNA匹配报告。

数据视图显示混合峰在一个地点。
图3。vier用户界面。左上:数据视图显示的混合峰在一个位点。右上:混合视图显示计算机分离成两个组件。左下:基因型视图显示匹配的证据(蓝色)和不匹配另一个人的基因型(浅绿色)的可疑(深绿色)基因型。右下:匹配视图以对数尺度显示与嫌疑人的正匹配(蓝色)和与其他人的负不匹配(红色)。

Cybergenetics使用MATLAB编译器™将vier客户端打包成一个独立的可执行程序。这个用户界面客户端是跨平台的,可以在Mac OS X和微软上运行®窗户®操作系统。TrueAllele服务器在运行Linux的多台计算机上并行执行MCMC基因分型计算®操作系统。MATLAB支持在单一环境中进行开发,该环境可以部署到三个不同的平台上。

vier客户端软件通过数据库工具箱™访问TrueAllele数据库服务器。这个PostgreSQL数据库作为DNA数据、解释请求和结果的存储库。中央服务器数据库通过MATLAB编写的自定义监督专家系统自主协调系统的运行。

TrueAllele系统提供DNA数据库匹配能力,可以帮助解决犯罪、寻找失踪人口或识别人类遗骸。为了解决悬案,数据库系统将从案件证据推断出的基因型与数千名潜在嫌疑人的参考基因型进行比较。TrueAllele智能数据库是高度敏感和特定的(不像政府提供的软件),因为它使用数学来表示基因型和计算匹配强度。

让世界更安全

TrueAllele的可靠性已被广泛验证,并经受住了法庭可接受性的挑战。该系统已在美国和国际上用于100多起案件,包括强奸、杀人、绑架和恐怖犯罪。TrueAllele在世贸中心灾难中被用于帮助识别受害者遗体。凯文·福利(Kevin Foley)因叶伦纳博士被判终身监禁而上诉失败,导致宾夕法尼亚州高等法院和最高法院做出裁决,在全州范围内开创了TrueAllele的先例。

无论是在Cybergenetics还是在犯罪实验室,TrueAllele对以前无法使用的生物证据的MATLAB解释,现在都可以计算出准确的DNA识别信息。

发布日期:2013年9月19日

查看相关行业的文章