利用机器学习从脑电图数据预测癫痫发作

作者:加雷斯·琼斯,伦敦大学学院

大约有癫痫发作的20〜40%的人不给抗惊厥药物反应。因此,癫痫患者的个体无法知道当他们驾驶,游泳或从事其他活动,将使扣押特别危险会发生癫痫的方法。

最近的一次Kaggle竞赛通过挑战参与者开发算法来解决这个问题,这些算法可以从人类颅内脑电图(EEG)记录中预测癫痫发作(图1)。

由Kaggle提供图1颅内EEG数据。

本次比赛由MathWorks、美国国立卫生研究院(NINDS)、美国癫痫学会(American Epilepsy Society)和墨尔本大学(University of Melbourne)赞助,吸引了来自世界各地的478支团队和646名参赛者。

我在MATLAB开发的算法®拿下个人参与者之间的最高和第三高在竞争中的整体。

脑电数据的获取和预处理

脑电图数据来自墨尔本大学的一项长期研究。

在本研究中,15名癫痫患者的脑电图记录通过16个手术植入电极在400hz下采样几个月。在最初的研究中,研究人员无法可靠地预测约50%的受试者的癫痫发作。

Kaggle参赛者从三个测试对象收到近100千兆字节的EEG数据。各10分钟长的段无论是包含preictal癫痫发作前记录的数据,或发作数据,记录在长时间内没有发生癫痫发作。我们的工作是开发一种算法,可以将以前未见过的片段分类为前段或中间段。

Kaggle竞争对手都给了MATLAB自由出入,但不是必须使用MATLAB的。我很早就我会用MATLAB决定。比赛数据是在MAT文件中提供的,因此很容易在MATLAB访问。另外,我用MATLAB在我所有的研究工作,收集和分析数据。

我首先连接任何连续的10分钟长的片段(图2),然后将所有数据划分为epoch或windows,长度从50秒到400秒不等。尝试不同的历元长度是很重要的,因为从数据中无法明显看出数据中可能存在哪些时间尺度的预测特性,或者它们随时间变化的速度有多快。

在MAT文件图2. EEG数据分成连续的时期。

提取特征并确定最佳机器学习模型

与许多数据分析比赛不同,癫痫发作预测比赛提供了使用原始数据而不是现成表格的机会。除了重新引用以外,所提供的数据没有经过任何额外的预处理。数据的非结构化特性允许我通过执行自己的预处理和特征提取来充分利用这些数据。

我曾在MATLAB来提取数据功能,我可以用它来训练机器学习模型。具体而言,我开发的算法,对于每个历元,计算的每个信道(包括平均值,标准偏差,均方根,偏度和峰度),和信道对之间的相关性在时间和频率域中的频带功率,汇总统计。我用并行计算工具箱™能够同时处理不同内核的训练和试验数据的处理时间几乎减半。

因为我正在为我的业余时间竞争算法,而不是作为一个主要的研究活动,我想开发一个解决方案,尽快。我有监督的机器在其他环境中学习经验,而是选择了使用统计和机器学习工具箱™分类学习应用程序快速搜索的最佳分类模型类型我已经提取的特征。在短短的几分钟内,根据决策树,判别分析,支持向量机,回归,最近的邻居,并用提高树木集成方法的应用程序已经自动训练和评估模型。万博1manbetx它会采取我的天,如果不是时间的发展星期来构建和测试在Python或R.所有这些机器学习模型

提高预测精度

接下来,我开始着手改善由分类学习应用程序确定的两个最有前途的机器学习模型的性能:二次支持向量机和随机欠(RUS)提高树木。万博1manbetx我测试各种特征和历元的长度,最终识别80秒,160秒和240秒的时期长度作为最重要的分类(图3)。因为我是用多个训练和测试组的工作,我必须管理并命名代表的功能和划时代的长度不同的组合了大量的表。我使用了新的String类在MATLAB中编程生成的表标签。String类消除复杂的代码块,我以前曾用于产生标签。

图3。显示特征和历元长度的相对重要性的图。

本地数据测试机器学习算法后,我提交了他们的Kaggle竞赛网站,跑他们对一组未公开的测试数据。算法是由工作特性曲线(AUC),这是用于评价二元分类和竞争的官得分度量的共同量度接收机下计算的区域评分。这个评分的结果对频繁更新公开排行榜公布,使参赛者能看到多么好他们的算法是在竞争中他人进行相对的。

为了进一步提高算法的准确性,我尝试了其他一些技术,包括超参数优化。我使用的最有效的技术之一是结合SVM和RUS增强树模型来实现集成分类器。对这两个模型的预测进行平均,可以显著提高准确率,使集成分类器的单独得分高于任何一个组件模型。研究结果如下:

单独支持向量机:~0.65 AUC
RUS孤单:〜0.72 AUC
SVM和RUS合奏:〜0.80 AUCÇ

的早期步骤争取更好癫痫管理

大多数选手训练的三个独立的机器学习模型,每个癫痫患者。我创建了一个工作了三个病人,因为我觉得,在临床实践中,该解决方案将更有效率比一个需要EEG数据从每个患者采集的一个总的模型。临床上,一个关键目标(和困难)是创建模型,可以跨越患者概括,并提出看不见个人的预测,而不是单独训练分类为每一个病人。这还有待观察在竞争中产生的模型的有效性如何在预测新的病人。作为迈向结合竞争算法进入临床研究的第一步,墨尔本大学的研究人员正在进行的使用,没有能够得到作为比赛的一部分数据提交算法进一步评估。

除了竞赛对癫痫研究的潜在益处外,我个人也从参与的机会中获益。对我来说,这个竞赛是学习新技能的一种非常吸引人的方式,同时也有可能推进该领域的研究,使全世界数百万癫痫患者受益。

关于作者

Gareth Jones博士她是伦敦大学学院脑科学学院的副研究员。他的研究重点是利用心理物理学、电生理学和计算模型来探索哺乳动物整合感官信息的能力背后的皮层机制。

出版于2017 - 93132v00


查看文章的相关能力

查看相关行业的文章