使用机器学习从脑电图数据预测癫痫发作

加雷斯·琼斯,伦敦大学学院

大约有20 - 40%的癫痫发作不响应抗癫痫药物。因此,癫痫患者没有办法知道如果癫痫发作会发生在开车的时候,游泳,或从事其他活动,这将使癫痫发作特别危险。

最近的一次Kaggle竞争解决这个问题通过挑战参与者开发可以预测癫痫发作的算法从人类颅内脑电图(EEG)记录(图1)。

图1所示。颅内脑电图Kaggle提供的数据。

由MathWorks,美国国立卫生研究院(研究所),美国癫痫协会,和墨尔本大学的比赛吸引了478团队和646来自世界各地的竞争对手。

我在MATLAB开发的算法®得分最高的个体参与者和第三个最高的整体竞争。

访问和预处理EEG数据

EEG数据来自墨尔本大学进行的一项长期研究。

在这项研究中,来自15个癫痫患者的颅内脑电图记录收集通过16外科手术植入电极采样在400 Hz几个月。在最初的研究中,研究人员都无法准确预测癫痫发作对大约50%的测试对象。

Kaggle竞争参与者收到近100 g的脑电图数据从三个测试对象。每个ten-minute-long段包含preictal数据,记录发作之前,或发作数据,记录在很长一段时间没有发生癫痫。我们的工作是开发算法,以前看不见的部分可以分类为preictal或发作。

Kaggle竞争者有免费使用MATLAB,但使用MATLAB不是必需的。我决定,我将使用MATLAB。竞争垫提供的数据文件,使它容易访问在MATLAB。此外,我使用MATLAB在我所有的数据收集和分析研究工作。

我开始通过连接任何顺序10-minute-long段(图2)。然后我分区的所有数据时代,或windows,长度从50秒到400秒不等。尝试各种时代的长度很重要因为这是不明显的数据什么时候规模预测特性可能存在的数据,或者他们可能随时间变化的速度有多快。

图2。垫脑电图数据文件分为连续的时代。

特征提取和识别最好的机器学习模型

与许多数据分析比赛,癫痫发作预测竞争提供了一个机会来处理原始数据,而不是现成的表。除了点将零度,提供的数据没有进行任何额外的预处理。非结构化数据的性质让我充分利用这些数据通过执行自己的预处理和特征提取。

我曾在MATLAB从数据中提取特征,我可以使用训练机器学习模型。具体地说,我开发的算法,对于每一个时代,计算频段大国,总结统计每个通道(包括说、标准差、均方根、偏态,和峰态),和通道之间的相关性对在时间和频率域。我处理时间减少一半通过使用并行计算工具箱™同时处理训练和测试数据在不同的内核。

因为我是开发算法的竞争在我的空闲时间,而不是作为一个主要的研究活动,我想尽快开发一个解决方案。我有监督机器学习的经验在其他环境中,但选择使用统计和机器学习的分类学习者应用工具箱™快速搜索的最佳分类模型类型特征提取。在几分钟内,应用基于决策树训练和评估模型,自动判别分析、支持向量机、逻辑回归、最近的邻居,和整体使用了树的方法。万博1manbetx它可能会花费我几天如果不是几周的开发时间来构建和测试所有这些机器学习模型在Python或R。

提高预测精度

接下来,我开始着手改善性能的两个最有前途的机器学习模型确定的分类学习者应用:二次支持向量机和随机采样(俄文)提高了树。万博1manbetx我测试了各种特性和时代长度,最终确定80 -第二,160 -第二,和240 -第二时代的长度是最重要的分类(图3)。因为我是使用多个训练集和测试集,我必须管理和名字代表许多表的各种组合特征和时代的长度。我使用MATLAB中的新的字符串类以编程方式生成表的标签。String类消除一块复杂的代码,我曾用于生成标签。

图3。情节显示特性和时代长度的相对重要性。

本地数据的机器学习算法测试后,我提交他们Kaggle竞争网站,而他们对一组未公开的测试数据。算法通过计算得分接受者操作特征曲线下的面积(AUC),这是一个常见的测量评估二元分类器和竞争的官方评分指标。评分结果发表在由公共排行榜参赛者可以看看他们的算法执行相对于其他竞争。

为了进一步提高算法的精度,我试着其他几个技术,包括hyperparameter优化。我使用最有效的技术之一就是实现一个系综分类器结合支持向量机和俄文了树模型。平均两个模型的预测结果精度戏剧性的改善,使集成分类器得分高于单独的组件模型。结果如下:

仅支持向量机:~ 0.65 AUC
俄文独自:~ 0.72 AUC
支持向量机和俄文合奏:~ 0.80 AUC C

提前一步更好的癫痫管理

大部分的选手训练三个独立机器学习模型,每个癫痫患者一个。我创建了一个通用模型,为所有三个病人,因为我觉得工作在临床实践中,该解决方案将更有效比所需的脑电图数据收集从每个病人。临床上,一个关键的目标(困难)是创建模型可以概括在病人和预测看不见的个体,而不是为每个病人训练不同的分类器。效果如何还有待观察竞争中产生的模型预测对新病人。作为第一步将竞争算法纳入临床研究,墨尔本大学的研究人员正在进行进一步评估提交的算法使用数据不作为竞争的一部分。

除了竞争癫痫研究的潜在好处,我个人受益从参与的机会。对我来说,竞争是一种深入参与的方式学习新技能,而潜在的推动在一个领域的研究,将有利于全球数以百万计的癫痫患者。

关于作者

Gareth Jones博士是一个研究助理,伦敦大学学院的脑科学的教员。他的研究重点是利用心理物理学、电生理学和计算模型探讨皮质机制哺乳动物将感官信息的能力。

2017 - 93132 v00出版


查看相关文章的能力

为相关行业观点文章