技术文章和通讯

用机器学习从脑电数据预测癫痫发作

由伦敦大学大学的Gareth Jones


大约20-40%的癫痫发作不会响应抗惊厥药物。结果,癫痫的个体无法知道癫痫发作,游泳或从事一些其他危险的其他活动时会发生癫痫发作。

最近的卡格尔竞赛通过挑战参与者开发能够从人类颅内脑电图(EEG)记录中预测癫痫发作的算法来解决这个问题(图1)。

图1所示。Kaggle提供的颅内脑电图数据。

由美国国家卫生研究院(MNWorksWord)、美国癫痫学会和墨尔本大学赞助,该竞赛吸引了来自世界各地的478支队伍和646名参赛者。

我在matlab开发的算法®个人得分最高,整体排名第三。

脑电数据的存取与预处理

EEG数据来自墨尔本大学的一项长期研究。

在这项研究中,通过16个手术植入电极采集15名癫痫患者的颅内EEG记录,这些电极在400Hz下采样数月。在最初的研究中,研究人员无法可靠地预测大约50%的受试者的癫痫发作。

卡格竞争与会者从三个测试科目接收了几乎100千兆字节的脑电图数据。每个十分钟的长段都包含预见扣押前记录的数据,或发作间期在没有发生癫痫发作的长时间内记录的数据。我们的工作是开发算法,将以前看不见的片段分为发作前或发作间期。

Kaggle竞争对手免费访问Matlab,但不需要使用MATLAB。我早些时候决定了我会使用matlab。竞争数据在MAT文件中提供,使得在MATLAB中易于访问。此外,我在所有研究工作中使用MATLAB进行数据收集和分析。

我开始连接任何连续的10分钟长的片段(图2)。然后,我将所有数据划分为时间段或窗口,长度从50秒到400秒不等。尝试各种历元长度是很重要的,因为从数据中看不出数据中可能存在什么时间尺度的预测特征,或者它们随时间变化的速度有多快。

图2. MAT文件中的EEG数据分为顺序时期。

提取功能并识别最佳机器学习模型

与许多数据分析竞赛不同,缉获预测竞赛提供了利用原始数据而不是现成表格的机会。除了重新参考外,所提供的数据没有经过任何额外的预处理。数据的非结构化特性使我能够通过执行自己的预处理和特征提取来充分利用这些数据。

我在MATLAB中工作,从数据中提取特征,我可以用来训练机器学习模型。具体来说,我开发了算法,针对每个历元计算频带功率、每个信道的汇总统计信息(包括平均值、标准差、均方根、偏度和峰度),以及时域和频域信道对之间的相关性。通过使用Parallel Computing Toolbox™同时处理不同核上的训练和测试数据,我将处理时间缩短了近一半。

因为我在业余时间开发了竞争的算法,而不是作为主要研究活动,我想尽快开发一个解决方案。我在其他环境中拥有监督机器学习的经验,但选择在统计和机器学习工具箱™中使用分类学习者应用程序,以便快速搜索我提取的功能的最佳分类模型类型。在几分钟内,该应用程序自动培训和评估基于决策树,判别分析,支持向量机,逻辑回归,最近邻居以及使用提升树的集合方法的模型。万博1manbetx如果不是几个月的开发时间来建造和测试Python或R的所有这些机器学习模型会带我几天

提高预测精度

接下来,我设置了提高分类学习者应用程序所识别的两个最有前途机器学习模型的性能:二次支持向量机和随机欠采样(RUS)提升树木。万博1manbetx我测试了各种特征和时期长度,最终将80秒,160秒和240秒的时期长度识别为分类最重要(图3)。因为我正在使用多个培训和测试集,所以我必须管理和命名众多表,代表了各种特征和纪元长度的组合。我使用MATLAB中的新字符串类以编程方式为表格生成标签。字符串类消除了一块我以前用于生成标签的复杂代码。

图3.表明特征和纪元长度相对重要性的图。

在测试本地数据的机器学习算法之后,我将它们提交给Kaggle竞争网站,这将它们沿一组未公开的测试数据运行。通过计算接收器操作特性曲线(AUC)下的区域来评分算法,这是评估二元分类器和竞争官方评分度量的常见措施。该评分的结果发表于常常更新的公共排行榜上,使得参赛者可以看到他们的算法在竞争中相对于其他人的算法。

为了进一步提高算法的准确性,我尝试了其他几种技术,包括超参数优化。我使用的最有效的技术之一是通过结合SVM和RUS增强树模型来实现集成分类器。对两个模型的预测进行平均后,准确度有了显著提高,使得集成分类器的得分高于其单独的任何一个组件模型。结果如下:

仅支持向量机:~0.65 AUC
单独rus:〜0.72 AUC
SVM和RUS系列:〜0.80 AUC C

更好的癫痫治疗的早期步骤

大多数参赛者训练了三种独立的机器学习模型,一个用于每个癫痫患者。我创建了一个为所有三个患者工作的一般模型,因为我觉得在临床实践中,这种解决方案比一个要求从每位患者收集的EEG数据的解决方案更有效。临床上,关键目标(和困难)是创建可以在患者概括的模型,并对未经培训的个人进行预测而不是为每位患者培训单独的分类器。它仍有待效益在竞争中产生的效果是如何预测新患者。作为将竞争算法纳入临床研究的第一步,墨尔本大学研究人员正在进一步评估所提交的算法,使用作为竞争的一部分没有提供的数据。

除了竞赛对癫痫研究的潜在好处外,我个人也从这次参赛机会中受益匪浅。对我来说,这场比赛是一种非常有吸引力的学习新技能的方式,同时有可能推进一个将惠及全球数百万癫痫患者的领域的研究。

关于作者

加雷斯·琼斯博士是伦敦大学学院脑科学系的研究员。他的研究重点是利用心理物理学、电生理学和计算建模来探索哺乳动物整合感觉信息能力的皮层机制。

2017年出版-93132v00

查看相关功能的文章

查看相关行业的文章