Vorhersage von epileptischen Anfällen anhand von EEG-Daten mittels机器学习

冯·加雷斯·琼斯，伦敦大学学院

Etwa 20 - 40% der epileptischen Anfälle Antikonvulsiva and。癫痫病人的心灵Möglichkeit你的智慧，你的心灵。Deshalb können alltägliche Aktivitäten wie Autofahren, Schwimmen oder andere Aktivitäten, bei denen ein Anfall besonders gefährlich wäre, problematisch für sie sein。

柴油机问题wurde von einem kürzlich durchgeführtenKaggle-Wettbewerb aufgegriffen, indem die Teilnehmer dazu aufgefordert wurden, Algorithmen zu entwickeln, die epileptische Anfälle andhand von Aufzeichnungen des menschlichen intrakraniellen Elektroenzephalogramms vorhersagen können (Abbildung 1)。

Abbildung 1: Von Kaggle zur Verfügung gestellte intrakranielle EEG-Daten。

一个dem von MathWorks, dem National Institutes of Health (NINDS)， der American Epilepsy Society and University of Melbourne unterstützten Wettbewerb beteiligten sich 478 Teams and 646 Wettbewerber aus aller Welt。

用MATLAB写的Die von mir^®entwickelten算法erhielten die höchste Bewertung unter den Einzelteilnehmern und die dritthöchste im gesamtwttbewerb。

Zugriff auf die EEG-Daten and Vorverarbeitung

Die EEG-Daten stammten aus einer von der墨尔本大学durchgeführten langzeitstuddie。

在柴油研究wurden mehrere Monate lang颅内EEG-Aufzeichnungen von 15癫痫患者über 16 chirurgisch eingepflanzte Elektroden mit einer Abtastrate von 400 Hz erfast。在der ursprünglichen studdie konnten die Forscher bei etwa 50% der Testpersonen keine zuverlässige Vorhersage der Anfälle machen。

Den Teilnehmern des Kaggle-Wettbewerbs wurden fast 100gb an EEG-Daten von drei der Testpersonen zur Verfügung gestellt。Jeder zehnminütige Abschnitt enthielt entwederpraiktaleDaten, die einem Anfall aufgezeichnet wurden, orderinteriktaleDaten, die über einen langen Zeitraum, in dem es zu keinen Anfällen kam, aufgezeichnet wurden。Unsere Aufgabe bestand darin, Algorithmen zu entwickeln, mit denen zuvor夜间gesehene Abschnitte als präiktal oder interiktal klaassifiziert werden konnten。

Kaggle-Teilnehmer erhielten kostenfreien Zugang zu MATLAB，变异体的战争die Verwendung von MATLAB。Für密歇根州立schnell fest, dass ich MATLAB verwenden würde。Die Wettbewerbsdaten wurden in MAT-Dateien zur Verfügung gestellt, was einen einfachen Zugriff über MATLAB möglich machte。Zudem verwende ich MATLAB in allen meinen Forschungsarbeiten zur Erfassung and analyze von Daten。

Ich begann mit der Verknüpfung von beliebigen sequenziellen Abschnitten einer Länge von 10 Minuten (Abbildung 2). Anschließend unterteilte Ich die gesamten Daten in Perioden, oder Zeitfenster, die in der Länge von 50 Sekunden bis zu 400 Sekunden variierten。卫国战争大北Periodenlängen卫国战争大北，卫国战争Periodenlängen卫国战争，卫国战争Zeiträumen卫国战争，卫国战争ändern。

Abbildung 2: In sequenzielle Perioden unterteilte eg - daten aus MAT-Dateien。

Merkmalen的提取和geetnetsten模型für maschinelles leren

Anders als bei vielen daten分析- wettbewerben war im Wettbewerb zur Vorhersage von Anfällen die Möglichkeit zum Arbeiten mit Rohdaten anstatt mit vorgefertiten Tabellen gegeben。在keiner Weise(法国城市)的一个城市的一个城市zusätzlich vorverarbeitet。美好的一天，美好的一天，美好的一天，美好的一天，美好的一天，美好的一天durchführte。

模zum训练人的maschinellen Lernmodellen geeignten Merkmale habe ich mit MATLAB ausden Daten extrhierter。Ganz konkret habe ich Algorithmen entwickelt, die für jede Periode die Leistungen im Frequenzband, statistische Kenngrößen für jeden Kanal (wie z.B. Mittelwert, Standardabweichung, Quadratisches Mittel, Schiefe und Kurtosis) sowie die Korrelation zwischen Kanalpaaren im Zeit und Frequenzbereich errechnen。Ich habe die Verarbeitungszeit nahezu halbiert, indem Ich mit der并行计算工具箱™die训练和测试daten auf verschiedenen Prozessorkernen gleichzeeitig verarbeitet habe。

Da ich die Algorithmen für den Wettbewerb in meiner Freizeit und nicht als Hauptforschungsaktivität entwickelt habe, wollte ich so schnell wie möglich eine Lösung erarbeiten。Ich habe bereits Erfahrung mit überwachtem maschinellem Lernen in anderen Umgebungen, allerdings habe Ich mich dafür entschieden, die Classification-Learner-App in der Statistics and Machine Learning Toolbox™zu verwenden, um rasch den besten Klassifikationsmodelltyp für die von mir extrahierten Merkmale zu finden。Innerhalb von Minuten trainierte und bewertete die App model automatisch, basierend auf Entscheidungsbäumen, diskriminanzanalysis，支持万博1manbetx向量机，logtischer回归，最近的邻居和Ensemble-Verfahren mit Entscheidungsbäumen mit Boosting。Mit Python oder R hätte es mich Tage, wenn niht sogar Wochen an entwicklunszeit gekostet, alle diese Modelle für maschinelles lenen zu konstruieren und zu testen。

Verbesserung der Vorhersagegenauigkeit

Als Nächstes nahm ich mir die Verbesserung der Leistung der beiden Machine-Learning-Modelle vor, die von der Classification-Learner-App Als am vielverpreschendsten identifiziert worden waren:二次支持向量机和随机欠采样(万博1manbetxRUS)-Entscheidungsbäume mit Boosting。Nach dem Test verschiedener Merkmale und Periodenlängen habe ich schließlich die 80-Sekunden-， 160- sekundund 240-Sekunden-Periodenlängen als die identifiziert, die für die Klassifikation am wicichtigsten sind (Abbildung 3). Da ich mit mehren培训- und Testdatensätzen gearbeitet habe, musste ich viele Tabellen für die unterschiedlichen Kombinationen von Merkmalen und Periodenlängen verwalten und benennen。Zur programatischen Beschriftung der Tabellen habe ich die neue String-Klasse in MATLAB verwendet。编码代码块，überflüssig。

Abbildung 3: Die relative Wichtigkeit von Merkmalen und Periodenlängen im diagram。

Nach dem测试机器学习-算法算法的数据，有一个网站的kaggel - wettbewerbs übermittelt, auf der der mit einem Satz von nht bekanngegebenen Testdaten ausgeführt wurden。Zur Bewertung der Algorithmen wurde die Fläche unter der Grenzwertoptimierungskurve(接收机工作特征曲线下的面积(AUC)) berechnet。死亡在übliches mar für die Beurteilung von binären Klassifizierern und es ist auch die offizielle Bewertungsmetrik des Wettbewerbs。该死的Teilnehmer nachverfolgen konnten, wie gut ihre算法im Vergleich zu denen der Mitbewerber abgeschnitten haben, wurden die Ergebnisse dieser Bewertung auf einer regelmäßig aktualisierten öffentlichen Bestenliste veröffentlicht。

Um die Genauigkeit meiner Algorithmen zu verbessern, habe ich verschiedene andere Techniken ausprobiert, einschließlich der Optimierung von hyperparameter。技术效率，技术效率，技术效率，技术效率，技术效率，技术效率。德国米特隆德Vorhersagen der beiden模型führte德国德氏drastischen Verbesserung der Genauigkeit，德国德氏Ensemble-Klassifizierer besser abschnitt, als jedes seiner komponenten - model für希氏基因组。Die Ergebnisse waren Die folgenden:

SVM直线:~0,65 AUC
RUS线:~0,72 AUC
SVM和RUS zusammen: ~0,80 AUC C

Ein erster Schritt在Richtung verbessertes癫痫治疗

致湿比werbsteilnehmer训练者drei verschiedene模型zum maschinellen leren - eines für jeeden癫痫患者。这是我的爱，这是我的爱，这是我的爱，这是我的爱，这是我的爱，这是我的爱Lösung这是我的爱würde这是我的爱Lösung，这是我的爱，这是我的爱für。奥地利的问题，模型，一般的für所有的病人都是问题können，和mit的问题für所有的人都是问题können，国家für所有病人都是问题。是混乱的，是混乱的，是混乱的，是混乱的，是混乱的，是混乱的，是混乱的，是混乱的。alersten Schritt zur积分算法ausdem Wettbewerb在klinische研究führen die Forscher der墨尔本大学weitere Bewertungen der eingereichten算法durch。大足werden Daten verwendet, die im Rahmen des Wettbewerbs nicht zugänglich gemacht wurden。

Neben dem potenziellen Nutzen des Wettbewerbs für die Epilepsieforschung habe ich auch persönlich von der Möglichkeit zur Teilnahme profit。Für德国艺术之战Fähigkeiten德国艺术之战与艺术之战möglicherweise德国艺术之战与艺术之战möglicherweise德国艺术之战können。

Über die Autorin

加雷思·琼斯博士ist wissenschaftlicher Mitarbeiter der Fakultät für Hirnforschung am伦敦大学学院。Die Schwerpunkte seiner Forschungsaktivitäten精神生理，电生理学和rechnergestützter模型力学，Die Säugetiere集成von感测信息befähigt。

Veröffentlicht 2017 - 93132v00

Eingesetzte Produkte

Weitere Informationen

Artikel für ähnliche Einsatzgebiete anzeigen

Artikel für verwandte Branchen anzeigen

生物技术，制药和Gesundheitswesen