本篇学习报告来源:《Inter-subject Transfer Learning with End-to-end Deep Convolutional Neural Network for EEG-based BCI》,作者针对深度学习在认知脑机接口特别是跨被试分类问题上还有较大提升空间,提出了一个基于深度卷积神经网络(CNN)的端到端框架用于在单通道原始脑电图数据中检测被试者的注意力状态。
一、研究背景与内容
深度学习首先在语音识别和计算机视觉等领域获得了成功的应用,随后在脑机接口等其他研究领域也获得了关注,但是深度学习技术应用于认知BCI的研究目前还较少。基于脑电图的认知BCI是本研究的范围,旨在评估和增强注意力等认知功能。在这类以被试注意力水平为控制信号的BCI系统中,如何从脑电图中准确检测被试注意力状态至关重要。作者在先前工作[1]的基础上,引入了一个新的框架来解决单通道脑电图的注意检测问题,该技术可以显著的提高被试间注意力检测任务的准确性。
二、研究数据与方法
1. 研究数据
共有120名健康受试者进行了Stroop颜色测试[2,3],并从这些受试者中收集的脑电图数据作为该研究的研究数据。具体方法:在测试过程中,一个彩色的单词出现在屏幕上,受试者被要求说出这个单词的颜色。实验框图如图1所示:每位参与者重复进行40次实验,每次实验包括约6秒钟的Stroop测试(注意),以及同等时长的休息阶段(不注意)。Stroop测试界面如图2所示,界面上呈现的单词颜色和其含义不一致,要求受试者集中注意力,根据单词的颜色选择答案。在此过程中受试者经历了一种精神状态的变化(专注/不专注)。每个实验大约需要10分钟。为了更便捷的记录长时间的脑电数据,实验使用双极性、单通道的干电极头环设备,电极放置于额区(Fp1-Fp2)处,采样频率为256Hz。
图1 实验框图。(每个Stroop测试后有等时长的休息时间)
图2 测试演示示例
2. 研究方法
2.1 数据预处理
采用一个长度为2s的滑动窗口(窗与窗之间数据重叠率为50%)对连续脑电图时间序列进行分割, 经目视筛选以及阈值法去除有噪声的片段, 阈值为±100µv, 最后数据经过0.5Hz的高通滤波。序列分割示意图如图3所示:
图3 连续脑电图时间序列分割图
2.2 数据输入神经网络特征构造
基于为网络提供一维输入的单通道脑电图数据,作者定义了三种未预提取特征的网络输入表示,分别为:
(1)数据表示1 (DR1):原始脑电图数据。
(2)数据表示2 (DR2):原始脑电图片段在0.5-40Hz带通滤波。
(3)数据表示3 (DR3):对原始脑电图片段进行5个经典波段的滤波:δ(0.5-4Hz),θ(4-8Hz),α(8-12 Hz),β(12-30Hz),和较低的γ(30-40 Hz)。
注:以上数据均经过了2.1中所述的数据预处理。
2.3 网络结构
早期的卷积神经网络是由一系列卷积层和池化层组成。为了加速训练、避免过拟合和更好地保存信息,研究者多次尝试通过批处理归一化和dropout[4]等扩展对深度卷积神经网络进行升级。在本次研究中,也利用了其中的一些技术。将2.2中所述的三种脑电图数据表示形式作为输入导入网络。考虑到输入数据是时间序列,因此采用了跨时间的一维滤波器进行卷积。为了生成更高层次的特征,作者为网络插入了三个具有一维滤波的卷积层。第一层有60个过滤器,内核大小为1×4,后面是池大小为1×2的最大池化层。maxpooling的输出通过第二个卷积层,其中包含40个过滤器,内核大小为1×3。最后,在使用20个过滤器和内核大小1×2的第三个卷积层后,生成的特征映射被扁平成一个向量。这个向量以20%的概率通过dropout层,然后被馈送到第一个大小为100的全连接层。接着作者在第二个全连接层(Softmax)之前以30%的概率插入第二个dropout层,以克服过拟合。最后,将特征输入Softmax层进行分类。在每个卷积层和第一个全连通层之后都采用了型整流线性单元(ReLU)的激活函数。优化算法采用ADAM方法[5]。用于认知BCI的基于CNN的端到端深度分类框架的示意图如图4所示。
图4 基于端到端CNN的迁移学习分类框架示意图
三、研究结果
1. 基线
为了为所提出的技术提供一个公平的基线,作者实现了[6]中引入的分类框架用于单通道数据在注意和非注意之间进行分类。为了与提出的数据表示一致,作者使用数据DR3中描述的相同频带执行传统的特征提取和分类方法。第一个基线:根据[6]中的方法,利用快速furrier变换(FFT)提取delta (0.5-3Hz)、theta (4-7Hz)、alpha (8-13Hz)、beta (14-30Hz)和alpha - beta比值等频段能量,送入具有多项式核函数的支持向量机(SVM)进行分类。第二个基线:作者使用Chebyshev II型带通过滤了随后5个频带的数据,包括δ,θ,α,β和低γ。然后计算出波段功率(平方值的平均值),并送入LDA进行分类。其中在两种基线方法中都执行了主题间分类方法(删除一个主题),以提供与深度CNN结果的公平比较。结果显示基线1的平均准确率仅为50.70%。
为了提高精度,作者对基线1的特征进行了归一化处理。平均准确率提高到了67.90%。如表1所示,基线1和基线2的平均准确率分别为67.90%和68.23%,两者之间无统计学差异,超过50%的受试者准确率低于70%。
表1 基线和端到端深度CNN方法的平均精度
2. 留一交叉验证结果(LOO)
LOO方法:使用来自主体(源)池的数据学习一个广义网络,然后将所学到的知识转移到新的主体(目标),可看作是一种主题间迁移学习。
在本研究中,作者使用除目标受试者外的所有其他受试者的数据对网络进行训练,并用目标受试者数据来测试模型精度。该方法的精度明显优于基线,平均提高7.92%。如表1所示,DR1、DR2、DR3的平均准确率分别为76.20%、75.07%、76.68%,差异无统计学意义。该方法的准确率低于70%的受试者比例也显著下降,DR1、DR2和DR3的准确率在120个受试者中分别为26.67%、24.17%和23.34%。
3. 自适应迁移学习
虽然零次学习方法避免了对新被试数据的长时间训练,但这种方法在将知识从源转移到目标时可能会遇到信息变化/移位的问题。为了解决这一问题,作者采用了自适应方法,对新受试者数据的小样本量进行再训练。此方法既解决了对新数据进行再培训时间过长问题,又解决了信息转移问题。在研究中作者使用了一半的新受试者样本进行适应(2倍)。实验结果如表1所示,该策略对DR1、DR2和DR3的平均准确率分别为79.26%、78.12%和79.86%,超过了基线和LOO方法。与基线相比平均增加11.02%,与LOO相比平均增加3.10%。在DR1、DR2和DR3的120名受试者中,表现不佳的受试者数量分别下降到15.83%、17.50%和15.83%。
基线、LOO和自适应迁移学习三种不同方法的性能直观比较如图5所示:
图5 比较基线和端到端深度CNN方法在注意检测中的性能
从图5中可以看出,采用自适应迁移学习的CNN取得了最佳性能。
4. 多通道公共数据集上的结果
为了研究该框架的可泛化性,作者将该网络应用于一个多通道数据集。该数据集为研究受试者注意力转移问题,招募了8名健康受试者(18-27岁)参加实验,采用64通道帽,电极按国际10-10系统放置,并记录被试者的脑电图。在记录过程中采样频率被设置为1000Hz,后来它被下采样到200Hz。实验包括注意、反应和休息的顺序。作者对注意力和休息阶段的脑电图进行了分割,以完成分类任务。基于对数据集的原始研究,包括PO3、4、7-10、Oz、O1和O2在内的9个电极是研究注意力的最佳电极。在此研究中也使用了这9种推荐的电极。
作者使用的第一个基线:基于流行的滤波器组公共空间模式(FBCSP)[8]方法,采用了与[8]相同的基于互信息的最佳个体特征(MIBIF)和Naïve贝叶斯帕森窗口 (NBPW)方法分别进行特征选择和分类。它提供了与端到端框架公平比较的结果,作者还使用10倍交叉验证进行了被试内分类。
第二个基线是[7]中介绍的浅层CNN方法。它有两个隐藏层,分别执行时间卷积和空间滤波,用于波段功率特征解码。此方法通过单个网络[7]联合优化了所有的计算步骤。实验结果如图表2所示。
表2 多通道数据集上的结果
从表2中我们可以看出:基浅层卷积网络优于FBCSP方法,端到端深度CNN优于两种基线方法。
四、总结讨论
为了增强提出的端到端CNN模型学习到的内容的可解释性,作者使用激活最大化技术来可视化来自网络的感知输入。每个类对网络的感知如图6所示。图6(a)为第一类(注意)的网络感知,图6(b)为第二类(不注意)的网络感知。从图中我们看出注意类表现为高频振荡,而在非注意模式中这些分量消失。(a)和(b)中信号的功率谱密度,在包括alpha、beta1、beta2、高beta和低gamma在内的多个频带上,分别显示在(c)和(d)中。可以看到,随着精神状态从不专心(class2)到专心(class1)的变化:
(1)Beta活动增加。
(2)Beta2增加更多。
(3)Theta活动降低。
(4)被称为注意力指标的Theta/beta比值(TBR)下降。这可以从(1)和(3)推论得出。
图6 可视化结果
从上图可以看出,观察结果与注意诱导频率振荡[9][10]的研究结果一致。这些结果表明,端到端CNN能够直接从原始脑电图中学习有意义的信息,能够自动检测到注意检测中的重要频带。
本研究提出的一个端到端的深度CNN框架,将脑电图分类为注意/非注意精神状态,解决了以下三个问题,分别是: 1) 由于特征提取导致的信息丢失从而使分类精度下降 ; 2) 跨被试迁移学习 ; 3) CNN学习内容的可解释性。
这项研究表明,通过CNN进行深度学习是一种有前途的脑电分类技术,其性能优于LDA,SVM和FBCSP等其他技术。实验结果表明,通过使用Deep CNN,可以从原始的EEG中学习,并成功地将所学的知识迁移到新的目标被试中。该研究的成果可以应用于基于注意力的BCI系统,并可以扩展到其他类型的基于EEG的BCI系统。
参考文献:
[1]. Fahimi F, Zhang Z, Lee T S, et al. Deep convolutional neural network for the detection of attentive mental state in elderly[C]//7th Int. BCI Meeting, Sacramento, CA, USA. 2018.
[2]. MacLeod C M 1991 Half a century of research on the Stroop effect: an integrative review Psychological bulletin 109 163-203.
[3]. MacLeod C M and MacDonald P A 2000 Interdimensional interference in the Stroop effect: uncovering the cognitive and neural anatomy of attention Trends in cognitive sciences 4 383-91.
[4]. Srivastava N, Hinton G, Krizhevsky A, Sutskever I and Salakhutdinov R 2014 Dropout: a simple way to prevent neural networks from overfitting J. Mach. Learn. Res. 15 1929-58.
[5]. Diederik P. Kingma and Ba J 2015 Adam: A Method for Stochastic Optimization. In: 3rd International Conference for Learning Representations, (San Diego, USA.
[6]. Liu N-H, Chiang C-Y and Chu H-C 2013 Recognizing the Degree of Human Attention Using EEG Signals from Mobile Sensors Sensors (Basel, Switzerland) 13 10273-86.
[7]. Schirrmeister R T, Springenberg J T, Fiederer L D J, Glasstetter M, Eggensperger K, Tangermann M, Hutter F, Burgard W and Ball T 2017 Deep learning with convolutional neural networks for EEG decoding and visualization Human brain mapping 385391-420.
[8]. Ang K K, Chin Z Y, Wang C, Guan C and Zhang H 2012 Filter Bank Common Spatial Pattern Algorithm on BCI Competition IV Datasets 2a and 2b Frontiers in Neuroscience 6.
[9]. Kamiński J, Brzezicka A, Gola M and Wróbel A 2012 Beta band oscillations engagement in human Alertness process International Journal of Psychophysiology 85 125-8.
[10]. Martijn A, Conners C K and Helena C K 2012 A Decade of EEG Theta/Beta Ratio Research in ADHD: A Meta-Analysis Journal of Attention Disorders 17 374-83.
撰稿人:陈洁
指导老师:黄海云