《Leveraging spatial-temporal convolutional features for EEG-based emotion recognition》论文阅读理解
摘要
本文提出了一种新的基于脑电的情感识别框架。该框架由两个模块组成。第一个模块是深度卷积神经网络(DCNN)架构,它可以通过将链状脑电信号序列转换为2D帧序列来表示物理相邻脑电信号之间的通道间相关性。第二个模块是ConvLSTM,它可以表示EEG数据样本的序列信息。然后,将DCNN和ConvLSTM的特征串联起来,用注意力机制表示,最终进行情感识别。在DEAP数据库上进行的大量实验表明:(1)该框架有效地提高了情感分类的准确率,唤醒维度达到87.69%,高于大多数现有方法。(2)效价维度也获得了相当的情感识别性能,准确率达到87.84%,超过了大多数现有方法。
介绍
现有研究很少采用注意机制来提高情感识别的准确率。也很少有作品融合时空信息来分析情绪状态。因此,作者在本文中提出一个新基于DCNN和具有注意机制的ConvLSTM的端到端的框架用于EEG情感识别,它可以更好地挖掘脑电信号的区分信息。
贡献点:
方法
总体流程:原始EEG信号首先被转换成2D EEG帧序列。然后将2D脑电帧序列输入到提出的混合框架ENet中。在该框架中,DCNN和ConvLSTM以及注意机制可以代表情感识别的区分特征。
1、对EEG原始信号分段进行校正,每段减去对应这段所有通道的平均值。
对于原始EEG数据,在收集数据过程中会有一些噪声。为了去除这些噪声,对原始信号进行基线校正:计算基线信号和刺激信号之间的差异。首先,从所有C个通道中取出预审信号,并分成N段(长度为Q)。生成大小为C × Q的n个矩阵。其次,我们对所有这些矩阵执行元素相加操作,并计算矩阵的平均值。形式上,计算范式可以写成:
Mi是第i个通道的数据。
2、把脑电原始数据按如图所示的位置投射到9X9的矩阵中,其余位置补0。
然后按1s无重叠滑动窗口对原始数据进行样本分段。为了保持数据的一致性和提高情感识别的性能,采用Z-score来计算相同比例:
其中x表示该帧处的非零元素,μ是元素的平均值,σ表示元素的标准偏差。
3、对于DCNN部分的流水线,使用核大小为4 × 4的2D卷积层来提取空间特征。对于每个卷积层,使用零填充来。第一卷积层的特征图大小是32。随后的卷积层的大小分别是64、128。在每个卷积层之后,采用批量归一化(BN)操作,通过减少内部协变量移位来加速深度网络训练。
4、对于ConvLSTM部分。形式上,ConvLSTM的输入、单元状态、隐藏状态和门是4D张量,其第一维表示时间步长,第二维和第三维是空间维度(高度、宽度),最后一维是特征图。ConvLSTM单元的隐藏值ht的计算在每个时间t更新。
假设“⊙”′、*′′和“σ′′”是Hadamard乘积、卷积运算和sigmoid函数。形式上,ConvLSTM可以写成如下形式:
其中i、f、o和ct代表输入门、遗忘门、输出门和细胞激活4D张量,它们都具有与张量ht相同的大小。Wai、Whi、Waf、Whf、Wcf、Wac、Whc、Wao、Who和Wco代表权重矩阵,下标代表关系。例如,Wai是输入-输入门矩阵,而Whi代表隐藏输入门矩阵。然而,bi、bf、bc和bo是偏置向量。
数据尺寸为9×9×(128×(t+S1))。我们将注意力网络嵌入到框架中,以自动学习有价值的情绪模式。注意力网络的详细架构在下图中的右侧橙色虚线矩形中示出。两个卷积运算、两个内积和一个sigmoid激活包含在注意网中。sigmoid激活的范围在0和1之间。64个1 × 1卷积核用于压缩大小为64 × 9 ×9的立方体特征。最后,立方体特征被展平成具有φ ∈R5184大小的空间特征向量作为一种卷积运算。
5、DCNN和ConvLSTM的连接操作在特征提取之后执行。在ConvLSTM层之前采用全连接层来模拟时间表示能力。最后,空间和时间特征被连接成一个联合时空特征向量。然后,softmax层用于评估人类情绪状态。
实验结果
DEAP数据集上使用5倍交叉验证,Arousal纬度平均准确率87.69%,valence纬度平均准确率87.84%。