该论文发表于IEEE Journal of Biomedical and Health Informatics (中科院二区,IF=6.7),题目为《Cross-Modal Guiding Neural Network for Multimodal Emotion Recognition From EEG and Eye Movement Signals》。
青岛大学未来研究院和自动化学院的付宝乐为此论文的第一作者,青岛大学未来研究院和自动化学院的刘银华为此论文的通讯作者。
论文链接:https://ieeexplore.ieee.org/document/10570465
论文概要
情感在人际交往中扮演重要角色,是传达个体内心体验和意图的媒介。情感可通过面部表情、语言语调和身体动作等方式影响人类的认知过程,包括感知、思维、决策和记忆等。近年来,情感识别成为跨神经科学与机器学习等领域的研究热点。EEG信号作为一种客观指标,不易受到人为干扰,能够精确反映个体情绪状态的变化,因此在情感识别领域得到了广泛应用。然而,人类情感体验表现多样,使用单一模态信号难以捕捉情感的复杂性。因此,研究者开始探索通过多模态信号完成情感识别任务,例如结合图像、音频以及其他生理信号等进行综合分析。已有研究表明,EEG信号和眼动(Eye Tracking,ET)信号具有互补特性,能够显著提升情感识别的准确率。传统的多模态情感识别方法通常为不同模特单独构建模型,这种做法忽略了模态间的内在联系,从而可能降低情感识别的准确性。为了解决这一问题,本文组合EEG信号和ET信号两种模态用于情感识别任务,并提出了一种跨模态特征引导神经网络模型CMGNN。鉴于EEG信号在情感识别任务中的高效性和抗干扰能力,该模型利用EEG信号引导ET信号的特征提取。这一方法不仅有效降低了ET信号受主观因素影响的风险,还进一步挖掘了ET信号中与情感相关的深层特征。CMGNN模型包含三个关键部分:双分支特征提取模块、特征引导模块和特征重加权模块。其中,双分支特征提取模块用于提取EEG信号和ET信号的特征,在压缩空间和通道维度的同时,沿时间维度提取两种模态的关键特征;特征引导模块通过EEG信号特征生成引导因子,以引导ET信号的特征提取过程;特征重加权模块分析不同通道特征之间的影响和关联,对所提取的ET特征进行重加权,从而提升判别能力。这些模块的组合,模型能够精准捕捉情绪变化,有效降低ET信号受主观因素影响的程度。实验结果表明,CMGNN模型在情感SEED-IV数据集上的表现优于传统方法,在自采集的情感数据集上的表现证明了模型的强泛化能力。
研究背景
在情感计算领域,利用多模态进行情感识别已成为一种趋势,尤其是结合EEG信号和ET信号的情感识别方法受到广泛关注。EEG信号虽然采集过程较为复杂,但其不易受个体影响,能够精准反映人类情绪变化。相比之下,ET信号采集更为便捷,但容易受到环境和个体生理因素的干扰。为了充分发挥两种模态的优势,本文提出了一种跨模态特征引导神经网络(Cross-Modal Guiding Neural Network, CMGNN)。该网络旨在通过利用EEG信号在情感识别任务中的高效性,指导ET信号的特征提取,减少ET信号中的主观因素,同时提升对ET信号中情感相关特征的深度挖掘能力。
数据采集
实验共有10名参与者(5名男性和5名女性),均为右利手,平均年龄为20±2岁。参与者具有正常或矫正正常的视力。
实验使用40个约2分钟的视频片段,用于探究人们对不同情感类别的反应。通过15名参与者的投票分类,将视频分为四种情感类别:伤心(sad)、开心(happy)、害怕(fear)和中性(neural)。为保证实验的公平性和随机性,从每种情感类别中随机选取2个视频片段。参与者在观看每段视频后,需评估其中包含的四种情感类别的比例。
在数据采集方面,EEG信号通过64通道的 waveguard 电极帽和 eego 放大器(ANT Neuro)记录,电极位置基于国际10-20系统,采样率为1000 Hz;ET信号通过 Tobii Pro Glasses 2 眼动仪采集,采样率为100 Hz。使WrSysLab平台内置的视觉刺激控制模块控制视觉刺激的呈现与信号的同步。
方法
如图1所示,CMGNN模型包含三个模块:双分支特征提取模块、特征引导(FG)模块和特征重加权(FR)模块。接下来将介绍其各个组件。
图1 CMGNN模型的框架
1. 双分支特征提取模块
假设EEG信号和ET信号的情感信息主要沿时间维度分布,由于EEG信号的通道数量显著多于ET信号,本研究将重点放在ET特征上,尤其是时间特征的提取。在此基础上,进一步假设,通过压缩其他维度的信息,可以有效引导模型关注时间特征,同时降低计算复杂度。为此,本文提出了一种对称结构的双分支特征提取模块,每个分支由三个卷积特征提取模块组成。第一个卷积块(Convblock1)旨在压缩空间特征并提取全局空间信息,而后两个卷积块(ConvBlock2和ConvBlock3)则专注于时间特征的深度挖掘。通过这种设计,该模块不仅能够精准提取关键特征,还能有效平衡计算效率与网络性能。
如图2、3所示,每一个卷积块由1个卷积层(Conv Layer)、1个批归一化层(Batch Normalization)和1个Rulu激活层(Activation Layer)组成。后两个卷积块后有1个最大池化层(Max-pooling Layer)。
图2 EEG特征提取分支
图3 EYE特征提取分支
2. 特征引导模块
在情感识别任务中,EEG模态的检测性能优于ET模态。因此,提出一种假设:通过EEG特征的引导,可以增强ET特征的表达。FG模块的核心目标是以EEG特征为引导,提取出与情感更相关的ET特征。
如图1的灰色区域所示,FG模块以EEG ConvBlock的输出作为输入,生成缩放因子和平移因子,对EYE ConvBlock的输出进行调制。每个FG模块内包含两个结构相同的子模块,用于生成指导因子。第i个FG模块生成的指导因子β和γ的计算公式如下:
其中,表示FG模块内的下分支,表示FG模块内的上分支。Sigmoid函数作为压缩函数,用于生成两个指导因子。每个分支结构依次包括1个卷积层、1个批归一化层和1个ReLU激活层;1个卷积层、1个批归一化层和1个ReLU激活层;1个卷积层,1个最大池化层和1个Sigmoid激活层。
EEG ConvBlcok生成的特征输入进FG模块后,所得到的引导因子用于调节EYE ConvBlcok输出的特征,具体公式表达如下:
其中,表示调制的结果。⊕表示逐元素加法,表示逐元素乘法。
3. 特征重加权模块
不同通道特征在情感分类中的作用不同,因此,需要进一步分析特征的重要性,以突出关键特征。本论文基于Transformer的注意力机制提出了FR模块,通过特征间的内部相关性动态分配权重,用于筛选与情感高度相关的模态特征。
如图4所示,调制后的眼动特征按通道维度划分为n个部分,并通过n个重加权头对每部分特征进行加权处理,以获得最终输出。具体的表达式如下:
其中,表示ET模态特征映射。,表示通过通道划分得到的第i部分的情感特征。
将与3个矩阵相乘,产生,,,:
其中,用于衡量输入序列中每个元素与其他元素之间的相关性。表示输入序列中每个元素的特征信息。表示输入序列中每个元素的具体特性。接着采用向量点积的方法,将分别与进行点积,从而得到注意力α:
其中,为缩放因子,用于缓解因点积操作大小显著增大而引发的梯度消失问题。所产生的注意力α作为softmax层的输入,产生范围为0-1的注意力权重:
获得的注意力权重分别与对应位置的v相乘,然后求和:
在对每个通道的特征重新分配权重后,将这些特征沿通道方向进行拼接:
其中,。为沿着通道拼接得到的特征。
最后,将输入全连接层,经过softmax激活函数后得到分类结果。整个模型使用交叉熵(cross-entropy)作为损失函数,定义为:
图4 FR模块的框架
实验和结果
1. 数据预处理
对于EEG信号,采用0.5Hz-50Hz的巴特沃斯带通滤波器进行滤波,并通过EEGLAB插值修复损坏的通道。此外,利用独立成分分析(ICA)分离信号成分,从而去除肌电和心电等伪影成分。最后,对预处理后的EEG信号和ET信号进行降采样,将时间维度统一为240个时间点。
2. 实验结果
论文在SEED-IV数据集和自采数据集上进行了验证实验,以验证CMGNN在多模态情感分析任务上的鲁棒性。如图5(a)所示,四种情感的准确率变化较小,平均准确率为90.21%,表明模型具有较好的稳定性。论文还将自采数据集作为额外的测试集进行验证。如图5(b)所示,平均准确率为79.47%。尽管准确率较低,但该实验的重点在于验证模型在面对新数据时的稳定性,而非追求在特定数据集上的绝对准确性。
图5 CMGNN模型的混淆矩阵(左侧为真实标签,顶部为预测标签)。(a)SEED-IV数据集上的混淆矩阵。(b)自采数据集上的混淆矩阵。
论文比较了模型与其他多模态情感识别方法的在SEED-IV数据集上的表现,如表1所示,模型在所有指标上均表现优越,取得了90.21%(p < 0.0001)的准确率,超越了其他所有模型。
表1 多模态方法的比较。
论文还比较了多模态方法和基于EEG单模态方法在SEED-IV数据集上的表现,如表2所示。结果表明,模型在准确率方面优于其他基于EEG的方法。此外,在召回率和F1-score等其他性能指标上,模型也超越了其他方法。通过结合眼动信号(ET信号),模型在情感识别的表现上超越了单模态EEG方法,进一步突出了融合EEG信号引导ET信号的跨模态方法的优势。
表2 基于EEG方法的比较
为了进一步评估模型的泛化能力,论文进行了被试独立的实验。图6(a)展示了SEED-IV数据集中15个受试者的实验结果,图6(b)展示了自采数据集中10个受试者的实验结果。尽管模型在不同受试者上的表现存在差异,但这些差异并不显著且较小,表明模型在面对个体差异时具有良好的泛化能力,能够保持稳定的性能。
图6 被试独立实验。(a)SEED-IV。(b)自采数据集。
为了验证先前的假设:EEG模态能够引导ET模态的特征提取,论文进行了四个实验:仅使用眼动信号(EYE特征提取分支与FR)、ET信号引导EEG信号、仅使用EEG信号(EEG特征提取分支与FR)以及EEG信号引导眼动信号。实验结果如表3和图7所示。
表3 不同模态和不同引导方法的结果。
图7 不同模态和不同引导方向的准确率箱线图。
为了验证FG模块和FR模块的有效性,本文进行了消融实验。通过分别去除FG或FR模块,评估各模块对模型性能的贡献。模型Ⅰ仅包含双分支特征提取模块;模型Ⅱ利用EEG特征引导ET信号特征提取,但不包含FR模块;模型Ⅲ去除FG模态,直接将两种模态特征拼接,并包含FR模块。三种模型的结构如图8所示,实验结果见表4。
图8 三种模型的框架
表4 模型消融实验的结果。×表示删除该模块,√表示保留该模块。
思考与总结
本论文致力于多模态情感识别领域,旨在提高情感识别模型的性能,并探索EEG和ET信号之间的复杂关联。为此,本论文设计了CMGNN模型,通过整合EEG和ET信号实现多模态情感识别,该网络的核心组件包括双分支特征提取模块、多个FG模块和一个FR模块。这些模块的协同工作使得模型能够准确捕捉情感变化,减轻主观因素的影响,并挖掘ET信号中与情感相关的特征。在SEED-IV数据集和自采数据集上进行了全面实验。实验结果表明,模型在情感识别任务中展现出显著的性能优势,达到了比传统情感识别方法更高的准确度。尽管模型在特定的情感识别任务中表现出色,但仍然存在一些未解决的问题,如情感估计的客观性和个体在情感处理上的差异。
撰稿人:黄华星
审稿人:黄海云