9878

2022-11-01

2022-11-02

本篇学习报告来源:《GANSER: A Self-supervised Data Augmentation Framework for EEG-based Emotion Recognition》，作者针对脑电信号情绪识别由于数据缺乏而导致深度学习模型难以建立高准确性和稳定性的问题，提出了一种生成对抗网络的自监督数据增强框架来生成高质量和高多样性的模拟脑电信号样本。它是第一个将对抗训练与自监督学习相结合的基于脑电信号情绪识别框架，在DEAP和DREAMER数据集上都取得了较好的成绩。

研究背景：

脑电信号由于信噪比比较低，同时在认知神经科学任务的典型数据集中，它通常只包含几百到几千个样本，这导致样本与特征的初始比率非常低。另外脑电信号是非平稳信号，其统计量随时间变化。不同受试者的大脑解剖、头部大小和动力学的固有可变性极大地限制了脑电信号分析在不同受试者之间的普遍性。而深度学习模型的学习却要依赖大量的数据，因此，对脑电信号进行数据增强，通过合适的生成对抗模型来生成高质量（接近真实）和多种多样（各种分布）的脑电信号是有必要的。

作者贡献/创新点：

（1）提出了GANSER，可以解决基于脑电信号的情感识别的数据缺乏瓶颈。

（2）首次将对抗训练与自监督学习相结合，合成了逼真的多样化脑电信号，并利用增强的脑电样本来自监督情绪识别学习。

（3）进行了大量实验表明了作者的情绪识别方法准确率优于当今业界最先进方法。

方法：

一、总体框架

提出的框架包括两个网络，如图1所示，对抗增强网络(AAN)和多因子训练网络(MTN)。首先以真实脑电样本作为输入，AAN被设计成合成高质量和多样化的EEG样本。然后，基于EEG的情绪识别分类器可以在扩充后的EEG样本上进行学习，并在提出的MTN的指导下完成自监督学习。

图1 总体流程图

二、对抗增强网络

在AAN中，首先使用通道掩蔽操作来随机地掩盖给定EEG信号的部分数据点，然后需要GAN基于剩余的EEG信号来合成符合真实数据分布的EEG信号。通过恢复EEG信号中丢失的数据点，提出的GAN能够识别源EEG的特征分布，并引入新的数据点来产生新的EEG信号。具体来说，给定一个32通道的EEG信号，长度为1秒(采样频率为128 Hz )，每个样本大小为32×128，按照每个通道在脑的大概位置投射到9×9的矩阵中，变成128×9×9的大小的数据，记为e∈R^128×9×9。

掩蔽变换操作具体如下，首先随机初始化采样与e大小相同的具有均匀分布U的矩阵r ∈ R^128×9×9，并利用r作为表示信号值被屏蔽的概率的概率矩阵。然后，从均匀分布U中采样参数τ作为阈值，确定应该屏蔽哪个数据点。这样，基于阈值τ从e变换得到的脑电信号δ(e,τ)可以定义为公式（1）:

这里，大的τ意味着随机掩蔽忽略了源EEG样本的信号值的更多部分。在这种情况下，由于有限的剩余信号值，源EEG信号的特征分布难以保持。因此，我们可以避免学习特征映射，并产生不同于原始信号的模拟脑电信号，从而确保增强样本的多样性。相反，生成的EEG信号可以类似于源EEG信号，被迫符合给定信号的分布。因此，在本文中，我们利用τ作为增强因子来表示增强样本的多样性和与原始样本的差异。

然后，基于δ(e,τ)设计了一个GAN来合成模拟脑电信号，并保证生成的脑电信号符合真实样本的特征分布。与掩蔽变换操作不同，掩蔽变换操作侧重于在信号值级别涉及合成EEG样本的多样性，所提出的GAN负责在特征级别学习真实EEG信号的分布。这样，生成的增强样本被进一步强制保留真实样本的自然特征。最后，大量样本可以为情感识别带来更好的分类性能。

所设计的GAN由两个网络组成，即生成器G和鉴别器D，优化为最小化两个损失。这里，生成器G被训练成以EEG信号e作为输入来生成模拟EEG样本G(δ(e, τ))。需要鉴别器D来区分给定的脑电信号是模拟的还是真实的，而G则学习骗过鉴别器，尽量使模拟样本接近真实样本。由于GANs的传统训练过程的不稳定性问题，不同于先前为情感识别提出的GANs，我们利用Wasserstein GAN梯度惩罚，即WGAN-GP，用于组合对抗监督和随机掩蔽增强策略。

G的损失函数为公式（2）：

其中P_e表示给定真实EEG信号的分布，而e表示来自它的EEG信号样本。

D的损失函数为公式（3）：

其中P_e定义为沿从数据分布P_e和G(δ(e,τ))中的生成器分布采样的点对之间的直线均匀采样。鉴别器D的梯度由表示，λ_p是惩罚项权重的超参数。这样，Wasserstein距离用于比较生成的样本和真实样本的分布，其中Lipschitz-continuous映射确保了均匀连续分布的性质。这种设计可以限制法向偏差变得过大。利用公式(2)和公式(3)，G和D依次被优化。通过优化对抗损失，D能够区分真实分布和模拟分布，而G提高了构造更接近真实EEG信号的样本的能力。

脑电信号包含了时间序列方差所反映的丰富细节。对于现有的基于自动编码器的网络来说，生成低失真的EEG信号具有挑战性，因为应用于高分辨率时间序列的自动编码器的下采样会导致细节丢失，并且重构的信号可能会被平滑。为了解决这个瓶颈，在本文中，作者整合了一个脑电信号的自适应版本UNet作为脑电信号同步的发生器。

如图2(a)所示，所提出的UNet包括编码器、解码器和跳跃连接。该编码器将EEG表示作为输入，并利用四个二维卷积层，后跟LeakyReLU作为激活函数来对EEG信号进行下采样并提取特征图。然后，在解码器中，应用三个去卷积层，通过合成丢失的信号值以基于提取的特征生成新的EEG样本，将特征映射上采样到高时空分辨率。这里，在卷积和对称反卷积层之间设计了跳跃连接，以融合浅层特征图，有利于反卷积层来补充高分辨率细节。

因为32通道的脑电数据在9×9矩阵中较为稀疏，所以作者首先引入通道掩蔽操作来提高UNet合成脑电信号的能力。对于第一步，我们建议构建通道掩码m，即大小为9×9的先验二进制掩码，并将存在电极和测量信号的位置的值设置为1，而将其他位置的值定义为0。然后，作者在设计的先验掩模和UNet的输出(即合成的EEG信号)之间应用元素式乘法，以人工地将不存在电极的信号值重置为零。这样，所提出的发生器只需要专注于拟合存在电极的信号值，而忽略由不存在的电极引起的EEG信号值的不真实突变。

作为最后一部分，如图2(b)所示，作者设计了一种新的网络结构STNet，用于分析脑电信号的复杂时空特征，并利用STNet作为数据挖掘工具。具体而言，所设计的STNet包括三个二维卷积层、一个可分离卷积层和一个初始块。第一步，通过二维卷积层分析输入EEG信号，从每个电极及其时空邻居的信号值中提取特征图，以获得高级特征。然后，由于特定情绪的识别只与空间特征或时间特征的局部模式相关，作者引入可分离卷积层来解耦时空信息的建模。这里所利用的可分离卷积层包含深度方向卷积层和点方向卷积层，以分别捕获提取的特征图的空间相关性和时间相关性。识别情绪模式需要分析不同空间尺度的EEG信号，因此作者进一步引入了包含三种不同大小的滤波器的初始块来提取多尺度特征图。通过融合这些特征图，可以自适应地捕获与多电极信号和局部电极信号相关的情绪模式。最后产生分类结果。

图2 所提出的发生器G、鉴别器D和分类器C的网络结构。

三、多因子训练网络

通过优化对抗损失，经过训练的AAN生成器可以产生信号细节不同但符合真实样本特征分布的增广样本。对于下一步，训练分类器C，并进一步利用AAN的学习生成器来微调已训练的分类器，以生成扩充样本。在这个阶段，如何利用扩充样本进行监督是一个至关重要的问题。因为高valence (arousal)和低valence (arousal)远不能用人工阈值来明确区分。因此，如果增强的EEG的偏移在很宽的范围内变化，则可能超过高valence (arousal)和低valence (arousal)之间的阈值，并且增强的EEG将变为原始EEG的不同类别。为了解决这个瓶颈，作者探索寻找一个自我监督的学习框架MTN来监督基于增强样本和不确定标签的情感识别训练。

增强样本应该在一定程度上保持原始样本的特征分布，尽管不是相同的。本文设计了一组代理置信度，用增强因子τ来度量，在给定的代理置信度下，学习限制真实样本和增强样本之间的特征分布差异。具体而言，在增强因子τ较大的情况下，源EEG信号中保留了有限的增强样本信号值，发生器G在同步过程中无法捕获和保留原始EEG信号的特征。因此，增强的EEG信号的特征分布应该被限制为在低置信度下拟合原始EEG信号的特征分布。相反，如果增强因子τ很小，则大多数原始EEG信号值在增强期间被保留。我们应该强制增强样本的特征分布接近具有高置信度的原始样本。最后，提出了多因素自监督学习损失来分配不同的权重，以限制基于相应替代置信度的增强脑电信号和真实样本之间的特征分布差异。总损失可以表示为方程（4）：