该论文发表于Pattern Recognition(中科院一区,IF=7.5),题目为《Self-distillation with β label smoothing-based cross-subject transfer learning for P300 classification》。
华东理工大学博士后李舒蕊为论文第一作者,华东理工大学金晶教授为论文通讯作者。
论文链接:https://www.sciencedirect.com/science/article/pii/S0031320324008653
P300 拼写器是脑机接口(BCI)最著名的系统之一,它通过解码大脑活动为用户提供了一种与环境交流的新方式。然而,大多数基于P300的BCI系统需要很长的校准阶段来开发特定被试的模型,这可能既不方便又耗时。此外,由于个体间存在显著的差异,实施跨被试 P300 分类仍具有挑战性。为了解决这些问题,本研究提出了一种免校准的 P300 信号检测方法。具体来说,本研究结合自蒸馏(Self-Distillation)和β标签平滑(β Label Smoothing)技术,以增强模型泛化和整体系统性能,这不仅可以从其他被试的脑电图 (EEG) 数据中提炼出有效信息知识,还可以有效减少个体差异所带来的影响。在公开可用的OpenBMI数据集上进行的结果表明,与现有方法相比,所提出的方法在统计学上实现了显着更高的性能。值得注意的是,本研究的方法在无需校准的情况下,字符识别准确率高达 97.37%。信息传输率和可视化分析进一步证实了其有效性。这种方法对脑机接口应用的未来发展提供了重要前景。
脑机接口(BCI)系统通过解码神经活动并将其转化为控制指令,为用户提供了一种无需肌肉参与的交互途径。该技术在通信、康复和娱乐等领域具有广阔应用前景,尤其为肌萎缩侧索硬化症(ALS)等神经肌肉疾病患者提供了新的生活改善方案。黎曼几何方法在 BCI 领域的应用推动了新型分类器的发展,实现了更快的P300响应,深度学习技术的突破也为BCI系统带来了新机遇。尽管这些研究取得了有效成果,但不同被试之间存在个体差异,且同一被试在不同时段的脑电数据也有所差异,这些影响并没有得到有效解决。图1(a)展示了不同被试的 P300 波幅和潜伏期存在显著个体差异,且同一被试的脑电数据在不同时段也呈现分布差异,图 1(b) 进一步揭示多源被试的两类数据存在严重重叠,表明传统离线训练的 P300 系统存在耗时且泛化能力不足的问题。近年来,现有研究尝试通过卷积神经网络(CNN)模型提升跨被试性能,然而,传统神经网络模型普遍存在过拟合和预测置信度过高的问题,导致校准性能下降。
为了解决这些问题,本研究提出基于域泛化的跨被试迁移学习框架(图1(c)),将自蒸馏与 β 标签平滑正则化方法相结合,命名为SDB-Deepnet方法,可以提取更多的判别性特征,并将学到的知识迁移到新的被试中且无需任何校准。具体贡献如下:
(2)通过自蒸馏框架提取跨被试有效知识,结合β标签平滑缓解数据分布差异和过拟合问题;
(3)所提出的方法在从 54 名被试收集的公开可用的OpenBMI 数据集上进行评估。实验结果表明,所提出的方法比基线方法有显著的改进。
BCI 系统可分为信号采集、特征提取和分类识别三个关键阶段,但由于被试之间的个体差异和同一被试不同时间段的脑电数据也有差异的影响,需要实现高效分类任务的整体框架与训练策略。
作为输出正则化器,引入标签平滑正则化 (LSR)来提高网络的泛化能力和学习效率,可以给每个非真实标签类别一个小而相等的概率,从而降低过拟合的风险。Softmax 函数用作激活函数,对最后一层的输出进行归一化,生成与输入类别匹配概率相关的依赖概率分布。给定模型的第k类概率可通过Softmax函数进行如下计算:
其中,zk 为前一层的第 k 个原始分数,K 为类别总数。对数几率输出由最后一个全连接层生成。对对数几率输出应用Softmax 函数,以获取每个类别的概率得分。真实标签分布可表示为 q(k∣x),为简化表述,记作 q(k)。模型通过最小化对应的交叉熵损失进行训练,损失函数定义为:
硬标签 yi 的分布可表示为:当 k=yi 时,q(y∣x)=1;当 k≠yi 时,q(k∣x)=0。在标签平滑机制中,平滑标签取代了独热向量标签。平滑标签分布 q′(k) 与标签分布 q(k) 的关系可写为:
其中,α 为平滑参数,u(k) 为均匀分布,且 u(k)=1/K。基于平滑标签的交叉熵损失如下:
其中,KL 为 KL 散度,H(u) 为固定均匀分布 u 的熵。
标签平滑正则化(LSR)方法,通过将独热硬标签替换为平滑标签,调整标签分布,向非真实类别分配概率,优化交叉熵损失,使模型有效利用类间信息,提升分类任务稳健性,增强对未知数据的适应性。
知识蒸馏(KD)用于从大型深度神经网络(教师模型)提取知识并迁移至小型网络(学生模型),以提升学生模型泛化能力。实际上,知识蒸馏为学生模型训练提供了更多信息,优化了其性能。鉴于训练后的神经网络可能在概率分布峰值过度集中而损失信息,有研究提出温度可以缩放软化概率,此时,知识蒸馏损失LKD通过 KL 散度损失匹配学生ps=softmax(as/T)与教师pt=softmax(at/T)的软化输出,公式如下:
其中,as、at为学生与教师网络的原始分数,T为固定温度超参数,用于调控教师网络软化输出。T值增加会使Softmax概率分布更均匀,捕获更多信息。学生网络通过以下损失函数训练:
超参数 β 权衡两种损失,LSL为学生网络输出与真实标签的交叉熵损失。基于上述损失,有研究将知识蒸馏视为改进的标签平滑正则化,可对网络分类器层正则化。同时,标签平滑与知识蒸馏相关,当温度T设为 1 时,可重新审视教师模型的随机精度与平滑温度。
本研究提出结合 β 平滑正则化方法的自蒸馏框架 SDB-Deepnet。自蒸馏无需复杂教师模型,减少训练开销,训练中教师与学生网络共享架构。框架细节如图 2,分为输入层、特征提取与分类层、预测器和损失项。原始脑电数据先拼接,预处理后尺寸为试次数 × 通道数 × 时间点数,输入数据尺寸为NT×NC×NF(NT为训练试次总数,NC为通道数,NF为时间点数),输入网络获得概率pt和ps。关键步骤为标签平滑策略,将独热硬标签转为平滑标签向量,再根据教师模型概率对学生模型的输出排序,得到排序概率p's。
图2展示了所设计算法的组成及方法。在输入层,对多个被试的脑电数据进行预处理和连接,以构建输入数据。pt 是教师模型的输出,ps 是学生模型的输出,p's 是根据指数移动平均 (EMA) 对学生模型的排序序列。将两个损失项(CE Loss和SD Loss)组合在一起,以端到端的方式优化基础模型,其中 CE Loss是具有独热真实值的交叉熵损失,SD Loss是具有 β 分布标签的自蒸馏损失。
在本研究中,教师和学生具有相同的神经网络,称为基础模型,特征提取层的基础模型是 DeepNet。以深度卷积神经网络 DeepNet 为基础模型,其自蒸馏部分的教师与学生网络共享架构(含四种卷积层和全连接层,见图 3)。
以 DeepNet 为例:先经 25 个 (1, 4) 时间维度 2D 卷积,再经 25 个 (62, 1) 空间维度 2D 卷积,用 ELU 激活函数,接 (1, 2) 最大池化(步长 2)降采样,最后 dropout rate设 0.25。经四个卷积模块(ConvPool-1 至 ConvPool-4)后,数据输入分类器。学生模型的标准交叉熵损失 LCE 可以表示为:
其中,q(k) 是独热标签向量的第k个元素,ps(k) 是学生模型输出的分布,接着是学生模型与基于Softmax函数输出的 β 分布标签之间的损失。标签平滑部分包括对输出进行排序、创建排序后的 β 平滑标签,以及计算负对数似然(NLL)损失。本研究没有采用公式(5)中描述的均匀分布u,而是为标签平滑策略分配一个 β 分布。相应的分布Q(k)如下:
其中,K 是类别总数,c(c=1,…,K)是正确标签。b1≤⋯≤bm 是来自 β (a,1) 的一组随机变量,其中m 是小批量大小,a 对应与 β 分布相关的超参数。由于本研究是二分类问题,K设置为2。为了分配合适的权重,本研究还充分利用训练过程中设计的指数移动平均(EMA)预测,获取试验(从小到大)的标签,如图 2 所示。总之,通过 EMA 预测得到的置信度较高的样本将接受较少的标签平滑,反之亦然。同时,对学生模型的输出应用排序操作,得到排序后的分布p's(k)。自蒸馏的KL散度可以用NLL损失代替,其描述如下:
超参数γ用于调控两种损失间的权衡,本研究中将γ设定为0.1。对于知识蒸馏(KD)方法,其通过师生学习机制辅助学生网络学习判别性特征,进而提升学生模型性能。因此,经多次迭代更新流程后,作为分类器的学生模型最终被用于识别其他被试的P300信号。
本研究采用公开的ERP数据集(命名为OpenBMI数据集)进行方法验证,该数据集采集自 54 名健康被试(S01-S54)。数据集包含不同日期的两个阶段,每个阶段包括离线和在线部分。本研究仅使用 ERP 阶段的第一阶段(session 1)进行分析。
实验前,被试需坐在扶手椅上,实验过程中要求被试放松并尽量减少眼动和肌肉活动。图 4展示了 P300 拼写器界面,包含6行6列共 36个符号(A-Z、1-9 及空格)。
实验中每个目标字符呈现 5 轮,每轮包含 12 次刺激闪烁(试次),刺激间隔(ISI)为135 毫秒,刺激持续时间80毫秒。采用随机序列呈现和熟悉面孔图像作为刺激,总时间间隔为:(135ms+80ms)×12×5=12.9秒。包含目标字符的闪烁定义为目标试次(含P300信号),否则为非目标试次(图 4 左下)。被试需通过注视屏幕上的目标字符拼写包含 33个字符的句子("NEURAL_NETWORKS_AND_DEEP_LEARNING")。
数据采集62 通道 EEG 信号,采样率 1000Hz,参考电极(鼻根)和接地电极(AFz)。对选定的EEG信号应用四阶巴特沃斯滤波器进行0.5Hz-40Hz的带通滤波,然后从每个通道的刺激呈现中提取-200ms到800ms的时间特征,将EEG信号下采样至100Hz,并通过减去 -200ms 到 0ms 刺激前间隔的平均振幅来执行基线校正。最终得到特征向量尺寸为(54×1980)×62×80,即(被试数×试次数)×通道数 × 时间点数。
图 5 展示了所选训练样本示例。本研究使用第一阶段(橙色框)的离线数据,并执行留一被试交叉验证(LOO-CV)。使用自适应矩估计(ADAM)优化器优化损失函数,初始学习率η设为5e−4,权重衰减设为1e−3,并采用 0.25 的dropout rate。本实验将每个被试独立分类的批量大小设为 64 ,训练迭代次数设为 100。采用t分布随机邻域嵌入(t-SNE)方法来显示投影后的脑电图试次,一个类与其他类分离的实例越多,相关功能的性能就越好。
表 1 中所提出的方法在五轮后达到了最高的分类准确率,分别比BASIC-CNN、EEGNet、ShallowNet、DS-P3SNet和DeepNet平均高出5.55%、3.43%、4.46%、3.32% 和 0.8%。
使用与被试无关的深度学习方法时,超过一半的被试在五轮后准确率可达 100%。此外,在跨被试分类任务中,DeepNet 在四种基线方法中取得了最佳结果。
红点表示从目标样本中获得的特征,蓝点表示从非目标样本中获得的特征。图 7(a)分别描绘了应用SDB-Deepnet 前后特征分布的 t-SNE 可视化结果。可以观察到,在原始分布中,两类特征相互重叠,而在SDB-Deepnet 方法中边界清晰,这表明所提出的方法可以有效地实现领域不变特征表示。图 7(b)展示了使用DeepNet和SDB-Deepnet 方法,以与被试无关的方式对三名代表性参与者(S8、S33 和 S50)的可视化结果。根据置信椭圆的重叠情况,可以得出结论,在SDB-Deepnet中,不同类别变得更加集中且更容易区分。
经过五轮后,所有被试使用 LDA、LR、RF 和 xDAWN的平均分类准确率分别为89.54%、80.96%、54.26% 和 88.91%,这些方法的平均信息传输率分别为15.28 bits/min、12.96 bits/min、7.17 bits/min和 15.06 bits/min。所提出的方法获得了最高的准确率,在五轮后分别比LDA、LR、RF和xDAWN平均高出 7.83%、16.41%、43.11% 和 8.46%。
表3 使用不同数量被试时的性能
随着训练数据的增加,分类准确率相应提高,使用 53 名被试的训练集取得了最高的性能。使用标准 21个通道(缺少通道FPz)在五轮后的字符识别准确率和标签预测准确率分别为 96.28% 和 90.50%,相应的信息传输率分别为 16.69 bits/min和 14.66 bits/min。因此,本实验选择了所有 62个通道进行分析。
为证明正则化和知识蒸馏(KD)方法在 P300 检测中的有效性,本研究以与被试无关的方式,扩展了其他方法来泛化深度网络模型。通过将LSR作为一个随机准确性的虚拟教师模型来执行无教师知识蒸馏(TF-KD)。教师模型的输出分布定义如下:
其中,u(k) 是手动设计的均匀分布,超参数 a 设为 0.99。将学生模型设为 DeepNet,同时将教师模型更改为Shallow-Deep。
表5 各算法与被试无关分类方式下的平均字符识别准确率和信息传输率
SDB-Deepnet 在五轮后达到 97.37% 的最高准确率,同时产生 25.41 bits/min的最佳信息传输率。根据表 5 的结果,与扩展方法相比,所提方法有统计学上的显著提升,这证明了当前正则化和 KD 方法在 P300 分类任务中展现出良好的性能。
表6 SDB-Deepnet三个模块的消融研究
第一个实验(w/o SD)中,移除自蒸馏,采用 β 平滑机制对模型训练进行正则化;第二个实验(w/o BLS)中,移除 β 平滑机制,保留自蒸馏机制;第三个实验(w/o BD)中,去除 β 标签平滑机制,改用标签平滑正则化(LSR)计算用于模型训练的平滑标签。从SDB-Deepnet 中移除自蒸馏方法后,分类准确率(p<0.001)和 ITR(p<0.001)显著降低,五轮 P300 分类任务后,准确率下降 7.78%,ITR 下降 1.98 bits/min。而 β 标签平滑机制的贡献小于自蒸馏,五轮后分类准确率仅下降 0.34%/0.08bits/min,无显著下降。当用标签平滑正则化机制替代 β 平滑正则化机制时,准确率(p<0.01)和 ITR(p<0.01)显著提升。
本研究提出一个融合自蒸馏与β标签平滑正则化机制的SDB-Deepnet框架,在模型自身内部提取知识来提升训练网络的有效性,无需任何额外大型复杂网络的指导,将 β 平滑正则化机制融入该框架,通过最小化 β 分布与网络预测分布的Kullback-Leibler散度,进一步减少类内差异,通过从多个被试中提取共有的 P300 信息来提升泛化能力,探索了训练跨被试模型的可行性。实验结果证明了所提 SDB-Deepnet方法的有效性,该方法在无需任何校准数据的情况下实现了优越的分类性能。未来工作将进一步探索平滑参数自适应的可能性,将构建不同的损失函数以惩罚关系中的结构差异,并将 ERP 特征作为先验信息来指导网络优化,从而提升模型性能,也会将其扩展到快速序列视觉呈现任务。