该论文发表于Applied Soft Computing(中科院1区,IF=7.2),题目为《A gradual self distillation network with adaptive channel attention for facial Expression recognition》。
电子科技大学计算机学院的张新为此文第一作者,电子科技大学计算机学院的殷昱煜教授为通讯作者。
论文链接:https://www.sciencedirect.com/science/article/pii/S1568494624005362
面部表情识别(Facial Expression Recognition, FER)在安全、医疗和智能交互等领域有广泛应用,但现有方法在应对表情的多样性、数据质量问题以及实时应用的计算效率方面存在挑战。传统知识蒸馏需要教师网络,训练复杂,而现有自蒸馏方法在浅层特征学习中缺乏多样性,限制了模型性能。本文提出了一种渐进式自蒸馏网络(GSDNet)与自适应通道注意机制(ACAM)结合的新方法。GSDNet通过逐层知识蒸馏增强浅层特征学习的多样性,ACAM动态优化特征通道权重。该方法在RAF-DB、FERPlus和Affect-Net等数据集上实现了精度和效率的提升,为实际应用提供了一种轻量化解决方案。
研究背景
面部表情识别在许多领域具有重要意义,包括安全监控、医疗健康、数字娱乐和人机交互等。它通过捕捉面部表情变化来分析个体情绪状态,支持检测异常行为、潜在威胁和情绪动态。然而,现有FER技术仍然面临许多挑战。传统方法主要依赖手工特征,这种方法难以有效区分高度相似的表情类别;基于深度学习的现代方法虽然改进了性能,但固定的特征标注区域和对计算资源的高需求限制了其在实际场景中的应用。数据集中的问题进一步加剧了FER的困难。例如,常见的数据集受到姿态变化、面部遮挡等影响,标注区域与实际关键区域可能存在错位,导致分类效果下降。一些方法尝试使用注意力机制捕捉重要区域,尽管能提升性能,但显著增加了计算复杂度,使得在实时安全场景中难以部署。因此,如何设计高效且轻量化的FER模型,成为当前研究的关键课题。知识蒸馏技术被提出以解决部分计算复杂性问题,通过学生网络学习经过优化的教师网络的知识来实现模型压缩。然而,传统知识蒸馏需要训练一个独立的教师网络,过程复杂且耗时。而自蒸馏则通过网络自身的深层模块作为教师,向浅层模块传递知识,这种方法更加高效,但仍存在学生模块学习的特征单一化问题。此外,FER技术在实际应用中还需应对三大挑战:个体和文化差异导致的表情变化多样性;低质量图像、遮挡和标注主观性引起的不确定性;深度学习模型的高复杂度限制其在资源有限设备中的应用。
研究方法
文章提出了一种基于新颖的渐进式自蒸馏和即插即用的自适应通道注意机制的轻量级且有效的 FER 网络。该模型具有强大的特征学习能力,在FER任务上取得了优异的性能,是探索和研究自蒸馏对于 FER 重要性的首次尝试。下面是网络的总体架构。
图1 GSDNet的总体架构
渐进式自蒸馏策略
渐进式自蒸馏策略是该论文的核心创新点。传统的知识蒸馏方法需要训练一个单独的教师网络,并将其知识传递给学生网络。然而,这种方式需要预训练教师网络,耗时且复杂。相比之下,现有自蒸馏方法尽管消除了对单独教师网络的依赖,但大多采用单一教师(通常为最后一层)为所有学生提供知识指导,导致浅层网络学习结果单一化。本文所提出的渐进式自蒸馏策略,通过将知识从深块逐渐蒸馏到浅块来保证知识的多样性学习。渐进式自蒸馏过程仅应用于训练阶段,可以轻松应用于任何网络以增强特征提取能力。
GSDNet提出的渐进式自蒸馏策略通过以下方式优化知识传递过程:首先将整个网络划分为多个层级结构的基本块,每两个相邻块之间形成“教师-学生”对。深层块作为教师,浅层块作为学生;然后通过逐层的蒸馏学习,使得深层块逐步将高语义特征传递给浅层块,避免浅层块从单一深层块中学习导致的特征单一化问题;在训练阶段,采用KL散度损失和L2损失对特征分布和概率分布进行优化,确保浅层块学习到的知识与深层块相符。下面是渐进式自蒸馏策略展示图。
图2 渐进式自蒸馏策略
自适应通道注意模块
自适应通道注意模块(Adaptive Channel Attention Module, ACAM)是一种轻量化、高效的注意机制,专注于优化图像特征的表达能力,提升模型对关键区域的关注。模块通过动态调整不同通道的权重,将最大池化和平均池化相结合,分别提取局部和全局特征信息。最大池化捕获局部激活值,强调细节特征,而平均池化则关注全局趋势,体现整体信息。两种特征经过全连接网络(MLP)计算权重比例,动态融合生成最终特征向量,用以更新特征图的通道权重。这一机制能够突出重要区域(如眼睛、嘴角等),抑制冗余信息,显著增强模型在复杂场景中的适应性和鲁棒性。与传统注意力机制不同,ACAM通过动态权重分配实现了针对性优化,同时保持了轻量化的设计,适用于各类深度学习网络。实验验证显示,ACAM在遮挡、模糊等复杂环境下表现优异,显著提升表情识别的准确性和泛化能力,是优化网络特征提取的重要工具。下面是ACAM的详细结构图。
图3 ACAM的详细结构图
损失函数优化
论文中通过引入多种损失函数的组合设计,优化了模型的训练过程,从而提升了面部表情识别的准确性和鲁棒性。
交叉熵损失(CE Loss)是模型的核心损失函数,用于主分类器,保证了模型对输入表情的准确预测。交叉熵损失的计算公式:
其中ylast表示最后一个分类器得到的预测概率分布,Y表示对应的标签。
KL散度损失(KL Loss)在渐进式自蒸馏过程中发挥重要作用,用于约束教师块和学生块之间预测概率分布的一致性,从而实现教师块对学生块的有效知识传递。KL散度损失的计算公式:
其中 yj 是第 j 个分类器的预测概率分布。
L2特征损失(L2 Loss)通过最小化教师块与学生块之间的特征表达差异,进一步强化了学生块的特征学习能力。L2损失的计算公式:
其中Fj表示第j个基本块得到的特征图。
上述损失函数的联合使用,充分挖掘了模型不同模块的潜力,确保了浅层块在渐进式蒸馏过程中的有效学习,同时提高了模型在多样化和复杂场景下的表现能力。这种设计不仅提升了模型的分类精度,也显著增强了其对低质量图像或表情细微变化的适应能力,为轻量化网络的优化提供了重要支持。
实验结果
与现有的最先进方法相比,GSDNet在面部表情识别任务中表现出色。具体来说,在RAF-DB数据集上,GSDNet的准确率为90.91%,比第二名高出0.62%。在FERPlus数据集上,GSDNet也取得了最好的成绩,提升了0.31%。尽管在AffectNet数据集上的准确率为66.11%,略低于最好的基线方法(66.37%),但整体表现仍然优于现有方法。下表是模型的表现。
表1 模型在RAF-DB、FERPlus 和 Affect-Net 数据集的性能比较。粗体表示最好的结果。下划线表示第二好的结果。
下图是GSDNet 与基线 Resnet50比较的混淆矩阵,混淆矩阵展示了ResNet50和GSDNet在RAF-DB和Affect-Net数据集上的表现。尽管Affect-Net数据集存在标注质量差和类别不平衡问题,GSDNet在RAF-DB上表现优于ResNet50,尤其在识别“恐惧”和“厌恶”表情时,精度分别提高了2.23%和6.32%。在Affect-Net数据集上,GSDNet在识别“惊讶”、“恐惧”和“中性”表情时,精度分别提高了3.84%、2.99%和8.68%。这表明GSDNet在表情识别任务中具有更强的能力和更好的性能。
图4 Resnet50 和提出的 GSDNet 在数据集 RAF-DB(左)和数据集 Affect-Net(右)上的混淆矩阵。
为了验证渐进式自蒸馏策略和自适应通道注意模块(ACAM)的有效性,作者在RAF-DB数据集上进行了消融实验。实验结果表明,基线模型(ResNet50)与没有渐进式自蒸馏或ACAM的模型相比,采用渐进式自蒸馏策略后,准确率提高了0.88%;结合渐进式自蒸馏和ACAM后,准确率进一步提高了1.37%。这一消融实验充分证明了渐进式自蒸馏策略和ACAM在GSDNet中的有效性。下表展示了渐进式自蒸馏和ACAM的实验结果。
表2 在 RAF-DB 数据集上对所提出的渐进自蒸馏策略和 ACAM 进行消融评估。粗体表示最好的结果。
结论
本研究提出了一种轻量级的结合自适应通道注意模块(ACAM)的渐进式自蒸馏网络(GSDNet)用于面部表情识别。文章中提出了一种新的渐进式自蒸馏方法,通过引导浅层学生模块从相邻深层教师模块学习,增强了特征表示能力。自适应通道注意模块通过动态调整最大池化和平均池化特征的权重,提升了通道特定的注意力。通过在三个常用FER数据集上的广泛实验,验证了GSDNet的有效性与实用性。
撰稿人:闫玉龙
审稿人:梁艳