Neural Networks | 基于渐进特征融合的分层注意力网络在面部表情识别的应用

脑机接口与混合智能研究小组

更多动态

4967

2024-09-24

该论文发表于Neural Networks（中科院一区，IF=9.657），题目为《Hierarchical attention network with progressive feature fusion for facial Expression recognition》。

西北工业大学的陶焕杰为此文第一作者及通讯作者。

论文链接：Hierarchical attention network with progressive feature fusion for facial Expression recognition - ScienceDirect

论文概要

在实际环境中，面部表情识别面临许多挑战，如姿态变化、遮挡和光照变化等干扰因素。注意力机制可以通过增强与表情相关的信息并抑制无关信息，来缓解这些问题。然而，大多数方法在不同网络层的特征张量上使用相同的注意力机制，忽视了这些张量在空间和通道维度上的动态变化。为了解决这个问题，本文提出了一种用于面部表情识别的分层注意力网络以及渐进特征融合方法。具体而言，本文设计了一个基于多特征聚合模块的多样化特征提取模块（DFEM），以充分利用局部和全局上下文特征、低层和高层特征，以及对光照变化具有鲁棒性的梯度特征，从而聚合多样的互补特征。其次，为了有效融合这些多样特征，设计了一个分层注意力模块（HAM），通过渐进方式增强面部图像关键部分的判别特征，并抑制无关区域的干扰特征。大量实验结果表明，所提出的模型在现有的面部表情识别方法中表现出最佳性能。

研究背景

由于各种干扰因素（如遮挡、光照变化、姿态变化和数据不足），在实际环境中准确识别面部表情是一项挑战。然而，目前所提出的方法在不同网络层学习到的尺寸变化的特征张量上应用相同的注意力方法来增强有用的特征，而没有适应特征张量的空间和通道尺寸的动态变化。

方法与结果分析

本文提出了一种融合不同尺寸特征图的方法，并针对不同尺寸设计了相应的注意力机制，逐步抑制干扰区域中的无用信息，利用丰富的语义信息来解决面部表情识别任务中的遮挡和姿态变化的问题。

图1展示了本文模型的整体网络架构，模型主要由两个部分组成：多样化特征提取模块（DFEM）和分层注意力模块（HAM）。

图1.模型框架

DFEM由四个特征聚合模块（FAB）组成，用于从不同层次提取多级特征，包括局部上下文特征、全局上下文特征和空间梯度特征，从而提升面部表情特征的表达能力。FAB的设计如图2所示，包含四个分支，用于提取互补特征。首先，使用局部卷积核从输入特征图中提取面部的局部细节，并通过局部上下文注意力机制自适应地聚焦与表情相关的特征，增强局部特征的表达。其次，FAB通过融合局部与全局上下文特征以及空间梯度特征，丰富了面部表情识别的信息，使得特征表达更为全面。

图2.FAB详细设计图

为了自适应地选择并有效融合不同层级的特征，文章设计了分层注意力模块（HAM）。HAM主要由三个部分组成：注意力特征融合块（AFFB）、迭代特征融合块（IFFB）和门控特征融合块（GFFB）。

AFFB的核心目标是通过聚焦于任务相关特征，抑制无关特征，以更好地利用不同特征之间的交互，从而在学习过程中保持更有效的特征表示。这一目标是通过引入注意力机制来实现的，该机制可以自适应地增强有用特征，同时抑制无用信息。

图3. AFFB详细设计图

IFFB细节图如图4所示。IFFB用于逐步聚合高层语义特征，增强对复杂面部表情的理解能力。通过迭代特征融合，IFFB能够逐步增强对重要特征的关注，提高对复杂表情的识别能力。

图4. IFFB详细设计图

GFFB细节图如图5所示。GFFB用于测量每个高层特征向量的有用性，并据此聚合信。GFFB包含多个门控单元（GEB1、GEB2、GEB3、GEB4），每个门控单元对应一个特征向量。这些门控单元通过计算每个特征向量的重要性来决定它们在最终融合特征中的贡献,并有效抑制无用的信息。GFFB能够有效地选择和融合对识别任务最有用的特征。

图5. GFFB详细设计图

通过层次化的设计和注意力机制，模型能够有效地提取和融合多种特征，以提高人脸表情识别的鲁棒性。DFEM 提供了丰富和多样化的特征表示，HAM 则通过自适应注意力机制进一步增强了对表情的识别能力。这些设计有效地解决了遮挡和姿态变化带来的挑战，提高了面部表情识别任务的性能。

大多数面部表情识别方法仅使用一个分类器来处理特征向量不同，本文使用共享分类器和最终分类器。共享分类器：用于提取和学习所有特征向量中的通用特征，鼓励模型学习更具泛化性的特征表示。最终分类器：将浅层和深层特征融合，帮助模型区分不同的面部表情，提高对面部表情的理解。

模型的损失函数由两个部分组成：分类损失和区域独立性损失。分类损失是交叉熵损失，用于指导模型进行表情分类。为了让注意力模块在不同输入图像中能够始终专注于特定的语义区域，本文引入了区域独立性损失。这一损失包括两个部分：1.特征中心拉近：鼓励相同类别的特征向量靠近其中心，从而减少特征的分散性。2.特征间隔增大：增加特征中心之间的距离，确保不同类别的特征更加可分。

与当前最先进方法的对比实验

模型在四个数据集（RAF-DB、AffectNet-7、AffectNet-8和CAER-S）面部表情识别任务中的对比实验结果如表1所示。

表1.模型在 RAF-DB、AffectNet-7、AffectNet-8和 CAER-S 数据集的对比实验

模型虽然参数数量较多，但由于高效的处理能力，仍然能够满足实时处理的要求。

为了评估模型在遮挡情况下的性能，在 O-AffectNet 和 O-RAF-DB 数据集上进行了实验，并将结果列在表2中。可以看出，模型在这两个数据集上分别取得了 65.74% 和 89.66% 的准确率，这优于基于注意力机制的 MANet 模型（Zhao, Liu & Wang, 2021），其准确率为 59.59% 和 83.65%。这些结果验证了模型在面部表情识别任务中更具抗遮挡能力。其主要原因在于，模型可以有选择性地抑制面部遮挡区域的特征，并基于设计的 HAM 模块增强与表情相关的特征。

表2. 在 O-AffectNet 和 O-RAF-DB 上的对比实验

表3的主要目的是展示DFEM在不同数据集上相对于其他模型变体的性能优势，强调了局部上下文特征的重要性以及融合不同特征对面部表情识别性能的积极影响。

表3. 在未经预训练的情况下，针对 RAF-DB、CAER-S、P-AffectNet 和 P-RAF-DB 进行 DFEM 的消融实验

表4的作用在于验证和比较了HAM模块及其变体在不同数据集上的性能，进一步证明了HAM在特征融合和注意力机制方面的优势。结果显示，HAM通过综合考虑特征的多样性和尺寸，在面部表情识别任务中取得了显著的性能提升。而GFFB的引入也使得模型能更精准地关注与表情相关的信息，增强了识别的准确性。

表4. 在未经预训练的情况下，针对 RAF-DB、CAER-S、P-AffectNet 和 P-RAF-DB 进行 HAM的消融实验

图6展示了不同模型在面部表情识别任务中的类激活图（CAM），用于对比这些模型在图像中关注的区域。每一行的第一张图是原始图像，接下来的是不同模型的类激活图，包括了本文提出的模型和其他一些现有模型，如 RAN、ResNet18、ResNet50、SCN、FG-AGRL 和 MANet。通过这些类激活图，可以看出不同模型在面部表情识别过程中关注的面部区域和特征。

图6.不同方法的类激活图（CAM）

通过类激活图的对比，说明了本文提出的模型在面部表情识别任务中具有更好的关注能力，尤其是对关键面部区域（如眼睛和嘴部）的聚焦。与其他模型相比，本文模型能够更有效地抑制干扰特征，提高表情识别的准确性。

结论

这篇文章提出了一种用于自然环境中面部表情识别的基于渐进特征融合的分层注意力网络。文中提出的多样特征提取模块（DFEM）能够有效地聚合多样化的互补特征，包括局部和全局上下文特征、低层次和高层次特征，以及对光照变化具有鲁棒性的梯度特征。分层注意力模块（HAM）则有效融合了这些多样化特征，通过渐进地增强关键部分的判别特征，抑制无关的特征，提升了识别的准确性。

实验结果显示，该模型在处理遮挡和姿势变化等复杂情况下具有较强的鲁棒性，并在多项面部表情识别任务中达到了当前最优的性能。

撰稿人：刘洁

审稿人：梁艳

登录用户可以查看和发表评论，请前往登录或注册。