学习报告:用于情绪识别的高效神经结构搜索

本篇学习报告基于2023年8月发表于中科院一区期刊Expert Systems with Applications的论文“Efficient neural architecture search for emotion recognition”,这篇论文提出了一种基于可微结构搜索的算法EmoNAS,以通过优化的CNN模型来应对宏观和微观表情方面的挑战,并建议在搜索阶段使用的架构设计中使用统一数量的单元。实验结果表明通过EmoNAS搜索生成的模型非常轻量级和快速,且效果优于现有大多数宏观和微观表情识别模型。

一、背景

目前,面部表情识别最先进的方法需要人类专业知识的大量努力来设计有效的神经网络架构。由于深度网络设计涉及到人类的努力,在效率和准确性方面都有改进的空间。此外,某些面部区域的细微变化会导致情绪类别的变化。需要为真实世界的应用开发具有鲁棒性且轻量级的面部表情识别模型。然而,宏观表情和微表情在性质上是不同的,因此设计一个能够有效地处理这两种类型的表情的网络是具有挑战性的。大多数现有的面部表情识别(FER)算法要么是为宏观表情分类,要么是为微表情分类。目前还没有单一的算法来解决宏观和微观表情识别问题。

为了解决上述问题,本文首次尝试了一种基于神经结构搜索(NAS)的方法来处理宏观和微观面部表情中的FER任务。提出了基于DARTS中提出的优化技术的EmoNAS,以加快搜索过程。EmoNAS的设计决策是对FER领域特定挑战进行仔细分析的结果。与DART和P-DART方法相比,它的卓越性能也验证了这一点。

二、方法

1、单元结构

本文提出的框架模型的目标是发现一种具有鲁棒性的单元拓扑结构,并使用它来开发基于单元的卷积网络。如图1所示,一个单元被表征为具有N个节点的有向无环图,最初,边缘的操作是未知的,需要通过搜索以确定最终的结构。

图1 单元结构概述图

本文中一共使用两种类型的单元:常规单元和还原单元。常规单元通过保持空间分辨率将特征图带到下一个单元,而还原单元则意味着向下采样。

2、总体架构

本文提出的用于搜索神经网络结构的EmoNAS算法的结构如图2所示,寻找一个计算上可行的单元作为最终架构的构建块,通过发现最佳的单元结构,从而为特定数据集进行最佳的网络模型架构设计。

图2 EmoNAS算法的结构图

从图2可以看出,在训练阶段,对规则单元和还原单元进行优化。在评估中,对优化的单元进行堆叠以对输入图像进行分类。本文所使用的搜索空间仅限于7个操作,其中d-s表示深度可分离(depthwise-separable),dil表示扩张(dilated)。这些设计决策帮助研究人员在不同的数据集上为FER创建了非常轻量级的架构。

3、数据预处理

通常,如果图像的单个实例足以进行宏观表情分析。,因为微表情微小和短暂的性质,则需要时空数据。因此,为了保持统一的实验设置,本文采用动态成像概念从帧的时间序列中提取由时空特征组成的单实例特征映射。动态成像通过保存微表情的高活跃动态区域,将视频信息表示为单个实例。具体而言,动态图像通过瞄准面部移动区域来解释视频的内容,并将其压缩为单个实例。动态图像是保持视频序列的时空特征的RGB响应。

图3中展示了动态响应的示例,左边为视频序列,右边为动态图像。可以观察到,视频流的均匀和非均匀特征都嵌入在单个帧中,然后使用这些动态图像来搜索和训练用于微表情识别的NAS模型。

图3 动态响应示例图

三、实验结果

1、数据集

本文实验使用七个宏观表情实验集(CK+, MUG, ISEDS, DISFA, OULU-CASIA, FER2013和 RAF-DB)和六个微表情实验集(CASME-I , CASME-II, CAS(ME), SAMM, SMIC, Composite (MEGC2019 challenge) dataset )。图4展示具有挑战性任务的不同宏观表情数据集的示例插图。其中CK+是基于姿势的表情数据集;MUG是具有丰富分辨率的表情数据集,DISFA 和ISED是自然场景的表情数据集:自然表达式;OULU是不同照明变体的表情数据集;FER-13是实时非实验室场景的表情数据集;RAF-DB是非实验室场景的表情数据集。

图4 部分表情数据集的示例插图

2、最终单元结构

EmoNAS发现的CK+(6-exp)、MUG(6-exp)的最终单元结构如图5所示。(a)和(b)为在CK+(6-exp)上,(c)和(d)为在MUG(6-exp)为上发现的最终规则和还原单元结构。

图5 部分宏观表情最终单元结构图

EmoNAS为CASMEI、CASME-II、CAS(ME)和SAMM发现的最终单元结构如图6所示。(a)和(b)为在CASME-II上,(c)和(d)为在SAMM为上发现的最终规则和还原单元结构。

图6 部分微观表情最终单元结构图

3、各个数据集结果对比

(a)CK+数据集

在CK+数据集上,本文方法与现有深度学习方法进行了比较,结果如表1所示。从表中可以看出所提出的EmoNAS发现的架构优于现有最先进的深度学习方法。从结果中,可以观察到,与针对CK+数据集提出的EmoNAS相比,Auto FERNet获得了更高的准确性。但Auto FERNet需要大约两倍的计算能力。

表1 CK+数据集模型比较结果

(b) ISED、DISFA和MUG数据集

在ISED、DISFA和MUG的定量结果如表2所示。MUG由摆姿势的面部表情组成,而ISED和DISFA则由自发的表情组成。与传统设计的CNN网络相比,所提出的基于NAS的模型在定量性能和计算复杂性方面都有所改进。结果还表明,所提出的方法对摆姿势的和自发的FER问题都是有效的。

表2 ISED、DISFA和MUG数据集模型比较结果

(c) OULU-VIS-Strong数据集

OULU-VIS-Strong中的定量结果如表3所示。从下表中可以明显看出,从EmoNAS所提出的模型获得了优于现有方法的性能。

表3 OULU-VIS-Strong数据集模型比较结果

(d) FER2013数据集

本文还在4表的7分类设置中对FER2013的私有测试集的模型进行了评估。FER 2013是一个具有挑战性的基准FER数据集。下表结果进一步表明了所提出的EmoNAS对从不同场景中收集的各种FER数据集的鲁棒性。

表4 FER2013数据集模型比较结果

(e) RAF-DB数据集

在RAF-DB数据集上。使用RAF-DB中提供的七个表情标签来搜索和训练EmoNAS。表5显示了EmoNAS获得的RAF-DB的分类精度和总体精度。所提出的EmoNAS(87.28%的总体准确率)优于文献中的所有其他方法。此外,研究结果表明,EmoNAS在识别厌恶、恐惧和惊讶类别时达到了最高的准确性。它在其余类别中也保持了良好的准确性,从而使整体准确性优于现有的最先进技术。

表5 RAF-DB数据集模型比较结果

(f) CASME-I与CASME-II数据集

对于微表情,通过测试平均分类准确度来检验其有效性。 表6显示了CASME-I和CASME-II的分类精度结果。作者将本文的结果与文献中的人工和深度学习方法进行了比较。EmoNAS在识别准确性方面明显优于现有方法。它还分别改进了CASME-I和CASME-II中现有的NAS方法。

表6 CASME-I与CASME-II数据集模型比较结果

(g) CAS(ME)与SAMM数据集

表7显示了CAS(ME)与SAMM的分类准确度结果。本文的方法优于现有的方法。

表7 CAS(ME)与SAMM数据集模型比较结果

(h) SMIC和Composite数据集

SMIC和Composite数据集的定量结果如表8所示。在SMIC中,与现有方法相比,所提出的EmoNAS获得了优越的识别精度和未加权平均召回率(UAR)

表8 SMIC和Composite数据集模型比较结果

4、消融实验

本文通过消融分析研究了EmoNAS的多种成分的影响,以了解其在FER任务中的行为,在两个宏观表情数据集CK+、DISFA和两个微表情数据集上进行了实验。通过EmoNAS搜索生成的模型非常轻量级和快速。表9显示了EmoNAS在不同宏观和微观表情数据集中生成的模型的内存、速度和计算复杂性。除了FER2013和CK+之外,所提出的模型需要大约≈50万(M)的可训练参数。这大大低于MobileNet(3.2M)、VGG16(138M)和VGG19(144M)ResNet50(31M)。它甚至比HiNet(1M)更低,精度也比HiNet好得多。此外,与MobileNet(23.8 MB)、VGG16(500.3 MB)、VGA 19(520.4 MB)和ResNet(88.4 MB)相比,本文的模型使用更少的内存空间(13-15MB)。因此,它可以用于在嵌入式设备中进行部署。GPU上的速度表明,所提出的模型非常快(高达60fps),这使它们适合实时应用。

表9 EmoNAS搜索的最终模型的内存、速度和复杂性分析

同时,本文还进一步将本文的工作与表10中微表情识别和面部表情识别的现有方法进行了比较。EmoNAS模型需要最少的推理操作次数,模型中的参数为约为0.55至0.60万。本文的模型大小比现有的NAS方法(P-DARTS)小约38MB。

表10 EmoNAS的复杂性与现有方法的比较分析

四、结论

本文首次尝试了一种基于NAS的方法来处理宏观和微观面部表情中的FER任务。EmoNAS的设计决策是对FER领域特定挑战进行仔细分析的结果。与DART和P-DART方法相比,它的卓越性能也验证了这一点。在13个基准(7个宏观表情和6个微表情)数据集中,与现有的最先进的FER方法相比,所得到的模型实现了更好的性能。搜索到的模型以很小的计算成本和很高的推理速度获得了更高的精度。

但本文同时也存在一些可以优化的方向:未来,可以在搜索过程中研究基于共享参数的方案,以发现更好的性能感知架构。此外,可以单独优化跳过连接的数量,以便在复杂性和性能之间进行更好的权衡。在搜索时,选择评估中的单元数量的决定也可以被包括作为优化的参数。所提出的框架被设计用于处理单个图像输入。这需要将视频数据预处理为用于微表情分析的单个实例特征图。

撰稿:姚泽楠

审稿:梁艳


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: