本篇学习报告基于2021年2月发表于The Visual Computer期刊的论文“HybNet: a hybrid network structure for pain intensity estimation”,作者为Yibo Huang、Linbo Qing、Shengyu Xu、Lu Wang和Yonghong Peng,分别来自四川大学和曼彻斯特城市大学。
文章提出了一种被称为HybNet的端到端混合网络来提取图像序列的多维特征,该网络由3D卷积、2D卷积和1D卷积组成。具体而言,3D卷积神经网络(3D CNN)用于捕捉时空特征,2D卷积神经网络用于捕捉空间特征,而1D卷积神经网络主要用于捕捉面部地标的几何信息。最后,将三种不同网络获得的特征融合在一起进行回归。在UNBC-McMaster肩部疼痛表情数据库上对HybNet进行评估,它可以有效地提取辨别能力强的特征,并且与最先进的方法相比性能更好。
一、背景
自动疼痛强度估计在当前康复医学中具有巨大的潜力,通过分析面部图像可以获得患者的健康状况信息。早期的疼痛强度估计方法主要使用传统的手工制作特征。这类方法的缺点是需要根据数据库的特性仔细设计特征,该过程耗时且泛化性能较差。而采用深度学习方法进行疼痛强度估计的方法,要么只使用RCNN,要么只使用3D CNN,无法获得多维特征。为了解决上述问题,文章使用不同尺度的多维网络结构来获得不同维度的特征,然后将这些特征组合起来进行回归,以获得更好的实验结果。
二、方法
1.总体框架
HybNet网络结构如图1所示。该框架主要由三部分组成:3D CNN用于提取输入序列的时空特征,2D CNN侧重于从静态图像中提取空间信息,1D CNN用于提取AAM面部标志点信息中包含的几何特征。作者在网络框架中使用的3D CNN为S3D-G。S3D-G采用1×3×3和3×1×1的组合卷积核来代替传统的3×3×3卷积核,这样可以有效地减少参数的数量,提高实验的精度。ResNet用于捕捉输入帧的空间特征,ResNet的残差结构确保即使在深度网络结构中也不会出现精度下降和梯度爆炸等问题。为了有效地提取面部标志点中包含的疼痛强度信息,作者设计了一个1D CNN,它由三个卷积层和三个完全连接层组成。最后,从三个网络中提取的特征利用完全连接层融合在一起。
图1 HybNet的网络结构
2.数据预处理
数据预处理过程如图2所示。首先,利用数据库提供的AAM面部特征点计算视频序列的平均人脸形状。
图2 数据预处理过程
第二,对每个帧的人脸形状及其对应的平均人脸形状进行Delaunay三角网格化,通过使用相应的两组三角坐标点来计算仿射变换矩阵S,如下式所示:
第三,使用仿射变换矩阵S将三角网格图像投影到对应的三角形中,然后重新计算下一对三角形的仿射变换矩阵S并投影到对应的三角网格图像,以此类推,直到所有三角形都被处理为止。最后,根据目标尺寸对仿射图像进行裁剪,把所有图像转换为112×112像素大小,以满足网络结构的输入要求。
给定一个N帧的序列,对于序列中的每一帧,该帧被用作2D CNN的输入,该帧的面部标志点信息被用作1D CNN的输入。然后,从剩余的具有相同疼痛程度的帧中随机选择15个帧,以该帧作为3D CNN的输入形成16个帧的样本。
三、实验结果
1.数据集
在UNBC-McMaster数据库上进行实验,评估所提出的方法。处理后的数据由48398个帧组成,每个帧的PSPI得分在0到15之间,每个帧包含AAM提供的66个面部标志点。本文采用的数据库存在两个问题:样本极不均衡和大多数疼痛类别的数据量不足,其中,该数据库包含80%以上的“无痛苦”帧和不到20%的“痛苦”帧。因此,采用欠采样、加噪、对比度调整、亮度调整和图像反转来进行数据增强,其中欠采样主要用于降低“无痛”帧在整个数据库中的比例,而其他数据增强方法主要用于增加数据库中“疼痛”帧的比例。在此之后,训练数据可以扩展到10倍以上。数据增强的结果如图3所示。
图3 数据增强后的数据可视化
2.评价指标
采用25-折交叉验证对实验结果进行评估。为了进行比较,使用平均绝对误差(MAE)、均方误差(MSE)和皮尔逊相关系数(PCC)作为评价指标。MAE可以准确地反映实际预测误差的大小,MSE反映输出值与真实值之间的差异程度,PCC可以反映两个变量之间的线性相关性。因此,MSE和MAE越小越好,PPC越高越好。
3.消融实验
为了验证所提出的网络的有效性,设计了大量的消融实验,测试1D CNN(AAM标志点)、S3D-G、ResNet等分支的性能。消融实验的结果如表1所示。比较三个分支,ResNet50取得了最好的MAE和MSE,而S3D-G获得了最好的PCC,AAM标志点则只获得了中等性能。总体而言,任何一个分支都不能取得令人满意的结果。将分支进行组合,ResNet和1D CNN与S3D-G相结合,都能有效提高实验的准确性,但S3D-G与ResNet相结合能更有效地降低MSE,S3D-G和AAM面部标志点相结合能更好地改善PCC。
表1 消融实验结果
将消融实验结果进行可视化展示,如图4所示。
图4 消融实验结果可视化
将所提出的方法与文献中最先进的方法进行了比较,结果如表2所示。与传统的疼痛评估方法(文献[21-24])相比,显然文章提出的端到端方法在实验结果和方便性方面都远远优于这些方法。与基于深度学习的方法相比,文献[25-28]的方法都是先用CNN提取图像特征,再用二值编码或LSTM和RCNN得到相应的时间特征。而文章的方法则直接使用3D CNN提取图像序列的时空特征,更侧重于捕捉疼痛强度的全局变化趋势,因此可以获得更好的整体性能,即更高的PCC值。论文所提出的方法更适用于实际应用场景。
表2 算法比较结果
四、结论
该文将混合网络HybNet应用于分析患者的面部疼痛图像,以确定患者的疼痛强度。该方法将3D CNN、2D CNN和1D CNN相结合,提取动态时空序列特征、空间静态特征和几何特征,并将三种不同的特征融合在一起,形成更具代表性的特征。所提出的方法在UNBC-McMaster数据库上进行了评估,通过比较不同方法的实验结果,可以看出该方法可以有效地预测不同程度的疼痛强度。
但是,这篇论文也存在一些局限性和未来改进的方向,比如:需要解决复杂场景中面部标志点信息的获取,使这种方法能够应用于更多样的场景。
这篇论文所提方法在实际应用中有以下几个方面的价值:
目前对患者疼痛强度的估计主要依赖于医务人员的主观评价和患者的自我报告。对于前者,医务人员持续估计疼痛强度需要大量的人力资源,这间接增加了医院的负担;对于后者,一些疼痛患者无法准确、及时地表达自己的感受,如婴儿、认知症患者、插管/镇静患者等。针对上述问题,这种可靠的自动疼痛强度估计方法可以获得患者的疼痛强度信息并反馈给医护人员,从而可以采取合适的疼痛管理,为患者制定适当的处理方案。
撰稿:刘洁
审稿:梁艳