该论文发表于 IEEE Transactions on Image Processing 2024(CCF A类),题目为《SelfGCN: Graph Convolution Network with Self-Attention for Skeleton-Based Action Recognition》。
合肥大学的吴志泽副教授为论文的第一作者,合肥大学的汤卫思教授为本文通讯作者。
论文链接:
https://ieeexplore.ieee.org/document/10618962
当前传统的图卷积网络(GCNS)在基于骨架的动作识别领域取得了显著的成果,但它们主要关注局部节点依赖关系,难以捕捉长距离的节点关系。此外,目前的现有方法通常对所有帧使用相同的骨架拓扑,限制了对时空特征的建模能力。
为了解决这些问题,本文提出了一种新的图卷积神经网络SelfGCN,主要通过两个核心模块克服上述局限性。图卷积与自注意力混合特征模块(MFSG),并行引入图卷积和自注意力机制,分别负责捕获局部和全局的节点依赖,通过双向交互机制,在通道维度和空间维度进行特征互补。时间特定空间自注意力模块(TSSA),基于自注意力机制建模骨架序列中每一帧节点的空间关系,提取每一帧的独特空间特征,弥补统一拓扑结构的不足。SelfGCN在NTU RGB+D,NTU RGB+D120和 Northwestern-UCLA三个主流数据集上均达到或超过了现有最新方法的精度。
人类动作识别作为计算机视觉领域的一个重要任务,基于骨架的动作识别逐渐成为一种非常有效的解决方法,相较于传统的RGB视频数据,骨架数据减少了环境因素的干扰,同时能够更加高效地表示人体运动的结构化变化。
近年来图卷积网络(GCN)在骨架动作识别领域取得了显著进展,相较于循环神经网络(RNN)或卷积神经网络(CNN),图卷积网络可以更加充分地利用关节之间的连接信息。但是现有的GCN方法通常使用预定义的骨架拓扑,无法有效处理跨越长距离的节点关系,同时现有方法大多采用统一的拓扑结构对所有时间帧进行建模。因此,如何克服上述问题成为了待解决的研究需求。
本文提出了一种新的图卷积网络架构SelfGCN,它结合了图卷积和自注意力机制,旨在解决现有基于GCN的骨架识别方法中的一些问题,主要包含混合特征、时间特定空间自注意力、多尺度时间卷积三个模块,三个模块相互串联、互补协作,共同优化骨架序列的时空特征表示,提升动作识别的准确性。
图1 SelfGCN网络的整体架构 (a) SelfGCN网络的流程 (b) SelfGC 块的组成与结构 (c) 图卷积与自注意力混合特征(MFSG)模块 (d) 时间特定空间自注意力(TSSA)模块 (e) 多尺度时间卷积(MS-TC)模块的结构
图卷积模块:SelfGCN采用类似于CTR-GCN的方法,同时学习共享拓扑和通道特定的相关性。通过相关性建模函数
M(⋅)
来模拟两个顶点之间的拓扑关系,可以表示为:其中 σ(⋅) 表示激活函数,P(⋅) 是平均池化操作,P(ψ(xi)) 和 P(ω(xj)) 分别表示经过线性变换和池化操作后的两个节点的特征。之后再使用线性变化 ɛ(⋅) 增加通道维度,获取通道特定的相关性 CA :
CAij 反映了顶点 vi 和 vj 之间的通道特定拓扑关系。将通道的特定相关性 CA 与领接矩阵形式的共享拓扑 A 相结合,得到特定通道的拓扑关系 R :
其中 α 是一个可训练的标量参数,用于调整通道拓扑的改进强度。最后通过得到的通道特定拓扑R和高级特征X′,以通道方式对空间特征进行提取:
其中,ρ(⋅) 是用于将输入特征转换为高级特征的线性变换函数,AG 是聚合函数,Ri 是通道的拓扑结构,X':,:,i 是通道的变换输入特征,⨁ 表示连接操作。通过这种方式,SelfGCN 可以有效地从不同通道聚合关节特征,同时捕捉局部和全局的空间特征。
自注意力模块:为了弥补图卷积在建模长距离的关节关系上的缺陷,引入具有全局感受野的自注意力机制用于捕获关节间的全局依赖关系,补充图卷积处理的局部关系。本文使用图卷积模块经过线性变化的特征作为 query 和 key ,分别表示为 X1=ψ(X) 和 X2=ω(X) 。
同时为了与CTR-GCN的通道拓扑结构保持一致,本文为每个通道独立地使用自注意力机制来建模通道内关节的全局关系。对于第 i 个通道,自注意力权重 SAi 通过以下公式计算:
其中 SAi 表示第 i 个通道内关节间的全局关系,Xj:,:,i 表示变换后的输入特征的第 i 个通道特征,T 是时间帧的数量。最后将关系矩阵 SAi 与相应通道的输入特征相乘,即可以得到每个通道的全局空间特征。通过自注意力模块,SelfGCN能够有效地捕捉关节间的全局依赖关系。
混合特征模块:混合特征模块将图卷积和自注意力并行结合,以扩展空间感受野,这种设计允许同时对输入特征进行图卷积和自注意力建模,增强了模型对空间特征的捕捉能力。在图卷积分支和自注意力分支之间实现了双向交互,以实现通道和空间维度之间的信息互补。
使用自注意力模块的空间建模结果进行通道注意力计算,包括平均池化、两个连续的 1x1 卷积,以及后续的 GELU 激活函数,最后通过 sigmoid 函数生成通道注意力结果 Cf :
将通道注意力结果应用于通道特定的拓扑关系 R,使用 Rf 和变换后的输入特征 X′ 聚合每个通道的特征,并将它们连接起来作为图卷积模块的输出 OutG 。对图卷积模块的建模结果应用空间注意力,包括池化操作、 1x1 卷积和 sigmoid 函数,再将空间注意力应用于自注意力模块得到建模结果 OutS :
最后,将两个模块的建模结果 OutG 和 OutS 相加,即可以得到MFSG模块的输出。
TSSA模块旨在解决传统的图卷积网络在处理骨架特征序列时,对所有帧使用相同的拓扑结构,忽略了每帧内时序特定的空间关系。TSSA模块通过捕捉每帧内关节之间的独特空间关系,而不是对所有帧使用统一的拓扑结构。
首先对输入的骨架特征 X 通过两个线性变化 ϕ(⋅) 和 φ(⋅) 将其转换为高级特征:
其中 Xa 和 Xb 分别表示经过两个不同线性变化后的特征,W1 和 W2 则是权重矩阵。然后再通过点积计算单帧内每个节点之间的相关性,得到一个关系矩阵 TA ,计算公式如下:
最后在每个通道中计算输入矩阵和关系矩阵之间的点积,再沿着时间维度 T 连接每帧的空间建模结果,最后可以获得最终的时间特定空间建模结果 ZT :
SelfGCN网络通过结合MFSG模块和TSSA模块以及MS-TC模块,形成了具有自注意力的图卷积网络块(SelfGC block)。这种网络块被堆叠L层,以构建基于骨架的人体动作识别网络。TSSA模块的输出特征乘以一个可学习的系数 β ,其中 β 用于调整时序特定空间特征的重要性,然后加到MFSG模块的输出特征上:
经过L层的空间和时序建模后,最终的输出特征通过全局平均池化层和全连接层,以获得动作分类的分数。
作者主要将SelfGCN在NTU RGB+D、NTU RGB+D120和Northwestern-UCLA三个主流的基准数据集上进行了评估。如表1、表2、表3所示,在NTU RGB+D数据集的X-Sub标准上达到了93.1%的Top-1准确率,是目前最好的结果。在NTU RGB+D120数据集的X-Sub标准上与PSUMNet和InfoGCN(4s)并列第一,而在X-Set标准上,SelfGCN以91%的Top-1准确率单独排名第一。在Northwestern-UCLA数据集上,SelfGCN达到了96.8%的Top-1准确率,超过了排名第二的InfoGCN(96.6%)。
此外,通过图2中展示的在基线模型中加入TSSA模块和MFSG模块之后混淆矩阵的变化,也可以直观地看到TSSA和MFSG模块对模型性能的影响,在减少特定类型错误和提高特定动作识别准确度方面提升较为明显。
图2 混淆矩阵对比 (a) 基线模型 (b) 加入TSSA模块后的模型 (c) 使用MFSG模块作为空间建模方法的模型
本文提出了SelfGCN,一种结合图卷积和自注意力机制的骨架动作识别模型。通过引入混合特征模块(MFSG)和时间特定空间自注意力模块(TSSA),SelfGCN 能同时建模局部和全局依赖,并通过多尺度时间卷积(MS-TC)增强时序特征学习。实验结果表明,SelfGCN 在多个骨架数据集上优于现有方法,展示了其强大的性能和可扩展性。该模型为骨架动作识别领域提供了新的思路,并推动了图卷积与自注意力机制的结合应用。
撰稿人:徐煜涛
审稿人:周成菊